
“大数据时代”开启产业转型新模式
有人把数据比喻为蕴藏能量的煤矿,不同煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”,价值含量、挖掘成本比数量更为重要。现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。
大数据带来新产业
说起“大数据”这三个字,很多人都听过,但要说真正了解“大数据”是什么意思,相信绝大多数人都并不清楚。近日,记者来到位于南河道高新大厦的汉唐大数据研究院,这里是由兰州睿创波迪信息科技有限公司发起,在省、市相关政府部门支持下,联合国内知名高校、科研院所,聘请了十多名包括院士、长江学者、千人计划学者在内的国内顶级专家,集产、学、研一体的大数据研究机构,同时,作为兰州市高新区创业中心重点扶持项目之一,也得到了一整层楼共1066㎡的创业场所作为扶持。
“近两年,大家对大数据的概念听得很多,但大都是一些概念上的炒作,人们都不知道大数据到底是做什么的。很多人都问过我一个问题,你的数据从哪来?其实大数据而言,它不仅是一个数据的加工分析利用,其实是一整个技术产业链的发展,需要各方面的配套,并不是单纯某个方面的问题。”兰州睿创波迪信息科技有限公司总经理张亚东说。他认为,大数据的概念比较多,可能现在大众比较认同的一种解释是:数据量大、或者复杂到一定程度,已经用传统的方式无法进行处理的数据,称之为大数据。与传统数据相比较,大数据呈现出诸多新的特性,如数据容量大、数据类型繁多、价值密度低及处理速度快等,其最核心的价值就是在于对海量数据进行存储、分析与挖掘,需要研究与之相应地一系列新方法、新技术或新标准。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。简而言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。
研究差异决定细化走向
“其实一开始建数据院是为了服务我们自己的项目,睿创波迪信息科技有限公司是以做软件为主,包括移动互联网这块,需要一些大数据的分析,我们聘请的博士就是大数据研究领域的专业人士。在项目开展过程中发现以传统的项目角度来做大数据存在诸多问题,主要是由于当前项目与人的生活、商业、医疗、教育、物业等方面都有关系,是一个产业性的问题,单独靠一两个人或一两个企业是很难解决的。所以去年我们就跑去北京,到中科院、清华这些专业人士聚集的地方‘取经’,最终邀请到数位活跃在物联网、云计算、数据库的国内知名专家加入我们,可以说他们的一些技术、成果,通过我们可以很好的应用到现实中,所以大家一拍即合,为了搭建一个良好的协作平台,最终由睿创波迪作为发起方,共同筹建成立了我们这个汉唐大数据研究院。”
张亚东告诉记者,初期以面向消费服务的商业大数据研究为目标,研究基于时空数据的数据采集、存储、检索体系架构,建设CTM公共商业数据平台,在此基础上围绕安全、交通、健康、金融、商业、生活等,凝练出几个准国家级重点实验室或工程中心的研究方向,形成几个具有自有特色的研究实体。目前,研究院下设有:大数据基础理论与关键技术研究中心、智慧生活大数据研究中心、隐私安全大数据研究中心、
健康与教育大数据研究中心。
记者了解到,根据不同的研究方向,每个实验室所侧重的数据研究方向也各有不同。比如在智慧生活大数据研究中心,围绕智慧生活,包括家居、商业、交通、旅游等,相关的系统架构、关键技术为主要研究目标,以产业化应用为目的,研究方向主要包括智慧社区、智慧商业、智慧交通、智慧旅游等方面。“我们正在榆中建立西北首个真正意义上的‘智慧社区’,它不等同于拥有很多智能化设备的智能社区,而是像‘智慧城市’这种概念,为每个人提供的服务都是不一样的,可以说是个性化服务,数据能自动识别、自动判别为不同的人提供不同的服务。但‘智慧城市’是一个很宽泛、涉及的行业非常广的一个项目,它的建设周期或者建设成本是非常耗时耗力的,所以我们以点入手,先从社区开始。”张亚东表示,在我们生活中,每个人每天面临到的信息量都非常的大,像视频、图像、语音等等这些“非结构化”的数据信息的采集、存储、加工、利用就是未来大数据要做的事情。
力争建设大数据“贝尔实验室”
在谈到如何将大数据技术应用到实际生活中时,张亚东表示,接下来汉唐大数据研究院将和地产公司亨威集团合作,在榆中建立一座“主题购物公园”。“传统的城市综合体都是提着大包小包的在购物,如何将拎包购物变成一个休闲娱乐购物呢?”他解释,逛商场时看中某件商品,扫描刷卡以后可以继续去逛街去吃饭去休闲娱乐,而不用自己拎着大包小包,整个逛完以后买好的商品全部都打包好直接送到家里,或者直接送到地下停车场顾客的车位旁,是不是很方便呢?“这都是我们下一步计划要做的事情,都是应用大数据的技术,更有可能的是,比如你在商场里走路,通过你走路的快慢,你眼光的方向,通过大数据的集中处理,就可以判断出你感兴趣的东西是什么,你走的慢,要么是有事情在这里等人,要么就是你有个感兴趣的东西在这里,这就是大数据的视频技术。很多个体无意识的行为,在一个群体里面,他就是有规律可寻的,这就是大数据体现在生活中的一个方面。”
技术服务商是研究院今后扮演的重要角色。把政府、企业、高校、研究院所、资本和创业型企业连接起来,实现产学研对接、推动行业发展是中心建设的重要目标。力争建设成为大数据行业的“贝尔实验室”,并将研究院建设成为学科、学术、技术、产业、机制等均在国内具有引领地位的大型创新平台。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14