京公网安备 11010802034615号
经营许可证编号:京B2-20210330
多大的数据才算“大数据”
什么是大数据有一个故事,说的是一位顾客订购披萨时,披萨店可以立即调出这位顾客的许多信息,比如送披萨上门必有的家庭、单位等地址和电话,顾客的消费习惯从而推荐适合他的披萨种类,顾客名下的银行卡透支情况从而确定他的支付方式,甚至顾客要自取披萨时,还能根据顾客名下车辆的停放位置预估他的到店时间等等。
从这个故事,我们可以看出大数据的一些关键特征,比如容量大、类型多、关联性强、有价值等等。“大数据是以高容量、多样性、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。”工信部信息化和软件服务业司副司长李冠宇接受经济日报·中国经济网记者采访时说。
仅仅规模大不是大数据
大数据,顾名思义,“大”该是应有之义。“大数据的定义最初与容量有关系。”李冠宇分析说,业界有几种对大数据的定义,其中一个共同点就是数据的容量超出了原有的存储、管理和处理能力。
正如中国电子信息产业发展研究院副院长樊会文接受记者采访时指出的,大数据概念产生就是因为数据量和数据类型急剧增加,以至于原有的数据存储、传输、处理以及管理技术不能胜任,需要全新的技术工具和手段。
信息技术日新月异,大数据的定义也在发生变化。工信部赛迪研究院软件所所长潘文说,数据即时处理的速度(Velocity)、数据格式的多样化(Variety)与数据量的规模(Volume)被称为大数据“3V”。但随着近几年数据的复杂程度越来越高,“3V”已不足以定义新时代的大数据,准确性(Veracity)、可视性(Visualization)、合法性(Validity)等特性又被加入大数据的新解,从“3V”变成了“6V”。
对于“多大容量的数据才算大数据”,潘文说,大数据的规模并没有具体的标准,仅仅规模大也不能算作大数据。规模大本身也要从两个维度来衡量,一是从时间序列累积大量的数据,二是在深度上更加细化的数据。
李冠宇说,比如一份现在看起来很小的数据,但是纵向积累久了也可以变成大数据,横向与其他数据关联起来也可能形成大数据。而一份很大的数据如果没有关联性、没有价值也不是大数据。
运满满研究院院长徐强认为,“大”是必要条件,但非充分条件。基于移动互联网用户规模红利,国内平台型企业比较容易获取大量数据,但数据不是越多越好,无用数据就像噪音,会给数据分析、清洗、脱敏和可视化带来负担。
这也正如阿里巴巴集团董事局主席马云在某次演讲中说的:“很多人以为大数据就是数据量很大,其实大数据的大是大计算的大,大计算+数据,称之为大数据。”
“水涨船高”的大数据
今年麦收时节,在雷沃重工的全国“三夏”跨区作业信息服务中心,显示屏的全国电子地图上有许多大小不一、颜色不同的圆圈,这是每个区域正在作业的收割机。智能化的收割机会自动获得许多数据,包括机器运行情况、收割量、小麦含水量等,数据传回后台汇总后,总体收割情况一目了然。
“大数据概念正是来自信息技术的飞速发展和应用,特别是随着云计算、物联网、移动互联网的应用,数据量迅猛增长。数据来源有两种,一种与人有关,比如政府、企业等为人们服务时产生的数据;另一种与物有关,在移动泛在、万物互联时代,物联网应用的浪潮将带动数据量爆发式增长。”李冠宇说。
这也就不难理解,为何当下数据产生的速度如此之快。正如樊会文所分析的,一方面,信息终端大面积普及,信息源大量增加;另一方面,基于云计算的互联网信息平台快速增长,数据向平台大规模集中。
大数据与云计算、物联网、人工智能等新一代信息技术之间相互影响、相互促进、相互融合。徐强说,运满满通过车联网设备和信息平台,每天获取3TB至4TB的数据,运用先进的大数据算法模型,实现了智能车货匹配、智能实时调度等。
樊会文认为,云计算是硬件资源的虚拟化,而大数据是海量数据的高效处理。简单来说,云计算是大数据的基础,有了云计算才能大量集中数据从而产生大数据。同时,大数据也支撑了云计算应用创新,带动云计算发展。
人工智能的核心在于大数据支撑。围棋人工智能程序“阿尔法狗”打败柯洁,离不开大数据的支持。“大数据技术能够通过数据采集、分析等方式,从海量数据中快速获得有价值的信息,为深度学习等人工智能算法提供坚实的素材基础。反过来,人工智能技术也促进了大数据技术的进步。两者相辅相成,任何一方技术的突破都会促进另外一方的发展。”潘文说。
核心价值在于应用
刚刚过去的“6·18”再次掀起网购热潮。网购消费者基本都被精准推送过广告信息,如曾浏览过电饭煲的消费者,很长一段时间内会在登录页面后看到各品牌电饭煲信息。
阿里、京东、360等互联网平台接触消费者众多,也因此获得了很多数据。但是正如精准推送一样,不对这些数据进行处理、挖掘就没法产生价值。比如雷沃收割机传回的数据进行汇总后还要分析处理,从而得出对收割作业乃至整个农业都有意义的结论才是这些数据的价值所在。
“大数据作为重要的基础性战略资源,核心价值在于应用,在于其赋值和赋能作用,在于对大量数据的分析和挖掘后所带来的决策支撑,能够为我们的生产生活、经营管理、社会治理、民生服务等各方面带来高效、便捷、精准的服务。”李冠宇强调。
我们正在步入万物互联时代。华为预测,到2025年,物联网设备的数量将接近1000亿个。工信部统计数据显示,目前我国网民数量超过7亿,移动电话用户规模已经突破13亿,均居世界第一。
“全球数据总量呈现指数级增长,企业级用户拥有的数据量在快速增加。互联网的社会化生产出巨量数据。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27在数字化时代,企业积累的海量数据如同散落的珍珠,若缺乏有效的梳理与分类,终将难以发挥实际价值。CDA(Certified Data Analys ...
2026-02-27在问卷调研中,我们常遇到这样的场景:针对同一批调查对象,在不同时间点(如干预前、干预后、随访期)发放相同或相似的问卷,收 ...
2026-02-26在销售管理的实操场景中,“销售机会”是核心抓手—— 从潜在客户接触到最终成交,每一个环节都藏着业绩增长的关键,也暗藏着客 ...
2026-02-26在CDA数据分析师的日常工作中,数据提取、整理、加工是所有分析工作的起点,而“创建表”与“创建视图”,则是数据库操作中最基 ...
2026-02-26在机器学习分析、数据决策的全流程中,“数据质量决定分析价值”早已成为行业共识—— 正如我们此前在运用机器学习进行分析时强 ...
2026-02-25在数字化时代,数据已成为企业决策、行业升级的核心资产,但海量杂乱的原始数据本身不具备价值—— 只有通过科学的分析方法,挖 ...
2026-02-25在数字化时代,数据已成为企业核心资产,而“数据存储有序化、数据分析专业化、数据价值可落地”,则是企业实现数据驱动的三大核 ...
2026-02-25在数据分析、机器学习的实操场景中,聚类分析与主成分分析(PCA)是两种高频使用的统计与数据处理方法。二者常被用于数据预处理 ...
2026-02-24在聚类分析的实操场景中,K-Means算法因其简单高效、易落地的特点,成为处理无监督分类问题的首选工具——无论是用户画像分层、 ...
2026-02-24数字化浪潮下,数据已成为企业核心竞争力,“用数据说话、用数据决策”成为企业发展的核心逻辑。CDA(Certified Data Analyst) ...
2026-02-24CDA一级知识点汇总手册 第五章 业务数据的特征、处理与透视分析考点52:业务数据分析基础考点53:输入和资源需求考点54:业务数 ...
2026-02-23CDA一级知识点汇总手册 第四章 战略与业务数据分析考点43:战略数据分析基础考点44:表格结构数据的使用考点45:输入数据和资源 ...
2026-02-22CDA一级知识点汇总手册 第三章 商业数据分析框架考点27:商业数据分析体系的核心逻辑——BSC五视角框架考点28:战略视角考点29: ...
2026-02-20CDA一级知识点汇总手册 第二章 数据分析方法考点7:基础范式的核心逻辑(本体论与流程化)考点8:分类分析(本体论核心应用)考 ...
2026-02-18第一章:数据分析思维考点1:UVCA时代的特点考点2:数据分析背后的逻辑思维方法论考点3:流程化企业的数据分析需求考点4:企业数 ...
2026-02-16在数据分析、业务决策、科学研究等领域,统计模型是连接原始数据与业务价值的核心工具——它通过对数据的规律提炼、变量关联分析 ...
2026-02-14在SQL查询实操中,SELECT * 与 SELECT 字段1, 字段2,...(指定个别字段)是最常用的两种查询方式。很多开发者在日常开发中,为了 ...
2026-02-14对CDA(Certified Data Analyst)数据分析师而言,数据分析的核心不是孤立解读单个指标数值,而是构建一套科学、完整、贴合业务 ...
2026-02-14