京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代:解析大数据的幕后推手是什么
当今,信息产业发达国家,如美、英、德、日等此前已将大数据作为国家核心竞争力提升为了国家战略。数字主权将是继边防、海防、空防之后,又一个大国博弈的空间。
一、大数据的定义和特征
大数据并非现在才出现。中国东汉时期人口已达6千多万,这显然是一个大数据,但不是今天讨论的大数据。维基百科对大数据的定义为:“大数据意指一个超大、难以用现有常规的数据库管理技术和工具处理的数据集。”大数据研究的目的是将数据转化为知识,探索数据的产生机制,进行预测和政策制定。
大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Volume、Variety、Value和Velocity),即体量大、多样性、价值密度低和处理速度快。大数据的“大”没有精确的定义,不同的时代对应着不同的大数据规模。二是数据类型多样。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。三是价值密度低。大数据分析犹如“大海捞针”。四是处理速度快。
二、解读大数据的主要成因
大数据的背后推手有哪些?以下三大因素是大数据的主要成因:
第一,人类保持数据的能力增强。
预计2020年,1太硬盘的价格将下降到3美元,相当于一杯咖啡的价格。一所普通大学的图书馆,其馆藏量大约就一两个太。
第二,人类生产数据的能力增强。
从2004年起,以脸谱网(Face book)、推特(Twitter)为代表的社交媒体相继问世,拉开了互联网的崭新时代—2.0时代。随着社交媒体的问世,带来以下三大变化:
一是社交媒体把交流和协同的功能推到了一个登峰造极的高度。在此之前,互联网的主要作用是信息的传播和分享,其最主要的组织形式是建立网站,但网站是静态的。进入Web2.0时代之后,互联网开始成为人们实时互动、交流协同的载体。
二是社交媒体推动数据总量骤然增加。由于社交媒体的横空出世,人类自己开始在互联网上生产数据,例如发推特、微博和微信,记录各自的活动和行为,全世界的网民都是数据的生产者,每个网民都犹如一个信息系统、一个传感器,不断地制造数据,这引发了人类历史上迄今为止最庞大的数据爆炸。
三是社交媒体使人类的数据世界更为复杂。数据包含两类数据:结构化数据和非结构化数据。在大家发的微博中,你的带图片、他的带视频,大小、结构完全不一样。因为没有严整的结构,在社交媒体上产生的数据,也被称为非结构化数据。目前全世界的数据大约75%都是非结构化数据。这部分数据的处理,远比结构严整的数据困难。
第三,人类使用数据的能力增强。
大数据之大,不仅在于其大容量,更在于其大价值。最根本的原因,是人类使用数据的能力取得了重大突破和进展。
三、大数据应用
主要有以下四个方面:
第一,对大数据的处理分析正成为新一代信息技术融合应用的结点。
移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。
第二,大数据是信息产业持续高速增长的新引擎。
大数据时代,面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,将催生一体化数据存储处理服务器、内存计算等市场。
第三,大数据利用将成为提高核心竞争力的关键因素。
各行各业的决策正在从“业务驱动” 转变“数据驱动”。对大数据分析可以使零售商实时掌握市场动态并迅速做出应对;在医疗领域,可提高诊断准确性和药物有效性;在公共事业领域,大数据在促进经济发展、维护社会稳定等方面的重要作用已开始得以发挥。
第四,大数据时代科学研究的方法手段将发生重大改变。
抽样调查是社会科学的基本研究方法。但在大数据时代,不需要通过抽样,而是通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04