京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据还是太多信息
移动互联网时代的数据正在疯长,大数据是现在技术界最热的流行语之一。一种普遍的观点认为掌握实时数据分析与决策能力者必能占得先机,但也有人认为数据再多也无法帮助我们预测未来,我们把这两种观点编译如下,也请大家谈谈自己的看法。
我们都知道现在地球上的信息太多,但是怎么多法,没有人知道。
IBM负责超级计算机研发的Dave Turek给了我们一个答案,根据IBM的估算,人类自有史以来至2003年所创造的信息量为5艾字节(50亿GB),而到了去年,人类每两天就产生了如此多的信息量。据Turek的预测,到明年的时候,我们生成这样规模的信息量只需要10分钟!
这怎么可能?!数据为何滥生到了这种地步?这么说吧,每次你的手机发送其GPS位置,每次你在网上买东西,每次你点击社交网络上的“喜欢”,你就给数字信息的海洋奉献了一个水滴。现在这片海洋大部分已经为此类数据所覆盖。
短信、客户记录、ATM交易、监控摄像……这条清单可以列得很长。我们有一个流行语总结这些东西:“大数据”,尽管这个词难以表述我们所创造的这个怪物的规模。
这是技术超出我们使用能力的一个最新例子。在这个例子里,我们还没能跟上自己捕捉信息的能力,所以这段时间管理大师总喜欢说未来属于能善用自己所收集数据的公司,尤其是具备实时利用能力者。
对于企业来说,能够解析自己客户的每一个数字化的蛛丝马迹者必将拥有领先优势,这种能力不仅仅在于能够了解过去几个小时里谁在哪里买了什么东西,而且还能够知悉他们是否对此发表了微博、有没有在社交网络上发过相关相片。
城市亦是如此。能够收集成千上万个传感器的数据,然后描绘出都市的数字化地图,并能够将城市生活的异常行为(如交通流量)变成科学的一定能够脱颖而出。
不奇怪的是,政治运动也已经开始这样的尝试,发疯地挖掘数据已经成为政客聚焦“纳米定位(nanotargeting)”选民策略的一部分,这样才能够精准地知道如何才能捞到选票。
寻求对零碎数据进行解释的狂热解释了Google上周为什么要开始销售一款名为BigQuery的产品,该软件可以在数秒钟之内扫描几TB的信息。也正因为此,数据分析初创公司Splunk上市首日的股价即飙升了90%。
数据科学家的崛起
但是,哪怕你拥有最好的数据解密工具也不能保证就能拥有大智慧。很少有公司拥有专门受训的员工,缺乏评估堆积如山的数据(包括数百万社交网络页面、智能手机上的非结构数据)的能力,更不用说对此做些什么。
去年麦肯锡发布了一份报告,把“大数据”形容为“创新的下一个前沿阵地”,但该机构同时也预测说到2018年,美国公司在这方面将会出现严重的人才短缺,具备必要的分析技能的人才缺口多达19万之巨。同时还认为美国具备数据知识的经理的需求将会超过150万(中国呢?)。
信息超载?
尽管如此,并非所有人都相信大数据的魔力。沃顿商学院的Peter Fader教授并不认为数据越多越好。同时他也不认为企业应该竭尽所能去了解自己的客户。他认为现在对数据聚合的关注太多了,而实际上,只有围绕着真正的分析进行的数据收集量才有意义。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,商业竞争的核心已从“经验驱动”转向“数据驱动”,越来越多的企业意识到,商业分析不是简单的数据统计与报表呈现 ...
2026-05-06在Excel数据透视表的实操中,“引用”是连接透视表与公式、辅助数据的核心操作,而相对引用作为最基础、最常用的引用方式,其设 ...
2026-05-06 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-05-06在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23