京公网安备 11010802034615号
经营许可证编号:京B2-20210330
闲暇的时候,我最喜欢去书店“游览”。书的内容姑且不说,光是花花绿绿的封面,就常引我流连忘返。这一次,两本书的封面格外吸引我的眼球。
一个封面的图案是一只跳舞的大象,前腿腾空,竖直向上的长鼻子冒出五颜六色的电线(导线),书名是《大数据——一场即将改变我们生活、工作和思维方式的革命》。另一个封面的图案是英国画家约瑟夫·怀特画于1766年的一幅油画,画面内容是一位哲学家正在讲解太阳系,讲解人严肃认真,听众神情专注,代替太阳的烛光将两名求知儿童的脸庞照得亮堂堂,书名是《启蒙思想——为什么它依然重要》。
《大数据》的封面构图是说,数字化时代的数据非常大,大得就像动物世界的一头大象。而大象却要翩翩起舞,预示着一场数据化革命即将到来。《启蒙思想》的封面通俗易懂,日心说推翻了地心说,启蒙思想恰似普照大地的阳光,引导人们走向光明。
2008年世界经济危机爆发后,全球经济时好时坏,蹒跚跌撞地折腾到现在。有人说,5年来,世界经济犹如在黑暗中跋涉,偶现曙光却转瞬即逝。全世界人民都很焦急,盼望新经济模式助推经济发展。现在,大数据喧嚣登场了,似乎可以将世界经济引出黑暗。
什么是大数据?《大数据》一书未能给出确切定义。我以为,从本质上讲,大数据首先指的是数据的数量大(VOLUME)。2013年,世界存储的数字化数据将达1.2泽字节。这么大的数据究竟有多大?形象一点说,如果把这些数据印成书,一本挨一本平铺,可覆盖52个美国;若刻成光盘且将之垒成5堆,那么,5根光盘“通天柱”可直达月球。
大数据的第二个特点,是数据的增长速度快(VELOCITY)。德国发明家古登堡1439年发明铅字印刷后,欧洲第一次出现了信息爆炸。美国历史学家伊丽莎白·爱森斯坦研究发现,1453年-1503年的50年间,欧洲约印刷了800万本书,超过了之前欧洲所有手抄书的总和。也就是说,欧洲的信息储量用50年翻了1倍。而现在,美国信息专家马丁·希尔伯特说,数字数据储量每3年就会翻1倍。人类存储信息的速度比世界经济的增长速度快4倍。
当然,大数据还具备如下3个容易理解的特点:种类多(VARIETY)、准确(VERACITY)和价值(VALUE)。
在世界经济苦难挣扎之时,许多聪明的商家把目光瞄上了具备上述“5V”特征的大数据。他们认为,世界储存的数据虽然庞大,但其已被利用的价值只有一小部分。如果转变思维方法,将这些数据重新组合和处理,其潜在价值之大难以估量。
比如说,美国社交网站脸书(FACEBOOK)有10亿用户,网站对这些用户信息进行分析分类后,广告商可根据分析结果精准投放广告。因此,对广告商而言,脸书10亿用户的数据信息值1000亿美元。
另有分析显示,2012年,运用大数据的世界贸易额已达60亿美元。2016年,这个数字预计将达200亿美元。
既然重新处理数据能赚钱,一些具有用户信息优势的公司,如谷歌、微软等,都会尽其所能搜集其需要的信息。这样,至少有两个问题已凸显了出来。一个是如何保护个人隐私问题。奥美公关公司最近公布的一份调查报告显示,75%的人不希望企业存储自己的个人信息,90%的人反对企业收集自己上网浏览网页的记录。另一个是如何防止信息垄断问题。由于谷歌、微软等公司用户数量上的绝对优势,它们占有的用户信息也就占有绝对优势,再加上这些公司还有信息储存、传输和分析技术上的优势,它们也就很容易垄断数据贸易市场。
近年来,欧盟一直在调查微软和谷歌在侵犯个人隐私和信息垄断方面的问题。如果指控被证实,这两家公司将面临重罚。其他国家也应向欧盟学习,提前从速立法,以规范可能日益繁荣的数据贸易。
从经济角度讲,大数据及其产业链到底能带来多大效益,现在还不好估量。但有一点可以肯定,即使大数据可以引领某个行业暂时繁荣,也可以成就许多亿万富翁,但却不能从根本上扭转目前世界经济的颓势。因为,从根儿上讲,大数据充其量是一次如何充分利用现有数据的思维转换,而非彻底改变经济模式的“大思想”。
什么是“大思想”?我以为,凡是构成某一行业从无到有之基础的思想,就是“大思想”。比如说,德国启蒙思想家莱布尼茨曾写过《1与0,一切数字的神奇渊源》一文,从而发明了二进制。没有二进制,很难想象会出现现在的计算机和数字化;没有计算机和数字化,又怎能出现IT行业和大数据呢?
再比如,英国启蒙思想家亚当·斯密1776年发表《国富论》一书。可以说,没有斯密倡导的“看不见的手”,很难想象会有现代自由市场经济;没有自由市场经济,人类的物质生活水平就很难发展到目前的富裕程度。英国史学家巴克勒在《文明史》一书中说:“从人类财富创造的角度看,斯密超过了所有政治家。”
要想医治当前世界经济的病态,大数据之类的思维变换或许在治标上能起一定作用。但要治本,还需催生科技创新的“大思想”。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10