京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代的利与弊_数据分析师培训
虽然早已听说过舍恩伯格的《大数据时代》,但直到前不久才浏览本书的内容,看完之后还是有点震撼的,主要是大数据对我们日常生活和思维的影响太大了。下面摘取部分原文表述或案例来梳理一下这本书,其中有我本人的部分总结和评述。
有三个案例比较有意思,一是福特的名言,“如果当年去问顾客他们想要什么,他们肯定会告诉我:一匹更快的马。”
乔布斯多年来持续不断地改善Mac笔记本依赖的可能是行业分析,但是他发行的iPod、iPhone和iPad靠的不是数据,而是直觉,第六感。
谷歌公司内部的研究表明工作表现与大学毕业时的平均绩点没有关系,但其创始人依然要应聘者提供分数。
前两个例子(福特和苹果)说明大数据有时候是无效的,后面谷歌的例子则说明管理层对数据过度的执着。
大数据对人类生活的破坏莫过于它过于强大的预测功能,如通过一个人过去的表现可以准确预测到他在特定环境下一定会犯罪,那么,社会保障机制就会惩罚一个从来没有犯错的人。如书中所述:
“因为预测的结果几乎不可辩驳,人们也就无法为自己开脱。但这种基于预测得出的惩罚不仅违背自由意志的原则,同时也否定了人们会突然改变选择的可能性。”
以上弊多些,下面谈利。
聪明的公司会从人们与信息交互中收集数据废气,以用来改善现有的服务或推出全新的服务。
“拥有知识曾意味着掌握过去,现在则更意味着能够预测未来。”-----这句话很精辟。
“情报分析员结合实地考察报告和过去IED袭击地点、时间和人员伤亡的详细信息,据此预测一天中最安全的运送路线。”类似的,我也听说过美国建立的爆炸物碎片博物馆的事情,基于爆炸物的各种信息追踪恐怖分子武器弹药的生产基地和储存地点。
“为了促进大数据平台的良性竞争,政府必须运用反垄断条例。”
谷歌对量化数据的极致追求可能过头了,因此激起了员工的反抗。(弊)
通过大数据预测来判断和惩罚人类的潜在行为是对公平公正和自由意志的一种亵渎。(弊)
过去是要成为一个优秀的生物学家就需要认识很多生物学家,但现在可能是,要解决一个生物难题或许和天体物理学家或数据视图设计师联系即可。
由于大数据的功劳,微软机器翻译部门的统计学家在茶余饭后的谈资就是每次一有语言学家离开他们的团队,翻译质量就会好一点。
当亚马逊的贝索斯发现算法推荐能促进销量增加的时候,他就不再需要书籍评论员了。
“有风险才有回报。”
更明智的选择是让自己受益,汽车制造商与供货商的例子十分精彩,感兴趣的可以参见原书p171.
上班高峰期交通状况的变好说明失业率增加,即经济状况变差。
谷歌和亚马逊:数据、技能和思维三者兼备的优秀公司。
数据的拥有者可能没有使用数据的动机和强制要求。
外行人的思维不受专业限制,可能做出有更有价值的发现。
数据科学家是统计学家、软件程序员、图形设计师和作家的结合体。
谷歌首席经济学家范里安认为统计学家是世界上最棒的职业,“如果你想成功,你不应该成为一个普通的、可被随意替代的人,你应该成为稀缺的、不可替代的那类人。”“数据非常之多,但是真正缺乏的是从数据提取价值的能力。”
DataMarket向人们提供其他机构(如联合国、世界银行和欧盟统计局等)的免费数据,真的吗??
无形资产,如数据占到美国上市公司价值的75%。
政府才是大数据的原始采集者,因此奥巴马说的很好,“面对怀疑,公开优先”,就是政府应该承担的责任。
丹麦癌症协会的案例:手机是否增加致癌率。他们使用的数据集原本根本不是用来研究这个问题的,基于“样本=总体”,做出了重大发现:使用移动电话与癌症风险增加不存在任何关联。这项研究彰显了“重组数据(二次利用)”的魅力。
思维的转换案例:零售商在店内安装监控摄像头不仅能认出商店扒手,还能跟踪在商店购物的顾客和他们停留的位置。零售商利用后面的信息可以设计店面的最佳布局并判断营销活动的有效性。在此之前,监控摄像头仅用于安保,现在则变成的一种可以增加收入的投资。
同样是亚马逊和谷歌的案例,AOL和Nuance与他们合作简直亏死了,大公司真可怕!
同样是震撼的案例:
“数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。”
1)Farecast利用机票销售数据来预测未来的机票价格;2)谷歌重复使用搜索关键词来预测流感的传播;3)麦格雷戈博士用婴儿的生命体征预测传染病的发生;4)莫里重新利用老船长的日志而发现了洋流。
几十年的试验和错误才实现现有加油站的有效分配,但电动汽车的充电站的需求和设置点目前还不得而知。
哈哈,“鱼不知道自己是湿的”,真的吗??
验证码的发明人路易斯27岁时获得了50万美元的麦克阿瑟的“天才奖”。(题外话:2012年美国的最低工资是7.25美元/小时,一天工作八小时的话,则是348元人民币。)
一点点的不精确比完全精确更有效。
当地板数据化的时候,它能滋生无穷无尽的用途。
大数据分析表明:个人偿还债务的可能性和其朋友偿还债务的可能性正相关,物以类聚,人以群分啊!
UPS最佳行车路径:尽量少左转,因为左转要求货车在交叉路口穿过去,所以更容易出事故。货车往往需要等待一会才能左转,因此更耗油,减少左转使得行车的安全性和效率都得到了大幅提升。
莱维斯:“预测给我们知识,而知识赋予我们智慧和洞见。”
iPhone本身就是一个“移动间谍”,同样包括安卓的和微软的手机。
谷歌,一个喜欢跨界的叛逆的大数据公司。亚马逊深谙数字化内容的意义,而谷歌触及了数据化内容的价值。
哈佛大学的研究人员发现5000亿个单词中有一半以上在字典中无法找到,真的吗?
1900年以前,“因果关系(causality)”这个词比“相关关系”(correlation)使用频率高,但在1900年之后,情况相反。(Google Ngram Viewer)
“Data”这个词在拉丁文里是“已知”的意思。
邓肯说:一旦你知道了结果,一切都很容易。
感冒与穿戴之间没有直接关系。
“数据表明,早产儿的稳定不但不是疾病好转的标志,反而是暴风雨前的宁静,就像是身体要它的器官做好抵抗困难的准备。”类似于回光返照啊!
“一个东西要出故障,不会是瞬间的,而是慢慢地出问题的。”冰冻三尺非一日之寒!
达尔文的表弟费朗西斯-高尔顿爵士就注意到了人的身高与前臂长度的关系,达尔文家族真是厉害,好像每个人都是科学家!
相关关系的核心是量化两个数据值之间的数理关系。
印象派的画风:近看每一笔都是混乱的,退后一步看却是一副伟大的作品。
快速获得事物的一个大概的轮廓和发展脉络,就要比严格的精确性要重要的多。
伟大的物理学家开尔文男爵:测量就是认知。
一个在关系网内有着众多好友的人的重要性不如一个与很多关系网外的人有联系的人,说明多样性的额外价值。------Structureand tie strengths in mobile communication networks.
拥有全部或几乎全部的数据,我们就能够从不同的角度,更细致地观察和研究数据的方方面面。
大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。
异常值也是很有用的信息,如甄别信用卡诈骗。
我们不能满足于正态分布一般中庸平凡的景象,生活中真正有趣的事情经常藏匿在细节之中,而采样分析法无法捕捉到这些细节。
“采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。当样本数量达到某个值后,我们从个体身上得到的信息越来越少。”---p33,但这只是传统的数据收集方法,且必须保证“随机性”才是成立的!
“宝贝不止一个,每个数据集内部都隐藏着某些未被发觉的价值。”
“相关关系也许不能准确地告知我们某件事情为何发生,但是它会提醒我们这个事情正在发生。”
“大数据的核心就是预测。”
“物理学和生物学都告诉我们,当我们改变规模时,事物的状态也有也会发生改变。”
“数据的奥妙只为谦逊、愿意聆听且掌握聆听手段的人所知。”
谷歌为测试检索词条,总共处理了4.5亿个不同的数学模型,惊叹!
“越是万能的,就越是空洞的。”----至理名言!
大数据时代处理数据理念上的三大转变:要全体不要抽样、要效率不要绝对精确、要相关不要因果。
“最重要的是人们可以在很大程度上从对于因果关系的追求中解脱出来,转而将注意力放在相关关系的发现和使用上,只要发现两个现象之间存在的显著相关性,就可以创造巨大的经济和社会效益,而弄清二者为什么相关可以留待学者们慢慢研究。”---谢文
大数据在公共卫生、商业服务领域的应用:不再追求精确性,不再追求因果关系,而是承认混杂性,探索相关关系。
我觉得可以以下面一小段话结束全文:关于大数据,我们或许还不能完全适应,因为我们脑海里一种根深蒂固的对因果关系和精准数据的追求。而我们的下一代,一群被“大数据观念”陶冶长大的家伙,会发自肺腑地认为“量化一切”并从中学习对于社会是至关重要的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27