
大数据时代的利与弊_数据分析师培训
虽然早已听说过舍恩伯格的《大数据时代》,但直到前不久才浏览本书的内容,看完之后还是有点震撼的,主要是大数据对我们日常生活和思维的影响太大了。下面摘取部分原文表述或案例来梳理一下这本书,其中有我本人的部分总结和评述。
有三个案例比较有意思,一是福特的名言,“如果当年去问顾客他们想要什么,他们肯定会告诉我:一匹更快的马。”
乔布斯多年来持续不断地改善Mac笔记本依赖的可能是行业分析,但是他发行的iPod、iPhone和iPad靠的不是数据,而是直觉,第六感。
谷歌公司内部的研究表明工作表现与大学毕业时的平均绩点没有关系,但其创始人依然要应聘者提供分数。
前两个例子(福特和苹果)说明大数据有时候是无效的,后面谷歌的例子则说明管理层对数据过度的执着。
大数据对人类生活的破坏莫过于它过于强大的预测功能,如通过一个人过去的表现可以准确预测到他在特定环境下一定会犯罪,那么,社会保障机制就会惩罚一个从来没有犯错的人。如书中所述:
“因为预测的结果几乎不可辩驳,人们也就无法为自己开脱。但这种基于预测得出的惩罚不仅违背自由意志的原则,同时也否定了人们会突然改变选择的可能性。”
以上弊多些,下面谈利。
聪明的公司会从人们与信息交互中收集数据废气,以用来改善现有的服务或推出全新的服务。
“拥有知识曾意味着掌握过去,现在则更意味着能够预测未来。”-----这句话很精辟。
“情报分析员结合实地考察报告和过去IED袭击地点、时间和人员伤亡的详细信息,据此预测一天中最安全的运送路线。”类似的,我也听说过美国建立的爆炸物碎片博物馆的事情,基于爆炸物的各种信息追踪恐怖分子武器弹药的生产基地和储存地点。
“为了促进大数据平台的良性竞争,政府必须运用反垄断条例。”
谷歌对量化数据的极致追求可能过头了,因此激起了员工的反抗。(弊)
通过大数据预测来判断和惩罚人类的潜在行为是对公平公正和自由意志的一种亵渎。(弊)
过去是要成为一个优秀的生物学家就需要认识很多生物学家,但现在可能是,要解决一个生物难题或许和天体物理学家或数据视图设计师联系即可。
由于大数据的功劳,微软机器翻译部门的统计学家在茶余饭后的谈资就是每次一有语言学家离开他们的团队,翻译质量就会好一点。
当亚马逊的贝索斯发现算法推荐能促进销量增加的时候,他就不再需要书籍评论员了。
“有风险才有回报。”
更明智的选择是让自己受益,汽车制造商与供货商的例子十分精彩,感兴趣的可以参见原书p171.
上班高峰期交通状况的变好说明失业率增加,即经济状况变差。
谷歌和亚马逊:数据、技能和思维三者兼备的优秀公司。
数据的拥有者可能没有使用数据的动机和强制要求。
外行人的思维不受专业限制,可能做出有更有价值的发现。
数据科学家是统计学家、软件程序员、图形设计师和作家的结合体。
谷歌首席经济学家范里安认为统计学家是世界上最棒的职业,“如果你想成功,你不应该成为一个普通的、可被随意替代的人,你应该成为稀缺的、不可替代的那类人。”“数据非常之多,但是真正缺乏的是从数据提取价值的能力。”
DataMarket向人们提供其他机构(如联合国、世界银行和欧盟统计局等)的免费数据,真的吗??
无形资产,如数据占到美国上市公司价值的75%。
政府才是大数据的原始采集者,因此奥巴马说的很好,“面对怀疑,公开优先”,就是政府应该承担的责任。
丹麦癌症协会的案例:手机是否增加致癌率。他们使用的数据集原本根本不是用来研究这个问题的,基于“样本=总体”,做出了重大发现:使用移动电话与癌症风险增加不存在任何关联。这项研究彰显了“重组数据(二次利用)”的魅力。
思维的转换案例:零售商在店内安装监控摄像头不仅能认出商店扒手,还能跟踪在商店购物的顾客和他们停留的位置。零售商利用后面的信息可以设计店面的最佳布局并判断营销活动的有效性。在此之前,监控摄像头仅用于安保,现在则变成的一种可以增加收入的投资。
同样是亚马逊和谷歌的案例,AOL和Nuance与他们合作简直亏死了,大公司真可怕!
同样是震撼的案例:
“数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。”
1)Farecast利用机票销售数据来预测未来的机票价格;2)谷歌重复使用搜索关键词来预测流感的传播;3)麦格雷戈博士用婴儿的生命体征预测传染病的发生;4)莫里重新利用老船长的日志而发现了洋流。
几十年的试验和错误才实现现有加油站的有效分配,但电动汽车的充电站的需求和设置点目前还不得而知。
哈哈,“鱼不知道自己是湿的”,真的吗??
验证码的发明人路易斯27岁时获得了50万美元的麦克阿瑟的“天才奖”。(题外话:2012年美国的最低工资是7.25美元/小时,一天工作八小时的话,则是348元人民币。)
一点点的不精确比完全精确更有效。
当地板数据化的时候,它能滋生无穷无尽的用途。
大数据分析表明:个人偿还债务的可能性和其朋友偿还债务的可能性正相关,物以类聚,人以群分啊!
UPS最佳行车路径:尽量少左转,因为左转要求货车在交叉路口穿过去,所以更容易出事故。货车往往需要等待一会才能左转,因此更耗油,减少左转使得行车的安全性和效率都得到了大幅提升。
莱维斯:“预测给我们知识,而知识赋予我们智慧和洞见。”
iPhone本身就是一个“移动间谍”,同样包括安卓的和微软的手机。
谷歌,一个喜欢跨界的叛逆的大数据公司。亚马逊深谙数字化内容的意义,而谷歌触及了数据化内容的价值。
哈佛大学的研究人员发现5000亿个单词中有一半以上在字典中无法找到,真的吗?
1900年以前,“因果关系(causality)”这个词比“相关关系”(correlation)使用频率高,但在1900年之后,情况相反。(Google Ngram Viewer)
“Data”这个词在拉丁文里是“已知”的意思。
邓肯说:一旦你知道了结果,一切都很容易。
感冒与穿戴之间没有直接关系。
“数据表明,早产儿的稳定不但不是疾病好转的标志,反而是暴风雨前的宁静,就像是身体要它的器官做好抵抗困难的准备。”类似于回光返照啊!
“一个东西要出故障,不会是瞬间的,而是慢慢地出问题的。”冰冻三尺非一日之寒!
达尔文的表弟费朗西斯-高尔顿爵士就注意到了人的身高与前臂长度的关系,达尔文家族真是厉害,好像每个人都是科学家!
相关关系的核心是量化两个数据值之间的数理关系。
印象派的画风:近看每一笔都是混乱的,退后一步看却是一副伟大的作品。
快速获得事物的一个大概的轮廓和发展脉络,就要比严格的精确性要重要的多。
伟大的物理学家开尔文男爵:测量就是认知。
一个在关系网内有着众多好友的人的重要性不如一个与很多关系网外的人有联系的人,说明多样性的额外价值。------Structureand tie strengths in mobile communication networks.
拥有全部或几乎全部的数据,我们就能够从不同的角度,更细致地观察和研究数据的方方面面。
大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。
异常值也是很有用的信息,如甄别信用卡诈骗。
我们不能满足于正态分布一般中庸平凡的景象,生活中真正有趣的事情经常藏匿在细节之中,而采样分析法无法捕捉到这些细节。
“采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。当样本数量达到某个值后,我们从个体身上得到的信息越来越少。”---p33,但这只是传统的数据收集方法,且必须保证“随机性”才是成立的!
“宝贝不止一个,每个数据集内部都隐藏着某些未被发觉的价值。”
“相关关系也许不能准确地告知我们某件事情为何发生,但是它会提醒我们这个事情正在发生。”
“大数据的核心就是预测。”
“物理学和生物学都告诉我们,当我们改变规模时,事物的状态也有也会发生改变。”
“数据的奥妙只为谦逊、愿意聆听且掌握聆听手段的人所知。”
谷歌为测试检索词条,总共处理了4.5亿个不同的数学模型,惊叹!
“越是万能的,就越是空洞的。”----至理名言!
大数据时代处理数据理念上的三大转变:要全体不要抽样、要效率不要绝对精确、要相关不要因果。
“最重要的是人们可以在很大程度上从对于因果关系的追求中解脱出来,转而将注意力放在相关关系的发现和使用上,只要发现两个现象之间存在的显著相关性,就可以创造巨大的经济和社会效益,而弄清二者为什么相关可以留待学者们慢慢研究。”---谢文
大数据在公共卫生、商业服务领域的应用:不再追求精确性,不再追求因果关系,而是承认混杂性,探索相关关系。
我觉得可以以下面一小段话结束全文:关于大数据,我们或许还不能完全适应,因为我们脑海里一种根深蒂固的对因果关系和精准数据的追求。而我们的下一代,一群被“大数据观念”陶冶长大的家伙,会发自肺腑地认为“量化一切”并从中学习对于社会是至关重要的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10