京公网安备 11010802034615号
经营许可证编号:京B2-20210330
我们都是大数据时代的海狸_数据分析师
1973年,Alex Pentland还只是个大三学生,他到美国国家宇航局环境研究所实习,做一名电脑程序员。分给他的一项任务是开发一个利用人造卫星,从外太空数清加拿大海狸数量的软件。人造卫星离地球太远,海狸的个头太小,难以精确测度。Pentland灵机一动,想出一个主意:海狸会建造水坝,通过水坝的数量,可以推测海狸的数量。重要的不是去数每一个海狸,而是观察海狸们的生活方式。
在之后的四十多年里,Pentland一直沿着同样的思路思考问题,只不过他关心的不再是海狸的数量,而是人类社会的秩序。 Pentland的学术道路充满了戏剧性。他完成了海狸软件项目之后,对大学生活感到非常沮丧,中途辍学,去当卡车司机了。后来,他又想回到校园,本来报考的是密歇根大学,但他的女朋友去了波士顿,于是,Pentland就改为申请麻省理工学院和哈佛大学。他懒得再写一份新的申请书,直接复印了给密歇根大学的申请书。结果,麻省理工学院录取了他。
Pentland和麻省理工学院里别的科学怪人不同,他一直对心理学感兴趣,想利用人工智能等高科技分析人类的社会行为。拿到博士学位之后,Pentland曾经到斯坦福大学做过一段研究,1986年又回到麻省理工学院,逐步建立自己的团队和实验室。如今,他是麻省理工学院人类动力学实验室的主任,培养了一批批优秀的科技人才,还孵化了至少30家高科技公司。
传统的经济学模型认为每个人都是“理性人”,会独立地做出自己的决策。Pentland的研究则指出,人与人之间存在着广泛的信息交流和传播,这种信息的交流与传播会影响到人们的社会行为。传统的经济学模型依据简单的前提假设进行逻辑推理,而Pentland的研究则依靠大数据。他们有一个庞大的家庭数据库,实时观测30多个行为指标,每6分钟就更新一次数据。他们还有一个大学宿舍的实时监测系统,这些大学生刚入学,Pentland就送他们每人一部智能手机,这部智能手机中的软件会监测学生们的通话、社交活动等信息,累积连续记录了500,000个小时的数据。
与传统经济学理论的假设不同,Pentland发现,人们在做出决策的时候总是会模仿他人的行为。这是有道理的,模仿别人是最有效的学习方式。如果你买了一台新电脑,比如你过去用的是IBM的小黑本,但现在想换一台MacBook Air, 但操作系统跟过去用的不一样,你会怎么办?你是照着操作手册一条一条边读边摸索,还是请教一个用过Mac OS X的朋友呢?
你身边的人会在不知不觉中影响你的行为。比较经典的案例就是体重的变化。如果你身边有熟人体重增加了,你很可能也会慢慢变胖。不过,有趣的是,如果你身边有人成功减肥,却不会对你有太大的影响。而且,只要是熟人,就会影响你的行为,倒不一定非得是跟你亲密的好朋友。你的政治观点也会受到熟人的影响。一般来讲,政治观点相似的人们更愿意厮混在一起,而你和这群人呆的时间越久,彼此互相打气,潜移默化中,你的观点会比以前更加偏激。
这就是信息交流中的“双刃剑”。一方面,“独学而无友,则孤陋寡闻”,但另一方面,如果是抱团取暖,就容易党同伐异,虽起于意见之歧,实成于意气之激。Pentland曾经观察过一个投资者群体的行为。投资者们互相交流心得,比较各自的交易策略,慢慢地,成功投资者的身后会聚拢了一批追随者。一开始,这些成功投资者和他们的追随者的收益率会不断提高,但聚拢来的人太多了,就会出现“羊群效应”,原本能够脱颖而出的交易策略也就失效了,大家的收益率反而比不跟风的时候更低。
乔布斯曾经说过,创新就是把不同的事物联系起来。有创新力的人们知道怎样把自己的经验融会贯通,并尽可能地整合其他人的经验。我们要是想变得更有创新力,就必须注意:第一,社会学习是重要的。能模仿别人的经验就尽量模仿别人的经验,同时也要从别人的失败中吸取教训,这比自己在黑暗中摸索,把所有的错误再犯一遍要更划算。第二,多样性是重要的。如果所有的人都说你错,你可能还会有一线机会是对的;如果所有的人都说你对,那么你很可能离犯大错不远了。尽可能地让你的社交网络广泛,尽可能地让你的团队成员有差异性,最正常的状态应该是一半人说你对,一半人说你错。第三,逆势操作是重要的。站在潮流之外的人很可能看得最清楚。他们可能会选择和潮流相反的方向。他们有可能是极其高明的智者,也可能是脑子坏掉的疯子。你怎么能够判断他们的选择是否正确呢?尽可能地多接触背景不同,但各有各的智慧的高人,如果你发现在他们中间,有一个相当大的子集已经形成了逆势操作的共识,这个判断很可能会是对的。
在大数据时代,我们一路走过,留下来很多信息“面包屑”,这些信息“面包屑”暴露了我们的行为,甚至我们的心理活动和潜意识。当掌握了海量信息之后,我们有可能让一个团队或是社会变得更有效率和活力。大数据尤其在三个方面能够大显身手:一是社会动员(social mobilization)。比如在网络上发动大家寻找“人肉搜索”贪官,在台风、地震之后动员全社会的力量救灾。二是调节社会网络(tuning the social network)。当一个组织的内部变得“同质性”太强的时候,就要及时地补充新的成员,增加多样性;当一个群体内部的信息交流变得过于频繁、密集之后(比如,人们对传播谣言的兴趣超过了深入交流),适当地控制信息交流的速度,或有助于让人们更关注真实的重大问题。三是影响社会契约(leveraging social engagement)。人们生来就是群居动物,当我们彼此合作的时候,比如一起跳舞,一起划船,人的身体内就会释放出更多的内啡肽,让我们更加愉悦和兴奋。
但人们也会在合作中遇到“囚徒悖论”、“公地悲剧”这样的困境,这主要是因为人们各为己利,互相忌惮。如果能够改变激励机制,让人们从团队成员的成功得到奖励,而非单纯从自己的成功中得到奖励,就会激发人们的合作动力。在Kerry Patterson的《影响者:改变任何事物的力量》一书中就讲过一个故事,一个企业雇佣了很多刑满释放人员,而且成功地改造了这些人从监狱和帮派中沿袭下来的“丛林法则”,诀窍之一就是把他们分成一个个小组,奖励和惩罚都不针对个人,而是针对小组。
我们都是大数据时代的海狸。我们不仅能被观察者观测,被分析师研究,我们也能利用大数据,改变自己所在的团队,甚至社会。我们会建造自己的水坝。规则已经不一样了。你如何行动,取决于你如何认识未来的规则:在大数据时代,合作比竞争更重要,交流比交易更重要,灵活的同伴关系比冰冷的阶级斗争更重要。
【作者注】本文取材于Alex Pentland, Social Physics: How Good Ideas Spread—The Lessons from a new science, Scribe, 2014. Pentland还被誉为“可穿戴设备之父”,但当别人问他佩戴了哪些可穿戴设备的时候,他说:“我可不戴什么可穿戴设备,我不喜欢它们,因为它们不够有创造性”。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大模型(如 Transformer、CNN、多层感知机)的结构设计中,“每层神经元个数” 是决定模型性能与效率的关键参数 —— 个数过少 ...
2025-11-10形成购买决策的四个核心推动力的是:内在需求驱动、产品价值感知、社会环境影响、场景便捷性—— 它们从 “为什么买”“值得买吗 ...
2025-11-10在数字经济时代,“数字化转型” 已从企业的 “可选动作” 变为 “生存必需”。然而,多数企业的转型仍停留在 “上线系统、收集 ...
2025-11-10在数据分析与建模中,“显性特征”(如用户年龄、订单金额、商品类别)是直接可获取的基础数据,但真正驱动业务突破的往往是 “ ...
2025-11-07在大模型(LLM)商业化落地过程中,“结果稳定性” 是比 “单次输出质量” 更关键的指标 —— 对客服对话而言,相同问题需给出一 ...
2025-11-07在数据驱动与合规监管双重压力下,企业数据安全已从 “技术防护” 升级为 “战略刚需”—— 既要应对《个人信息保护法》《数据安 ...
2025-11-07在机器学习领域,“分类模型” 是解决 “类别预测” 问题的核心工具 —— 从 “垃圾邮件识别(是 / 否)” 到 “疾病诊断(良性 ...
2025-11-06在数据分析中,面对 “性别与购物偏好”“年龄段与消费频次”“职业与 APP 使用习惯” 这类成对的分类变量,我们常常需要回答: ...
2025-11-06在 CDA(Certified Data Analyst)数据分析师的工作中,“可解释性建模” 与 “业务规则提取” 是核心需求 —— 例如 “预测用户 ...
2025-11-06在分类变量关联分析中(如 “吸烟与肺癌的关系”“性别与疾病发病率的关联”),卡方检验 P 值与 OR 值(比值比,Odds Ratio)是 ...
2025-11-05CDA 数据分析师的核心价值,不在于复杂的模型公式,而在于将数据转化为可落地的商业行动。脱离业务场景的分析只是 “纸上谈兵” ...
2025-11-05教材入口:https://edu.cda.cn/goods/show/3151 “纲举目张,执本末从。” 若想在数据分析领域有所收获,一套合适的学习教材至 ...
2025-11-05教材入口:https://edu.cda.cn/goods/show/3151 “纲举目张,执本末从。” 若想在数据分析领域有所收获,一套合适的学习教材至 ...
2025-11-04【2025最新版】CDA考试教材:CDA教材一级:商业数据分析(2025)__商业数据分析_cda教材_考试教材 (cdaglobal.com) ...
2025-11-04在数字化时代,数据挖掘不再是实验室里的技术探索,而是驱动商业决策的核心能力 —— 它能从海量数据中挖掘出 “降低成本、提升 ...
2025-11-04在 DDPM(Denoising Diffusion Probabilistic Models)训练过程中,开发者最常困惑的问题莫过于:“我的模型 loss 降到多少才算 ...
2025-11-04在 CDA(Certified Data Analyst)数据分析师的工作中,“无监督样本分组” 是高频需求 —— 例如 “将用户按行为特征分为高价值 ...
2025-11-04当沃尔玛数据分析师首次发现 “啤酒与尿布” 的高频共现规律时,他们揭开了数据挖掘最迷人的面纱 —— 那些隐藏在消费行为背后 ...
2025-11-03这个问题精准切中了配对样本统计检验的核心差异点,理解二者区别是避免统计方法误用的关键。核心结论是:stats.ttest_rel(配对 ...
2025-11-03在 CDA(Certified Data Analyst)数据分析师的工作中,“高维数据的潜在规律挖掘” 是进阶需求 —— 例如用户行为包含 “浏览次 ...
2025-11-03