京公网安备 11010802034615号
经营许可证编号:京B2-20210330
三个案例透析大数据思维的核心
逻辑推理能力是人类特有的本领,给出原因,我们能够通过逻辑推理得到结果。在过去,我们一直非常强调因果关系,一方面是因为我们常常是先有原因,再有结果,另一方面是因为如果我们找不出原因,常常会觉得结果不是非常可信。而大数据时代,大数据思维要求我们从探求因果联系到探索强相关关系。
以下三个案例分别来自药品研发、司法判决与广告投放,从三个不同的角度了解大数据思维的核心。
大数据与药品研发:寻找特效药的方法
比如在过去,现代医学里新药的研制,就是典型的利用因果关系解决问题的例子。
青霉素的发明过程就非常具有代表性。首先,在19世纪中期,奥匈帝国的塞麦尔维斯(Ignaz Philipp Semmelweis,1818—1865)a、法国的巴斯德等人发现微生物细菌会导致很多疾病,因此人们很容易想到杀死细菌就能治好疾病,这就是因果关系。不过,后来弗莱明等人发现,把消毒剂涂抹在伤员伤口上并不管用,因此就要寻找能够从人体内杀菌的物质。
最终在1928年弗莱明发现了青霉素,但是他不知道青霉素杀菌的原理。而牛津大学的科学家钱恩和亚伯拉罕搞清楚了青霉素中的一种物质—青霉烷—能够破坏细菌的细胞壁,才算搞清楚青霉素有效性的原因,到这时青霉素治疗疾病的因果关系才算完全找到,这时已经是1943年,离赛麦尔维斯发现细菌致病已经过去近一个世纪。
两年之后,女科学家多萝西·霍奇金(Dorothy Hodgkin)搞清楚了青霉烷的分子结构,并因此获得了诺贝尔奖,这样到了1957年终于可以人工合成青霉素。当然,搞清楚青霉烷的分子结构,有利于人类通过改进它来发明新的抗生素,亚伯拉罕就因此而发明了头孢类抗生素。
在整个青霉素和其他抗生素的发明过程中,人类就是不断地分析原因,然后寻找答案(结果)。当然,通过这种因果关系找到的答案非常让人信服。
其他新药的研制过程和青霉素很类似,科学家们通常需要分析疾病产生的原因,寻找能够消除这些原因的物质,然后合成新药。这是一个非常漫长的过程,而且费用非常高。在七八年前,研制一种处方药已经需要花费10年以上的时间,投入10亿美元的科研经费。
如今,时间和费用成本都进一步提高;一些专家,比如斯坦福医学院院长米纳(Lloyd Minor)教授则估计需要20年的时间,20亿美元的投入。这也就不奇怪为什么有效的新药价格都非常昂贵,因为如果不能在专利有效期内a赚回20亿美元的成本,就不可能有公司愿意投钱研制新药了。
按照因果关系,研制一种新药就需要如此长的时间、如此高的成本。这显然不是患者可以等待和负担的,也不是医生、科学家、制药公司想要的,但是过去没有办法,大家只能这么做。
如今,有了大数据,寻找特效药的方法就和过去有所不同了。美国一共只有5 000多种处方药,人类会得的疾病大约有一万种。如果将每一种药和每一种疾病进行配对,就会发现一些意外的惊喜。比如斯坦福大学医学院发现,原来用于治疗心脏病的某种药物对治疗某种胃病特别有效。
当然,为了证实这一点需要做相应的临床试验,但是这样找到治疗胃病的药只需要花费3年时间,成本也只有1亿美元。这种方法,实际上依靠的并非因果关系,而是一种强关联关系,即A药对B病有效。至于为什么有效,接下来3年的研究工作实际上就是在反过来寻找原因。这种先有结果再反推原因的做法,和过去通过因果关系推导出结果的做法截然相反。无疑,这样的做法会比较快,当然,前提是有足够多的数据支持。
大数据思维与司法:为香烟定罪
在过去,由于数据量有限,而且常常不是多维度的,这样的相关性很难找得到,即使偶尔找到了,人们也未必接受,因为这和传统的观念不一样。20世纪90年代中期,在美国和加拿大围绕香烟是否对人体有害这件事情的一系列诉讼上,如何判定吸烟是否有害是这些案子的关键,是采用因果关系判定,还是采用相关性判定,决定了那些诉讼案判决结果。
在今天一般的人看来,吸烟对人体有害,这是板上钉钉的事实。比如美国外科协会的一份研究报告显示,吸烟男性肺癌的发病率是不吸烟男性的23倍,女性则是相应的13倍a,这从统计学上讲早已经不是随机事件的偶然性了,而是存在必然的联系。但是,就是这样看似如山的铁证,依然“不足够”以此判定烟草公司就是有罪,因为它们认为吸烟和肺癌没有因果关系。
烟草公司可以找出很多理由来辩解,比如说一些人之所以要吸烟,是因为身体里有某部分基因缺陷或者身体缺乏某种物质;而导致肺癌的,是这种基因缺陷或者某种物质的缺乏,而非烟草中的某些物质。从法律上讲,烟草公司的解释很站得住脚,美国的法律又是采用无罪推定原则a,因此,单纯靠发病率高这一件事是无法判定烟草公司有罪的。
这就导致了在历史上很长的时间里,美国各个州政府的检察官在对烟草公司提起诉讼后,经过很长时间的法庭调查和双方的交锋,最后结果都是不了了之。其根本原因是提起诉讼的原告一方(州检察官和受害人)拿不出足够充分的证据,而烟草公司又有足够的钱请到很好的律师为它们进行辩护。
这种情况直到20世纪90年代中期美国历史上的那次世纪大诉讼才得到改变。1994年,密西西比州的总检察长麦克·摩尔(Michael Moore)又一次提起了对菲利普·莫里斯等烟草公司的集体诉讼,随后,美国40多个州加入了这场有史以来最大的诉讼行动。在诉讼开始以前,双方都清楚官司的胜负其实取决于各州的检察官们能否收集到让人信服的证据来证明是吸烟而不是其他原因导致了很多疾病(比如肺癌)更高的发病率。
我们在前面讲了,单纯讲吸烟者比不吸烟者肺癌的发病率高是没有用的,因为得肺癌可能是由其他更直接的因素引起的。要说明吸烟的危害,最好能找到吸烟和得病的因果关系,但是这件事情短时间内又做不到。因此,诉讼方只能退而求其次,他们必须能够提供在(烟草公司所说的)其他因素都被排除的情况下,吸烟者发病的比例依然比不吸烟者要高很多的证据,这件事做起来远比想象的困难。
虽然当时全世界的人口多达60亿,吸烟者的人数也很多,得各种与吸烟有关疾病的人也不少,但是在以移民为主的美国,尤其是大城市里,人们彼此之间基因的差异相对较大,生活习惯和收入状况也千差万别,即使调查了大量吸烟和不吸烟的样本,能够进行比对的、各方面条件都很相似的样本并不多。不过在20世纪90年代的那次世纪大诉讼中,各州的检察长下定决心要打赢官司,而不再是不了了之,为此他们聘请了包括约翰·霍普金斯大学在内的很多大学的顶级专家作为诉讼方的顾问,其中既包括医学家,也包括公共卫生专家。
这些专家们为了收集证据,派下面的工作人员到世界各地,尤其是第三世界国家的农村地区(包括中国的西南地区),去收集对比数据。在这样的地区,由于族群相对单一(可以排除基因等先天的因素),收入和生活习惯相差较小(可以排除后天的因素),有可能找到足够多的可对比的样本,来说明吸烟的危害。
各州检察官们和专家们经过三年多的努力,最终让烟草公司低头了。1997年,烟草公司和各州达成和解,同意赔偿3 655亿美元。在这场历史性胜利的背后,靠的并非是检察官们找到了吸烟对人体有害的因果关系的证据,而依然是采用了统计上强相关性的证据,只是这一次的证据能够让陪审团和法官信服。在这场马拉松式的诉讼过程中,其实人们的思维方式已经从接受因果关系,转到接受强相关性上来了。
如果在法律上都能够被作为证据接受,那么把相关性的结果应用到其他领域更是顺理成章的事情。
大数据思维与广告:咖啡与信用卡广告更配哦
2003年Google推出了根据网页内容安插广告的AdSense服务,以与那些在网页中随机投放广告的产品竞争。根据我们的直觉,如果在一个和照相机有关的网站(或者)网页中放上照相机的广告,效果应该最好。这其实就是用到了相关性的特点,但是大部分时候,相关性并不是那么直接,不能一眼就看出来。根据大量数据的统计结果,我们发现这样一些广告和内容的搭配效果非常好,很多和我们的想象不大相同,比如:
在电影租赁和收看视频的网站上,放上零食的广告;
在女装网站上,放男装的广告;
在咖啡评论和销售网站上,放信用卡和房贷的广告;
在工具(Hardware)评论网站上,放上快餐的广告;
……
这些搭配,如果没有大量的数据统计作为基础,一般人是想不到的。当然,如果仔细分析有些看似不太相关的搭配,还是能够找到合理的解释,比如电影租赁和视频播放网站与零食广告的搭配,符合人在看视频时喜欢吃零食的习惯。
但是,有些搭配会让人完全摸不到头脑,比如把咖啡和信用卡或者房贷联系起来。不管是能够找到原因的,还是想不出原因的(可能背后存在着我们一时想不到的原因),只要使用了这些相关性,广告的效果就好。当然,在利用相关性时,我们希望是那种可信度比较高的,即数学上所谓的强相关性,而不是随便把一些看似相关的东西扯到一起。
我们在前面提到,能通过因果关系找到答案,根据因果关系知道原因固然好,但是对于复杂的问题,其难度非常大,除了靠物质条件、人们的努力,还要靠运气。
牛顿和爱因斯坦都是运气很好的人。遗憾的是,大部分时候我们并没有灵感和运气,因此很多问题得不到解决。在大数据时代,我们能够得益于一种新的思维方法—从大量的数据中直接找到答案,即使不知道原因。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在实证研究中,层次回归分析是探究“不同变量组对因变量的增量解释力”的核心方法——通过分步骤引入自变量(如先引入人口统计学 ...
2025-11-13在实时数据分析、实时业务监控等场景中,“数据新鲜度”直接决定业务价值——当电商平台需要实时统计秒杀订单量、金融系统需要实 ...
2025-11-13在数据量爆炸式增长的今天,企业对数据分析的需求已从“有没有”升级为“好不好”——不少团队陷入“数据堆砌却无洞察”“分析结 ...
2025-11-13在主成分分析(PCA)、因子分析等降维方法中,“成分得分系数矩阵” 与 “载荷矩阵” 是两个高频出现但极易混淆的核心矩阵 —— ...
2025-11-12大数据早已不是单纯的技术概念,而是渗透各行业的核心生产力。但同样是拥抱大数据,零售企业的推荐系统、制造企业的设备维护、金 ...
2025-11-12在数据驱动的时代,“数据分析” 已成为企业决策的核心支撑,但很多人对其认知仍停留在 “用 Excel 做报表”“写 SQL 查数据” ...
2025-11-12金融统计不是单纯的 “数据计算”,而是贯穿金融业务全流程的 “风险量化工具”—— 从信贷审批中的客户风险评估,到投资组合的 ...
2025-11-11这个问题很有实战价值,mtcars 数据集是多元线性回归的经典案例,通过它能清晰展现 “多变量影响分析” 的核心逻辑。核心结论是 ...
2025-11-11在数据驱动成为企业核心竞争力的今天,“不知道要什么数据”“分析结果用不上” 是企业的普遍困境 —— 业务部门说 “要提升销量 ...
2025-11-11在大模型(如 Transformer、CNN、多层感知机)的结构设计中,“每层神经元个数” 是决定模型性能与效率的关键参数 —— 个数过少 ...
2025-11-10形成购买决策的四个核心推动力的是:内在需求驱动、产品价值感知、社会环境影响、场景便捷性—— 它们从 “为什么买”“值得买吗 ...
2025-11-10在数字经济时代,“数字化转型” 已从企业的 “可选动作” 变为 “生存必需”。然而,多数企业的转型仍停留在 “上线系统、收集 ...
2025-11-10在数据分析与建模中,“显性特征”(如用户年龄、订单金额、商品类别)是直接可获取的基础数据,但真正驱动业务突破的往往是 “ ...
2025-11-07在大模型(LLM)商业化落地过程中,“结果稳定性” 是比 “单次输出质量” 更关键的指标 —— 对客服对话而言,相同问题需给出一 ...
2025-11-07在数据驱动与合规监管双重压力下,企业数据安全已从 “技术防护” 升级为 “战略刚需”—— 既要应对《个人信息保护法》《数据安 ...
2025-11-07在机器学习领域,“分类模型” 是解决 “类别预测” 问题的核心工具 —— 从 “垃圾邮件识别(是 / 否)” 到 “疾病诊断(良性 ...
2025-11-06在数据分析中,面对 “性别与购物偏好”“年龄段与消费频次”“职业与 APP 使用习惯” 这类成对的分类变量,我们常常需要回答: ...
2025-11-06在 CDA(Certified Data Analyst)数据分析师的工作中,“可解释性建模” 与 “业务规则提取” 是核心需求 —— 例如 “预测用户 ...
2025-11-06在分类变量关联分析中(如 “吸烟与肺癌的关系”“性别与疾病发病率的关联”),卡方检验 P 值与 OR 值(比值比,Odds Ratio)是 ...
2025-11-05CDA 数据分析师的核心价值,不在于复杂的模型公式,而在于将数据转化为可落地的商业行动。脱离业务场景的分析只是 “纸上谈兵” ...
2025-11-05