京公网安备 11010802034615号
经营许可证编号:京B2-20210330
关于机器学习有这十大误区,比如以为它不久后将变得超级智慧
机器学习过去往往发生在幕后:亚马逊通过挖掘你的点击和购买记录来给你推荐新物品;谷歌通过挖掘你的搜索来投放广告;脸书通过挖掘你的社交网络来选择给你展示不同的新鲜事。
然而机器学习现在已然登上了头版头条,成为了被热烈讨论的话题!机器学习算法可以驾驶车辆,可以翻译演讲,赢得危险边缘游戏(哥伦比亚广播公司益智问答游戏节目)!
我们不由自主会问:“他们到底能做什么不能做到什么?他们会是隐私、工作甚至是人类消失的开始呢?”大家对机器学习的关注固然很好,因为机器学习将会是塑造未来的主要推动力,但是这其中又有太多关于机器学习的错误观念,我接下去要做的第一步就是纠正这些错误的观念。让我们快速浏览一下那些错误观念。
机器学习只是在总结数据
事实上,机器学习的主要目的是预测未知。知道你过去看了什么电影只是一种推测你之后想看什么电影的方式;你的信用记录预示了你会否按时付账单。而对于机器人科学家,学习算法提出假设,改进假设,而只有假设提出的预测成真时才会相信这些假设。学习算法并不比科学家聪明,但却有比科学家百万倍快速的计算能力。
学习算法只是发现了事件之间的关联
这是你对媒体口中机器学习的第一印象。一个非常著名的例子就是,谷歌搜索中关于“流感”搜索的增加是流感流行的迹象。当然这没有错,但是大多学习算法可以发现更丰富的信息,例如如果痣有着奇怪的形状和颜色,并且在逐渐变大,那么这可能会是皮肤癌。
机器学习只能发现相关性,而无法发现因果关系
实际上,最流行的机器学习算法之一就是由尝试不同的行为之后观察行为的结果(本质上是发现因果关系)所组成的。比方说,电商网站可以尝试不同呈现商品的方式,然后选择其中能带来最高购买量的方式。你可能不经意间已经参与了成千次这种实验。因果关系甚至可以在一些无法进行实验只能通过计算机处理之前记录的数据的情形下被发现。
机器学习无法预测未见过的事件,也称作“黑天鹅”效应
如果某些事之前从未发生过,那么预测它发生的概率必然为零,不然呢?相反,机器学习很擅长高精度地预测稀有事件。如果A是B发生的原因,B又是C发生的原因,那么A可能导致C发生,即便我们从未见过其发生过。每一天,垃圾邮件过滤器可以标记出刚刚捏造而成的垃圾邮件(之前未出现过)。像2008年发生的房地产危机实际上是被广泛预测到了的,只不过不是那时大多数银行所使用的是有缺陷的模型而已。
你有越多的数据,你越可能得到错误的模式
试想,国家安全局查看了越多的电话记录,越可能把一个无辜的人标记为恐怖分子,因为他的通话记录正好匹配了恐怖分子检测的机制。对同一个体挖掘越多的属性是会增加误判的可能性,然而机器学习专家们是很善于把这种可能性降到最低的。另一方面,挖掘不同个体的同种属性可以降低误判风险,因为从中学习的规则有更多的依据。而且有些学习算法可以在不同个体之间找到某些模式,从而使检测机制更加稳定。也许某人拍摄纽约市政府的视频并不可疑,同时另外一个大量购买硝酸铵的人也不可疑;然而如果这两个人之间有电话联系,也许FBI就应该调查一下以保证他们之间不是在密谋爆炸袭击了。
机器学习无视现存的知识
许多被机器学习渗透的领域里的专家质疑像机器学习这样不需掌握任何领域知识的方法。真正的知识是一个长期推理与实验的过程中累积下的,你无法靠在一个数据库里跑一个原型算法而学到。但不是所有的学习算法都不使用领域知识;其中一些就会用数据去精炼已有的繁杂知识,使其变得十分精巧,进而呈现为计算机所能理解的形式。
计算机习得的模型人类无法理解
这自然会是一个引起人们关心的原因。如果一个学习算法是黑箱模型,那么我们怎么能相信它给出的推荐呢?某些模型却是非常难理解,比如给机器学习带来最大成功的深度神经网络(从youtube的视频里识别猫咪)。但其他大多模型都完全可以被理解,比如我们之前提到的诊断皮肤癌用到的方法。
以上所有的误解都是负向的,它们认为机器学习的能力比实际上更有限。以下的则是过于正向的错误观念:
越简单的模型越准确
这个观念有时来自“奥卡姆剃刀”,但只说了我们应该倾向于更简单的模型却没有给出原因。简单模型更可取是因为他们更易于解释和推理。但是有时与数据相容的简单假设比复杂模型更不准确。一些强有力的学习算法输出模型看起来毫无理由的复杂,甚至还会继续给复杂模型添加组件即便他们已经完美拟合了数据,但这也是它们比简单模型更准确的原因。
机器学习发现的模式可以直接被采纳
如果一个学习算法输出了一条诊断皮肤癌的规则,并且极其准确(任何符合这个条件的痣都是皮肤癌),这也不意味着你应该相信它。对于数据微小的改动都会导致算法输出同等精确却非常不同的规则。只有那些对于数据中随机扰动稳定的规则可以被相信,而不仅仅是作为预测的方式。
机器学习不久后会变成超级智慧
从每天人工智能发展的新闻来看,非常容易有一种感觉,计算机已经接近于像我们一样可以看,说话,推理;不久后就会把我们抛弃在尘土里了。我们在人工智能的第一个五十年走了条长路,机器学习是其近来成功的主要原因,然而我们还有很长的路要走。计算机可以非常好的完成特定的任务,却依然没有通用智能,也还没有人知道怎么去教它们。
好了,到这你已经知道机器学习有时比我们想象的更强力,有时却不那么好。如何使我们更好运用机器学习也取决于我们!我们要对它们有更准确的理解!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10