数据分析/机器学习模型无法部署的八大原因-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读数据分析/机器学习模型无法部署的八大原因

数据分析/机器学习模型无法部署的八大原因

2016-06-23

数据分析/机器学习模型无法部署的八大原因

不要成为一个模型无法部署的数据科学家

举一个典型的模型部署失败的实例：Netflix大奖竞赛。简单来说，这是一个面向大众开放的竞赛，参与者需要写一个协同过滤算法来预测电影的用户评级。胜出者获得了1000万美元的大奖。然而最后，这个完整的模型却没有得到部署。

不仅仅是Netflix，大多数公司都发生过这种戏剧性的事件。就在最近，我与许多一流数据分析公司的公司高管进行了交流，而他们最大的担忧就是公司50%的预测模型都得不到实现。

为什么要建立一个在现实世界中无法使用的模型呢？这就好像你做一个蛋糕，尝试过后发现很美味，但却永远不让任何人吃一个道理。

在本文中，我列出了在建立模型时你应当谨记的所有可能原因。在我的职业生涯中，我曾多次遇到过这种情况。因此，我认为在我经验的帮助下，可以帮助你克服这种情况。

模型部署失败的8个原因

1、高假正性（FP）：这看上去似乎有点专业，而目前最重要的是了解什么是假正。假设在一个分类模型中，我们想要预测客户是应答者（给出答案的人）还是非应答者（不给出答案的人）

想象一下，如果你预测一个人X会是一个应答者，但实际上他并不会给出任何答案。这种情况下，X就被称为假正。那么在现实世界中这会造成什么影响，我知道你想要问这个问题。

举个例子，例如你需要为1000个客户建立一个保留活动，在这1000个客户中会有100个客户流失（离开）。你创建一个了不起的模型，在这个模型中前十个人中有四个人会离开（相等的十大部分）

这就意味着，从你预测的前100个客户中，40个客户会流失。所以，你推荐企业专为这100个客户提供一个吸引人的购物方案，这样可以阻止他们流失。但是，这仍有很大问题。

问题就是你花费在那些客户身上的每一美元中，只有0.4美元被用来阻止客户流失。剩下的0.6美元都浪费在那些并不是真心想要离开的假正（FP）客户身上。

2、不了解基本业务模型：最近，对于使用机器学习算法和更加复杂的模型建立技术的需求正在日益增长。换句话说，各企业正在逐渐减少使用传统的模型技术。

毫无疑问，使用机器学习技术可以加大预测能力。但是企业仍不是太接受这种黑盒技术。以我经验而言，这将导致实施一个预测策略时会需要更长的前置时间。由于大多数的应用程序业务上是高度动态的，该模型也会由于较长的前置时间变得越来越冗余

3、对业务问题不够了解：创建过预测模型对分析师或者业务同行而言都会在其履历上添加浓墨重彩的一笔。然而，这并不是你建立模型的目的。在某些情况下，分析师进入创建模型阶段，并会试图削减本应分配给了解业务问题的时间。

4、模型实施过于复杂：预测能力是这些模型实施的灵魂，但是一般情况下，预测能力是以模型的复杂度为代价的。为使模型更加健壮我们开始引入双变量和三变量，不论这些变量对业务来说有没有意义。这样的模型在书本上可能是十分精彩的，然而就因如此，他们也只能停留在书本上，并不能在现实世界中实现。

5、不能解决根本原因，仅仅试图提高一个过程的影响。我们为什么做模型？最重要的原因是为找到一个特定响应的驱动程序。这些驱动程序又是什么？驱动程序往往是响应率的根本原因。如果你引进所有影响当做输入变量，然后这些变量也会作为重要输出时将会发生什么？这将没有任何用处，因为你没有改变任何可能带来变化的事情。

6、训练人口与得分人口完全不同：在很多情况下，我们最终是在一个与实际人口完全不同的人口中建立模型。举例来说，如果你正在创建一个针对人口的活动，并且以前没有类似的活动。在这种情况下，我们先从基本假设开始，假设该人口具有高响应率，且有可能有高增量响应率。但是这种假设很少是真实的，因此该模型将很难使用。

7、不稳定模型：高性能模型通常是高度不稳定的，并且不在同一时间内执行。在这种情况下，业务可能需要高频的模型修正。随着模型创建的前置时间越来越长，业务可能会开始回到基于直觉的策略。

8、依赖于高动态变量的模型：动态变量给模型带来真正的预测能力。然而，你也可能会有这样的变量，它的赋值永远不会显示在训练窗口。

例如，你可能得到一些工作日的销售量作为重要变量来预测一个分支的月销售量。我们就说这种变量具有高预测性。但是对于我们的评分窗口而言，有一些月份仅仅有10-15天的工作日。如果你的训练数据没有这样的月份，你的模型可能无法进行准确预测。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

机器学习数据分析业务模型协同过滤

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

数据分析/机器学习模型无法部署的八大原因

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少寒谈传统制造业与互联网行业数 ...

学完商业数据分析，开启 CDA 量化策略：从业务思维 ...

CDA持证人专访：赵森淼谈药企数据分析从业体验与转 ...

【CDA干货】卡方检验与T检验结果的标准化解读方法及 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载