麦肯锡教给我的5堂课能让你成为更好的数据科学家-CDA数据分析师官网

热线电话：13121318867

麦肯锡教给我的5堂课能让你成为更好的数据科学家

2022-02-28

数据科学是近年来最热门的领域之一，吸引了大量人才加入顶级公司数据科学团队的竞争。有很多文章教你DS面试的toprep如何“从其他面试者中脱颖而出”，但旅程肯定不会止步于被录用。得到一份工作只是第一步；然而，没有多少人谈论一旦你通过面试并加入公司，你如何从其他受雇的数据科学家中脱颖而出。

在麦肯锡的几年里，我有幸与麦肯锡和我服务过的顶级公司的无数聪明的数据科学家共事，并观察到了那些获得合作伙伴和客户最高评级和赞扬的共同特征。也许你们中的一些人会感到惊讶，表现最好的数据科学家不一定是那些构建最出色的模型或编写最高效代码的人（当然，他们必须清除相当高的技术技能标准才能被雇用），而是那些除了分析能力之外还拥有许多重要的“软技能”的人。这篇文章总结了我在麦肯锡工作期间的经验和观察，总结了5个教训，这些教训将帮助你成为一名更好的数据科学家。

作为一个热爱精确的数据人员，我想指出，尽管“数据科学家”作为一个标题涵盖了当今行业中的广泛工作，但在本文中，我主要关注的是对以任何形式影响业务决策的数据科学家（而不是那些更面向研究的“核心数据科学”角色）的提示。

第1课。自上而下的沟通是关键

自上而下的沟通，或称金字塔原则，是麦肯锡合伙人芭芭拉·明托创造并推广的，被许多人视为商业（甚至个人生活）中最有效的沟通结构。尽管这是战略顾问等一些人的第二天性，但许多数据科学家在沟通方面会被绊倒。想法很简单：当你试图沟通一个想法/论点时，如果你以关键信息开始，然后是支持这一关键信息的几个主要论点是最有效的，也是最容易让观众理解的；如果需要，每个参数后面都可以跟支持数据。

采用自上而下的通信是有利的，原因如下：

关键是前面和中心：如果你在电子邮件/备忘录的开头看到了TLDR，或者在研究论文的开头看到了执行摘要，你就会明白这一点的重要性。预先传达关键信息将确保你的听众得到一个大致的概念，即使他们没有抓住所有的细节。
演示/交流可以很容易地针对不同的受众进行定制：您可以准备一套交流，并将其保持在“关键信息”的级别上，为C级主管提供主要论点，并为同行和其他对杂草内容感兴趣的分析性受众提供细节。

不幸的是，对于数据科学家来说，他们的工作大部分时间都在进行深入的分析，这种通信结构可能不是自然的，而且可能违反直觉。我经常看到数据科学家以深入的细节开始演示或交流，但没有传达关键信息，就让观众迷失了方向。

如何实践:一个简单的实践方法是在会议之前根据这种结构记下你的想法，以便在交流分析的关键发现时保持正确。经常退一步问问自己你真正想解决的是什么问题也很有帮助；那应该是你传达的关键信息。

第2课。自己做“翻译”

如果你看看麦肯锡为公司数据组织设计的suggestedblueprint,它强调了一个名为“翻译家”的角色的重要性，这个角色被认为是业务和数据团队之间沟通的桥梁，将分析洞察力转化为业务可操作的洞察力（我认为这个角色部分源于对我上面提到的观点的失望）。我敢肯定，作为一名数据科学家，你被要求“像你向一个五岁的孩子解释一样解释它”或“用简单的英语解释它”。从其他人中脱颖而出的数据科学家正是能够做到这一点的人--充当自己的翻译；如果有人问他们，他们可以向既没有分析背景也没有时间阅读白皮书的首席执行官很好地解释他们的ML模型，而且他们总是可以将分析结果与业务影响联系起来。这些数据科学家受到重视的原因如下：

很难从非分析性的人那里得到“翻译”：麦肯锡确实试图培养一批战略顾问来做不同分析研究的“翻译”；但在我看来，从来没有成功过。原因很简单：为了准确地解释复杂分析的关键要点并准确地反映警告，你需要一种分析心态和深刻的理解，这是通过几周的分析新兵训练营培训无法实现的。例如，如果你不知道肘法，你如何解释你为K-均值选择的簇数？如果你不知道SSE是什么，你怎么解释肘法？。作为一名学生，你花在教授这个大多不成功的速成班上的时间可能更好地花在打造自己的交流风格和自己想出翻译上。
如果DS能解释他们自己的分析，精确度的损失是可以避免的：我相信大多数人都玩过“电话”游戏或它的变体。信息传递的时间越长，就越难保持其准确性。现在想象同样的过程发生在你的分析工作中；如果你依赖别人来解释/翻译你的作品，当它到达最终用户时，信息可能会与现实相差很大。

如何实践:与朋友（最好是没有任何分析背景的朋友）一起实践，向他们解释您的模型/分析（当然不透露任何敏感信息）。这也是在你的方法中发现知识差距的一个很好的方法；就像“伟大的解释者”理查德·费曼认为的那样，如果你不知道如何用简单的方式解释某事，很多时候是因为你自己没有很好地理解它。

第3课。解决方案驱动是1号规则

这不仅限于数据人才；对于公司的任何职能/角色的人来说，这都是必不可少的。当然，能够发现问题并提出担忧是非常有价值的，但更值得赞赏的是提出潜在解决方案的能力。没有一个解决方案驱动的人在房间里，讨论往往会绕圈子，痴迷于问题，而不是试图找出前进的道路。

在大多数顶级咨询公司，解决方案驱动是一号法则，在我看来，这种方法也应该转移到技术领域。作为一名数据科学家，当人们由于缺乏分析背景而提出荒谬的数据要求时，您可能会经常经历令人沮丧的情况。我见过无数DS不知道如何处理这些情况，并因经常唱反调而在涉众管理中失败。与其关闭它们，不如以解决方案为导向，帮助它们重新定义请求，并利用您对数据和分析工具的更好理解来限制范围。

以解决方案为导向并不意味着你永远不能对任何事情说不，或者总是必须已经起草了完美的解决方案；这意味着你应该在你说的每一个“不”之后总是有一个“但是怎么样……”。

如何实践:遇到问题时，在向团队或经理提出问题之前，先考虑一下解决问题的潜在方法。在解决问题时发挥你的创造力，不要害怕自己会提出新的解决方案。从扩展到您的工作流并了解更多关于业务和其他团队工作的信息也很有帮助。了解全局通常有助于将点点滴滴联系起来，并引导你找到创造性的解决方案。

第4课。在业务上下文中建模时，可解释性胜过精确性

没有人真的想预测流失，每个人都在试图理解流失

如今，当每一家公司都在建立预测流失的模型时，很难后退一步问问自己，我们最初为什么要预测流失。公司希望预测流失，这样他们就可以找到一个可行的解决方案来防止它。因此，如果您的模型告诉首席执行官“web访问量的立方根是表示流失的最重要的特征之一”，他可以用这些信息做什么？可能没什么…

作为一名数据科学家，就像你们中的许多人一样，我过去在建模时只关注准确性，将其作为的成功度量标准。但我逐渐意识到，如果不能将其与业务影响联系起来，那么通过添加无法解释的特性和微调超参数将准确率从96%提高到98%对业务毫无意义（同样，这只适用于面向业务的DS，对于ML的某些领域，这种提高可能意味着整个世界）。

如果模型是一个黑箱，也很难从C级高管那里获得可信度。模型是一个在一天结束时指导业务决策的工具，所以它的价值很大程度上是基于它的实用性和可解释性也就不足为奇了。

如何实践:在构建模型或进行分析时，始终牢记业务影响。当建立模型时，避免向模型投掷随机的交互特征，希望其中一个会坚持；相反，在开始构建模型之前，要对特性工程阶段进行深思熟虑。写下从模型/分析中得出的业务建议也将帮助您重新评估在构建模型时所做的设计选择。

第5课。确保有一个假设，但不嫁给一个

从特征探索到探索性数据分析(EDA)，假设作为大多数分析的起点是很重要的。如果没有假设，您将无法指导如何为EDA切片和切分数据，或者首先测试哪些特性。没有假设，甚至没有必要进行AB测试（这就是为什么它被称为假设测试）。但是，我经常看到数据科学家在没有明确假设的情况下钻研头朝下的分析阶段，然后在兔子洞里迷失了方向。或者更常见的情况是，数据科学家将假设结构化的过程完全留给团队成员，而团队成员对数据没有可见性，后来才意识到没有足够的数据来检验这些假设。在我看来，最好的方法是让数据科学家从一开始就参与这些假设的头脑风暴会议，并使用假设来指导后续的分析并确定优先级。

假设很重要，它们应该作为起点，而不是终点。我一次又一次地看到许多数据科学家（或与数据科学家一起工作的人）坚持一个假设，尽管发现相互矛盾。这种对最初假设的“忠诚”将导致数据窥探和按摩数据以适应某种叙述。如果你熟悉“辛普森悖论”，你就能理解数据在讲述“错误故事”方面的力量。优秀的数据科学家应该能够保持数据的完整性，并将叙述转向符合数据，而不是相反。

如何实践:为了提出好的假设，建立业务理解和敏锐度是很重要的。在探索数据的过程中，让假设留在你的脑海中，以指导你，但当数据告诉你一个不同于你最初“受过教育的猜测”的故事时，要虚心承认。有一个良好的商业意识也会帮助你调整你最初的理论，并根据数据调整你的叙述。

当谈到面向业务的角色时，人们往往认为人才可以分为两类：分析型和战略型，似乎这两种能力是对立的。好吧，我会告诉你一个秘密，最好的分析人才是那些同时理解事情的战略/业务方面并理解如何与业务利益相关者沟通的人，而战略角色中最好的人才对分析和数据有一定程度的理解。