20个问题揭穿冒牌数据科学家-CDA数据分析师官网

热线电话：13121318867

20个问题揭穿冒牌数据科学家

2016-05-12

20个问题揭穿冒牌数据科学家

如今数据科学家正式成为21世纪最性感的工作，人人都想来分一杯羹。

这也意味着会有一些冒牌货。这些人自称数据科学家，却不具有相应的技能。

这不见得是有意欺骗。数据科学是崭新的领域，目前对此岗位也缺乏被广泛认可的描述。这意味着许多人会认为自己是数据科学家，仅仅因为他们常跟数据打交道。

“冒牌数据科学家通常是某一个特定学科的专家，且坚信他们的学科才是唯一真正的数据科学。这种想法忽略了一个事实：数据科学是一整套科学工具与技术（数学，计算，视觉，分析，统计，试验，问题界定，模型建立与检验等）的集合，用于从数据收集中获得新发现、洞察与价值。
– Kirk Borne，Booz Allen Hamilton首席数据科学家，RocketDataScience.org创始人
识别冒牌数据科学家的第一个办法是了解你要寻找哪些技能。了解数据科学家/数据分析师/数据工程师的区别很重要，尤其当你在计划招募这些稀有物种其中之一的时候。
为了帮助你区分真正的数据科学家与冒牌的（误入歧途的）数据科学家，我们总结了一个问题清单，内含20个问题。在面试数据科学家时你可以提出这些问题。

解释什么是正则化，以及它的用处。

你最崇拜哪些数据科学家？哪些创业公司？

你会如何验证一个多元回归预测模型的量化变量的结果？

解释什么是准确率（precision）和召回率（recall）。它们与ROC曲线有什么关系？

你如何证明你对某个算法进行的改进，与原算法相比是有了真正的改进？

什么是根本原因分析（root cause analysis）？

你是否熟悉以下概念：价格优化、价格弹性、库存管理、竞争（商业）智能。举例说明。

统计功效（statistical power）是什么？

解释什么是重新取样法（resampling methods）以及它们为何重要。解释它们的局限性。

哪种情况更好：有许多假阳性值，或者是有许多假阴性值？请解释。

什么是选择偏差（selection bias），它为何重要？如何避免？

举出一例说明，你如何用实验设计来回答一个有关用户行为的问题。