热线电话：13121318867

如何使得数据科学家更加市场化？

2019-11-06

作者 | Andrew Ste

编译 | CDA数据分析师

How to Become More Marketable as a Data Scientist

作为一名数据科学家，你处在一个高需求的位置。那么，你如何才能更好地提高你的市场竞争力呢？看看这些目前雇主在2019年最想要的数据科学家技能趋势。

这个标题在你看来可能有点奇怪，好像是，如果你是2019年的数据科学家，你已上市...

由于数据科学对当今的商业有着巨大的影响，对DS专家的需求也在增长。目前我正在写这篇文章，仅LinkedIn上就有144527个数据科学工作。但是，重要的是，如何把握这个行业的脉搏，以意识到最快和最有效的数据科学解决方案。为了帮助你，我们对数据痴迷的CV编译器团队分析了部分职位空缺，确定了2019年的数据科学就业趋势。

2019年最受欢迎的数据科学技能

下图是雇主在2019年向数据科学工程师寻求的技能：

对于这一分析，我们查看了StackOverflow、AngelList和类似网站的300个数据科学空缺。有些术语可能在一份工作清单中重复不止一次。

注：请记住，这项研究代表的是雇主的偏好，而不是数据科学工程师自己的偏好。

数据科学趋势

显然，数据科学更多地是关于基础知识，而不是框架和库，但仍然有一些趋势和技术值得注意。

大数据

根据2018年大数据分析市场研究，企业采用大数据的比例从2015年的17%飙升至2018年的59%。因此，大数据工具的流行程度也越来越高。如果我们不考虑ApacheSPark和Hadoop，(我们将在下一节中详细讨论后者)，最流行的方法是MapReduce (36), and Redshift (29).

Hadoop

尽管Spark和云存储广受欢迎，但是Hadoop的“时代”还没有结束。因此，有些雇主仍然期望应聘者熟悉 Apache Pig (30), HBASE(32)和类似的技术。HDFS(20)空缺职位中仍有提及。

实时数据处理

随着各种传感器、移动设备和物联网(18)公司的目标是从实时数据处理中获得更多的洞察力.因此，流分析平台，如Apache Flink(21)在一些雇主中很受欢迎。

特征工程与超参数整定

准备数据和选择模型参数是任何数据科学家工作的关键部分。术语数据挖掘(128)在雇主中很受欢迎。一些雇主也非常重视超参数调参(21)。然而，作为一名数据科学家，您需要首先需要关注特征工程..为您的模型选择最好的特性很重要，因为它们决定了您的模型在其创建的早期阶段是否成功。

数据可视化

处理数据并从中提取有价值的见解的能力是至关重要的。然而，数据可视化(55)对于任何数据科学家来说，技能同样重要。至关重要的是，您可以任何团队成员或客户都能理解的格式表示您的工作成果。至于数据可视化工具，雇主更喜欢。Tableau (54)

总趋势

在职位空缺方面，我们遇到了这样的条件：AWS (86), Docker(36)和 Kubernetes (24)。因此，软件开发行业的总体趋势也适用于数据科学领域。

专家评论

这个评级中的技术水平是相当的。然而，在数据科学中，有些事情和编码一样重要。这是一种从“数据输出”(如最终数据集和趋势)、可视化以及用这些数据讲述故事的能力。而且，这也是以一种可以理解的方式展示这些发现的能力。了解你的听众-如果他们是博士，以适当的方式和他们交谈，但是如果他们来自C套件，他们不会关心编程，只关心结果和ROI。

——卡拉·金特数据科学家/所有者

快照数据对于了解当前市场状况是有用的，但它并不代表趋势，因此很难仅仅根据快照来规划未来。我要说的是，R的使用量将继续稳步下降(MATLAB也是如此)，而Python在数据科学家中的流行程度将持续上升。Hadoop和BigData之所以上榜，是因为该行业有些惰性：Hadoop将消失(没有人会认真投资)，大数据也不再是热门趋势。人们是否需要投入时间学习Scala尚不清楚：Google正式支持Kotlin(也是一种JVM语言)，它更容易学习，而Scala有一个陡峭的学习曲线。我也对TensorFlow的未来持怀疑态度：学术界已经转向PyTorch，与其他行业相比，学术界在数据科学方面的影响力最大。(这些意见是我的，可能不代表高德纳的观点。)

——安德里·布尔科夫高德纳机械学习主任，百页机器学习书作者

PyTorch是用GPU对CUDA张量进行数学运算强化学习的动力。它也是一个更强大的框架，可以同时在多个GPU上并行代码，而TensorFlow要求将每个操作封装到一个设备上。PyTorch还建立了适用于递归神经网络的动态图。基于TensorFlow的TensorFlow生成静态图表，与基于火炬的PyTorch相比，学习起来更加复杂。TensorFlow反映了更多的开发人员和研究人员。PyTorch将在构建机器学习仪表板可视化工具(如TensorBoard)时显示出更大的发展势头。PyTorch在调试和数据可视化库(Matplotlib)和海运库方面更像Pythonic。Python的大多数调试工具也可以用来调试PyTorch。TensorFlow附带了自己的调试工具tfdbg。

——Ganapathi Pulipaka博士，埃森哲首席数据科学家，50强科技领袖奖获奖者

我认为数据科学的“工作”不同于数据科学的“职业”。工作列表提供了对市场需要的特定技能的洞察力，但对于职业生涯来说，我所见过的最重要的技能之一是学习能力。数据科学是一个快速发展的领域，如果要取得长期的成功，您需要能够轻松地获得新的技术、工具和领域知识。要做到这一点，就要挑战自己，避免过于舒适。

——里昂·里斯伯格创始人/策展人，数据药剂

数据科学是一个快速发展和复杂的行业，一般知识和特定技术的经验同样重要。我希望这篇文章能帮助你更好地了解2019年你需要的两种技能。祝好运!

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；