数据科学团队的自测题-CDA数据分析师官网

热线电话：13121318867

数据科学团队的自测题

2016-05-06

数据科学团队的自测题

数据科学家具备很多相邻领域的技能，至少是基本技能（比如工程、开发和运维、产品管理、数学、研究、写作、商业等等），团队最容易出问题的地方之一，就是他们无法专注于那些需要动用这一整套技能才能完成的工作团队是否拥有足够的数据，以及相应的工具来高效地处理这些数据。如果处理数据时困难重重：因为和生产系统相冲突，没有被文档化，或者收集方式前后不一致，甚至根本就不存在……这个时候，数据科学团队要及时出业绩就很难了。团队必须能自信地报告负面结果，否则正面结果也会失去大家的信任。数据科学团队需要能“抓关键”的决策者，而这些决策者必须实事求是地面对数据和证据。

原文翻译：

虽然数据科学风头正盛，但它依然是一个比较年轻的学科，还有很多基础性的问题有待解答。数据科学家究竟是做什么的？成为数据科学家应当接受怎样的教育培训？数据科学家的职业道路是什么样的？最近，我一直在思考一个相关的问题：一个高效的数据团队的标志是什么?

说起出色的数据科学工作，我们最先想到的最重要的标准往往是“有没有大量的数据？”而我主张采用一个涵盖面更广的清单，涉及团队采用的流程、为团队提供支持的基础设施，以及团队与公司其余部分之间的界限。如果这些事情安排妥当，让团队专注于他们自己的问题，并减少围绕这些问题产生的摩擦，那么，数据科学家就会拿出优异的表现。

这种方法借鉴自joelonsoftware.com的乔尔提出的软件工程团队测试方式。你应当能快速对每个问题作出肯定或否定的回答。肯定答案越多，情况就越乐观。

这是对团队基本状况的衡量，优秀的团队可能存在其他各个方面的差异。这些问题既是关于团队本身，也是关于团队所处的生态系统，但依照我的经验，数据科学团队由于深深植根于公司内部，它必须敏锐地关注周遭的环境。你还可以换一个角度思考：假如你想加入这个团队，你会问些什么问题？

问题

1.你们绝大部分时间都在做耗时一天以上的项目吗？

2.公司有专门的工程师负责数据基础设施吗？

3.公司其他人可以不经过数据科学家，直接访问基本数据吗？

4.你们可以在不影响生产系统表现的情况下访问数据吗？

5.你们做分析的时间多于等待数据的时间吗？

6.重大架构会文档化吗？

7.测量手段会被视为最小可发布产品的一部分吗？

8.对于在收集到的数据中发现并修复错误，你们有设专门的流程吗？

9.已经完成的研究工作会被文档化并存放在某个中心位置吗？

10.团队在将工作共享出去之前，有一个常规的审查流程吗？

11.你会通过做实验去检测决策带来的影响吗？

12.你能没有后顾之忧地报告负面结果吗？

13. CEO（或其他负责人）能说出团队在当季做出的至少一个贡献吗？

14.公司在进行产品和业务规划流程时，会来咨询数据科学家吗？

优秀的数据科学工作是建立在一组基本需求层次之上的：强大且受到良好维护的数据基础设施，免受杂事干扰的环境，高质量的数据，强大的团队研究流程，能“抓关键”的开明决策者。

第一组问题（1-3）的重点是考察数据科学团队是否免受一些周边问题的干扰，通过改善基础设施、改进工具或交由专门人员处理，这些周边问题就能得到更好的解决。因为数据科学是一个跨学科领域，数据科学家具备很多相邻领域的技能，至少是基本技能（比如工程、开发和运维、产品管理、数学、研究、写作、商业等等），团队最容易出问题的地方之一，就是他们无法专注于那些需要动用这一整套技能才能完成的工作。如果大部分时间都用来响应临时请求、为简单的数据访问提供支持，或是管理数据管线，那就会挤占真正的数据科学工作。正因为他们可以很好地胜任这些周边工作，公司才需要设置严格的规定，确保他们不必去做。

没有丰富的数据，数据团队的工作就是盲目的，而第4-8个问题就考察了团队是否拥有足够的数据，以及相应的工具来高效地处理这些数据。如果处理数据时困难重重：因为和生产系统相冲突，没有被文档化，或者收集方式前后不一致，甚至根本就不存在……这个时候，数据科学团队要及时出业绩就很难了。这些问题也衡量了团队在公司里得到的信任程度；如果产品团队不能从数据科学团队那里得到好处，对建立和维护数据收集系统的重视程度就会打折扣。

团队内部流程（第9-11个问题）保证团队所做的是高质量的研究工作，这些工作能建立并维护它在公司内部得到的信任。数据科学团队所服务的对象大多没有能力去验证团队的工作成果，所以，团队自身要负责记录自己的工作，使之接受严格的同行评议，并将结果传播出去。这一点不言而喻：受控实验是数据科学武器库中最重要的一项工具，一个团队若不经常使用它，那一定是有问题的。

如果数据科学团队被强制要求，即使相关证据显示产品有问题，也必须让产品显得完美，那就是公司领导层出了问题。团队必须能自信地报告负面结果，否则正面结果也会失去大家的信任。数据科学团队需要能“抓关键”的决策者，而这些决策者必须实事求是地面对数据和证据。具体怎么衡量呢？可以看公司内部是否需要数据科学团队的参与，领导者能否快速确定，数据科学如何帮助自己的团队取得成功。最后的第12-14题试图考察这些方面。

这份清单显然是不彻底的，也并不完全适合推而广之。数据科学的界限划分仍然是人们争论不休的话题。纯粹着眼于构建数据产品的团队应该会有非常不同的观点，那些刻意模糊数据科学和工程数据界限的人应该也有不同意见。所有数据团队之间究竟有没有共同点呢？请畅所欲言，提出新的问题，或告诉我们，上述哪几个问题并不广泛适用。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；