
成为一位卓越数据科学家必须要具备四大特征
对于那些希望在大数据时代掘金的公司来说,成功的关键是找到数据科学家, 并围绕数据科学家搭建团队。如今优秀的数据科学家一将难求, 而卓越的数据科学家更是灿若晨星。 如何才能发现真正改变企业乃至行业未来的伟大的数据科学家呢?
Thomas Redman在哈佛商业评论博客中发表了一篇关于区分好的数据科学家和伟大的数据科学家的文章。
好的数据科学家能够帮助你从浩如烟海的数据中发现你无法发现的规律, 而伟大的数据科学家可以发现一个更大的世界, 他们采用数据, 但不完全依赖于数据。
在过去的几年里, 我有幸能够和上百个好的统计学家, 分析师和数据科学家合作。 其中有一些可以称之为“伟大”。 我发现, 这些伟大的数据科学家们都具备四大特征, 是那些好数据科学家所不具备的。
好奇心
最近有很多人都在提到好奇心是数据科学家的必要素质。 这没错, 和任何领域的科学家一样, 数据科学家也需要具备基本的好奇心。
而伟大的数据科学家将好奇心发展到极致。 他们热衷于研究这个世界, 他们会为了发现事物的规律和原因而兴奋不已。他们从数据中去发现事物的规律和原因。 面对数据 他们会从数据的不同角度来进行研究, 进而去发现别人所看不到的规律。
一定的数学水平
伟大的数据科学家能够发现别人看不到的东西。 举个例子来说, 我以前在一个投行碰到过一个实习生。 他现在已经是一个大的媒体集团的首席数据科学家。 在他第二天上班的时候, 老板给了他一叠报告。 他简单扫了一眼报告, 发现了一个关于回报率的计算错误。 他有花了一个小时验证了这个错误并算出正确答案。
重要的是, 几百人都看过这份报告, 而这是一个顶级的投资银行, 肯定有一些相当好的分析师也看过这个报告, 而只有他看出了这个错误。
在描述现实世界的时候, 数学是一种非常有效的语言(爱因斯坦说是“难以置信的有效)。 伟大的数据科学家对这种语言具备一种天生的感觉, 这些甚至是一些好的数据科学家所做不到的。
坚持
伟大的数据科学家在很多方面都能表现出坚持的特点。 前面说的实习生, 看了一眼发现了错误, 花了一个钟头就验证出来了。 实际上数据分析很少能这么快。 就像BT的CIO Jeff Hooper在贝尔实验室时有句名言:“数据不会轻易地把秘密告诉你, 你需要把秘密从中榨出来。”
这说的一点没错。 即便在最好的情况下, 数据也常常是不完整甚至存在错误的。 而大部分数据最后都和你要解决的问题无关。 盯着这些“噪音”数据工作是一项单调无趣的工作。 好的数据科学家可能会转而研究别的问题, 而伟大的数据科学家会坚持继续研究。
数据科学家的另外一个坚持就是他们会坚持表述自己的发现。 这一点, 在大的企业中, 甚至可能比“噪音”数据更加会令人沮丧。 还是拿前面那个实习生的例子。 他工作第二天就发现了这个错误, 而他需要整个实习期都要来“捍卫”他这个发现。 出了错误的部门肯定会死不承认, 而别的部门就想看笑话。 数据科学家夹在其中, 需要足够的坚持才能把正确的观点传达出来。
技术能力
掌握最新的数据分析方法很重要, 更重要的是, 要有具备对统计学的知识和热情。 简单的说, 数据分析包括两类:描述型分析和预测型分析。 描述性分析已经很难了。 而预测型分析则更加棘手, 它充满了不确定性。
伟大的数据科学家能够驾驭不确定性。 他们知道预测的哪些部分是基于真实的观察, 哪些因素是基于假设的。 他们知道要使预测有效, 哪些条件必须满足。 哪些因素会导致预测失效, 哪些未知因素可能会导致预测错误等等。 他们会量化风险。 他们会设计一些小型实验来验证或者推翻某些假设。
总之, 这不是一种“数学技能”, 而是长期在复杂的工作中,经过了无数成功和失败后培养出来的一种能力。
伟大的数据科学家非常稀少, 他们就是数据科学界的迈克尔-乔丹, 朱莉娅-罗伯茨, 或者帕瓦罗蒂。 如果企业需要认真地把宝压在从大数据和数据分析上, 那么你需要找到一个到两个这样的人, 给他们配备团队, 营造好的环境, 让他们按照自己的方式去工作。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA数据分析师与数据指标:基础概念与协同逻辑 一、CDA 数据分析师:数据驱动时代的核心角色 1.1 定义与行业价值 CDA(Certified ...
2025-08-22Power Query 移动加权平均计算 Power Query 移动加权平均设置全解析:从原理到实战 一、移动加权平均法的核心逻辑 移动加权平均 ...
2025-08-22描述性统计:CDA数据分析师的基础核心与实践应用 一、描述性统计的定位:CDA 认证的 “入门基石” 在 CDA(Certified Data Analy ...
2025-08-22基于 Python response.text 的科技新闻数据清洗去噪实践 在通过 Python requests 库的 response.text 获取 API 数据后,原始数据 ...
2025-08-21基于 Python response.text 的科技新闻综述 在 Python 网络爬虫与 API 调用场景中,response.text 是 requests 库发起请求后获取 ...
2025-08-21数据治理新浪潮:CDA 数据分析师的战略价值与驱动逻辑 一、数据治理的多维驱动引擎 在数字经济与人工智能深度融合的时代,数据治 ...
2025-08-21Power BI 热力地图制作指南:从数据准备到实战分析 在数据可视化领域,热力地图凭借 “直观呈现数据密度与分布趋势” 的核心优势 ...
2025-08-20PyTorch 矩阵运算加速库:从原理到实践的全面解析 在深度学习领域,矩阵运算堪称 “计算基石”。无论是卷积神经网络(CNN)中的 ...
2025-08-20数据建模:CDA 数据分析师的核心驱动力 在数字经济浪潮中,数据已成为企业决策的核心资产。CDA(Certified Data Analyst)数据分 ...
2025-08-20KS 曲线不光滑:模型评估的隐形陷阱,从原因到破局的全指南 在分类模型(如风控违约预测、电商用户流失预警、医疗疾病诊断)的评 ...
2025-08-20偏态分布:揭开数据背后的非对称真相,赋能精准决策 在数据分析的世界里,“正态分布” 常被视为 “理想模型”—— 数据围绕均值 ...
2025-08-19CDA 数据分析师:数字化时代的价值创造者与决策智囊 在数据洪流席卷全球的今天,“数据驱动” 已从企业战略口号落地为核心 ...
2025-08-19CDA 数据分析师:善用 Power BI 索引列,提升数据处理与分析效率 在 Power BI 数据分析流程中,“数据准备” 是决定后续分析质量 ...
2025-08-18CDA 数据分析师:巧用 SQL 多个聚合函数,解锁数据多维洞察 在企业数据分析场景中,单一维度的统计(如 “总销售额”“用户总数 ...
2025-08-18CDA 数据分析师:驾驭表格结构数据的核心角色与实践应用 在企业日常数据存储与分析场景中,表格结构数据(如 Excel 表格、数据库 ...
2025-08-18PowerBI 累计曲线制作指南:从 DAX 度量到可视化落地 在业务数据分析中,“累计趋势” 是衡量业务进展的核心视角 —— 无论是 “ ...
2025-08-15Python 函数 return 多个数据:用法、实例与实战技巧 在 Python 编程中,函数是代码复用与逻辑封装的核心载体。多数场景下,我们 ...
2025-08-15CDA 数据分析师:引领商业数据分析体系构建,筑牢企业数据驱动根基 在数字化转型深化的今天,企业对数据的依赖已从 “零散分析” ...
2025-08-15随机森林中特征重要性(Feature Importance)排名解析 在机器学习领域,随机森林因其出色的预测性能和对高维数据的适应性,被广 ...
2025-08-14t 统计量为负数时的分布计算方法与解析 在统计学假设检验中,t 统计量是常用的重要指标,其分布特征直接影响着检验结果的判断。 ...
2025-08-14