京公网安备 11010802034615号
经营许可证编号:京B2-20210330
2016年数据科学家将扮演什么角色?
数据科学家已被誉为2016年美国最好的工作,但是这一岗位的定义和所要求的技能却一直在变化。技术进步与商业需求不断驱动数据科学岗位的演化,其所处的行业也是日新月异。在本文中,我们将更加仔细地审视2016年数据科学家将扮演的角色。
Dave Holtz写道,“数据科学家”常用作“一揽子头衔”(blanket title)的统称,描述一组截然不同的工作岗位。他将这个现象的原因,归结为数据科学领域仍处在早期发展阶段,对其定义不够准确。如果接受数据科学是一个“跨学科领域”这种大而全的说法,那么数据科学家的工作就是从不同形式的大量数据中提取知识或洞察。我们已经处在大数据时代,这是无法改变的事实。随着数据量与日俱增,从这些数据中提取出价值的工作只会慢慢变得更加复杂和困难。
大数据经济背后的逻辑,正在以无法想象或预测的方式重塑我们的生活;我们做出的每一个电子操作都将产生数据,并留下与自己生活相关的蛛丝马迹。作为消费者经济的参与者,我们访问任何网站或电子服务时,所产生的数据都会被挖掘,而数据科学家就要通过计算机科学、数据分析和复杂的商业知识,来收集、清洗、分析我们提供的数据,并据此进行预测。下面的图表列出了一名数据科学家所需要的技能集。我们可以发现,与一般意义上的大数据开发者或商业分析师不同,这个岗位的职责要求掌握多种技能集。
图1:数据科学家的技能集
Rivera 和 Haverson认为,之前的数据专业人员关注的是数据的流动过程和解释,而数据科学家更注重数学视角 —— 聚焦于从历史数据和当前数据中洞察出未来的模式。如果仅从字面上理解这两个词,“科学”意味着通过系统研究获得的知识;“数据”则是由定性化或定量化变量组成的信息集合。因此,数据科学家的字面定义应该是:一个系统性地研究信息的组织与性质的人。尽管统计人员和其他研究数据分析的人也扮演着重要的角色,但是Anjul Bhambari所描述的数据科学家既是分析师,又是艺术家,其角色注定是变革传统数据的分析和使用方法。
商业社交网站LinkedIn的成功,很好地证明了数据科学家为商业智能所带来的重大利好。作为一家几乎纯粹依赖其3.8亿名用户相互联系所产生数据的企业,LinkedIn正在利用受过正规培训、有着强烈好奇心的数据科学家们不断探索大数据的世界。LinkedIn与Facebook、Google等其他大型知识型企业都在利用数据科学家对大量的杂乱数据进行结构化,确定数据的价值大小,以及变量之间的系统性关系。
KPMG近期对企业高管的一项调查显示,99%的受访者认为大数据分析对于制定次年的战略非常重要。预计到2020年,每天产生的企业数据将超过240EB,在这一时代背景下,对于掌握了从数据中提取价值洞见能力的数据科学家的需求比以往更加重要…但是,Venture Beat公司的Travis Wright在一篇文章中提到,对数据科学家的需求远远超过了供给,如果想跟上新型数据经济的步伐,仅美国的公司就需要雇佣14-19万名数据科学家。
令人讽刺的是,关于数据科学家的平均收入的数据却存在许多相互冲突的地方。不过,比较明显的是平均收入与对数据科学家的高需求是正相关的。如果雇主要求员工能够熟练使用数据挖掘算法、精通像R和Python这样的语言、又具备处理大型数据库(SQL或类似数据库)的经验,还得开发Java应用、处理NoSQL数据库(引用自某个职位要求,上述要求只占十分之一)——此外,还要能够将以上这些清楚地传达给非技术同事,那么平均12万美元的薪资看上去也就不那么过分了。
尽管数据科学家的角色与传统意义上的数据分析岗位有重合之处,但是区别也尤其明显。一名数据分析师或数据架构师能够从大规模数据集中提取信息。但是他们只掌握SQL查询命令和对数据进行切片的分析包。借助对机器学习的深刻了解和编程开发等方面的知识,数据科学家可以随心所欲地处理数据,挖掘出更深的洞见。他们摆脱了这些程序的束缚。普通的数据分析师会观察过去发生的事情,但是数据科学家必须具备长远的眼光,展望未来。通过应用先进的统计知识和复杂的数据建模,他们必须挖掘出数据中隐藏的模式,对未来做出预测。数据科学家所需要的技能成功的数据分析需要做到能够清洗、集成和转变数据 —— 这些都是数据科学家必须掌握的重要技能。将科学背景与计算分析技能结合在一起之后,你就能够“胜人一筹”。下面的图2列出了数据科学通常关注的几个领域。
图2.数据科学关注的领域
不过我们还是要更细致地探讨一下成为数据科学家所需要的实际技能。Mark van Rijmenam是Data Floq公司的CEO,为了能够开发出提出正确的问题并寻找正确答案的算法,他建议数据科学家掌握以下技能:统计技能、数学和伦理学技能,并且具备构建预测性模型的丰富经验。
来自LinkedIn的Ferris Jumah更是将所要求的技能进行了归类,尽管数据科学家可能需要的技能和担任的岗位角色纷繁复杂。
数据科学家必须做到:
以数学思维看待数据。学习诸如机器学习、数据挖掘、数据分析和统计学等技能十分重要。数据科学家需要从数学的角度对数据进行解释和分析。
使用一门常用语言,进行数据访问、探索和建模。掌握一门统计编程语言将是关键。R、Python或MATLAB等语言,以及类似SQL等数据库查询语言是最受追捧的技能。数据提取、探索和假设检验是数据科学实践的核心。
具备很强的计算机科学和软件工程背景。这需要掌握包括Java、C++或算法知识和Hadoop。这些技能将用于利用数据来设计系统架构。
与使用标准工具的普通程序员不同,数据科学家一般会使用各种各样的工具,而且工具时刻在更新。这是因为数据科学领域正在快速发展,许多新工具还远未成熟。尽管如此,下面我们还是精选了一些数据科学家常用的工具:
数据分析
在这方面,使用的工具其实就是数据科学家用于提取和分析数据的编程语言。一般来说是Python、R和SQL。
数据科学家可以选择自己用于提取和分析数据的数据库。处理合理大小的数据集时,最流行的选择是MySQL。进入大数据领域之后,他们通常会转向使用Hive或Redshift。
数据可视化方面最常提及的工具,是D3.js和Tableau。只要是你能想象出来的数据可视化方式,数据科学家都可以利用D3.js实现。Tableau是目前市面上最流行的数据可视化工具,支持从数百个输入源汇集数据,并轻松地将这些数据转换成可视图表。
这或许是每天新增工具最多的一个领域了。知名度最高、使用最广泛的工具可能是Scikit-learn,它利用Python进行机器学习。然后当然还有Spark MLlib,这是Apache推出的针对Spark和Hadoop的机器学习库。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05