
数据科学家图鉴:我们分析了LinkedIn 上一千位数据科学家的简历
在大数据和机器学习的时代,有一种职业脱颖而出——数据科学家。伴随着这个头衔的声望是许多想进入该领域人群的追求。
但是如何将数据科学梦想变为现实,成为一名数据科学家呢?
每个数据科学家都有自己的故事,这就意味着这个回答存在着各种各样的答案。但是单单一个例子的作用并不大,因此365 Data Science进行了一项研究,对LinkedIn上1001名数据科学家的个人简介进行了汇总和分析。
我们的目标很简单,“常见的”数据科学家是什么样?
方法
数据样本来自LinkedIn上1001名数据科学家的个人简介。由于数据有限,这里采用任意抽样的方法。同时根据数据按国家、公司进行相应分类。
根据地理分布,分成了四类:美国(40%),英国(30%),印度(15%),其他国家(15%)。其中约一半的样本均来自财富500强公司。
调查结果
根据数据样本,数据科学家中70%为男性,至少掌握一门外语,本科以上学历,其中27%为博士生,48%为硕士。
平均下来,获得数据科学家头衔大致需要4.5年。使用的数据科学工具无外乎是R语言或者Python。使用这两种编程语言的人群雇佣比例基本相同(各为53%),74%的人群至少使用其中的一种。
编程语言
除了R语言和Python,当然还有其他的语言工具,虽然前两者是主导的编程语言。第三名为SQL(40%)。不出意料,MATLAB、Java、C/C++的比重在下降。这一趋势同样反映在近几年的相关调查研究中。
不同国家的编程语言
但是这些情况在全世界都普遍吗?为了解答这个问题,我们需要对数据进行地域细分。
Python在美国和英国都位于第一;而在印度和其他国家,第一则是R语言。不过这两种语言的比重差异并不显著。Java在三大地区的比重都在下降(美国、英国、印度)。然而,数据样本中其他国家仍然依赖”较老”的语言:Java、C/C++。
然而值得注意的是,印度的数据科学家中C/C++占比高达23%,这也符合印度作为“IT技术外包”之国的名声。
工作经验
从应届毕业生到数据科学家大师,数据科学家成长之路十分有趣。其中一大部分人上一份工作就是数据科学家(36%)。
考虑到这些信息,成为数据科学家最常见的方法是:通过成为数据分析师(17%)以及学术教育(12%)。鉴于数据样本中27%的人有博士学位,可以说学术教育是数据科学家的主要途径。
将这些信息与前两份工作的数据进行比较,我们可以得出:实习生、IT和顾问是成为数据科学家的其他三大途径。
教育背景
事实上,数据科学家的教育背景中,没有一个专业占绝对主导地位。然而共同之处在于,大多数都与量化有关。
如果你的专业与编程、计算机科学,或者与数学和统计学相关,那么比起任何专业为数据科学的人群,你们进入数据科学领域的机会都是平等的。
研究显示,数据科学家中20%计算机科学专业,19%为统计学、数学相关专业,19%为经济学和社会科学专业。只有13%专业为数据科学和数据分析。很大程度可以解释,这只是最近才成为了独立的专业。同时还说明,机器学习专业属于数据科学大类,而不是计算机科学。
毕业院校
考虑到专业学位的不一致性,下面我们对数据科学家的毕业院校进行分析,探究当中的模式。数据样本中大学排名根据《泰晤士报高等教育》世界大学排名。
数据显示,当中28%的数据科学家毕业于世界前50名大学。有趣的是,相当一部分数据科学家(25%)并不来自排名中的1100所大学。
自我提升
根据分析,40%的数据科学家参加了在线课程。此外,每个人平均有3.33个相关资历证书。因此,成为数据科学家无疑要依靠自我提升。
虽然这些数据在分析初期没被严格计算在内,但40%是比较保守的估计。毕竟许多数据科学的专业人士并不会在简介中注明他们上过的专业课程。
结论
数据科学家图鉴并不一致,当中充满了数学、编程和不断创新。从当中得到的启发是:保持量化的心态,对自我提升的渴望,强烈的专注力这些是当代数据科学家事业成功的主要动力。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
评判两组数据与初始数据准确值的方法 在数据分析与研究中,我们常常会面临这样的情况:需要对通过不同方法、不同过程得到的两组 ...
2025-08-01通过 COX 回归模型诊断异常值 一、COX 回归模型概述 COX 回归模型,又称比例风险回归模型,是一种用于生存分析的统计方法。它能 ...
2025-08-01CDA 数据分析师报考条件详解:迈向专业认证的指南 在数据分析行业蓬勃发展的当下,CDA 数据分析师认证成为众多从业者提升专业 ...
2025-08-01K-S 曲线、回归与分类:数据分析中的重要工具 在数据分析与机器学习领域,K-S 曲线、回归和分类是三个核心概念与工具,它们各 ...
2025-07-31大数据时代对定性分析的影响 在大数据时代,海量、多样、高速且低价值密度的数据充斥着我们的生活与工作。而定性分析作为一 ...
2025-07-31CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-07-31SASEM 决策树:理论与实践应用 在复杂的决策场景中,如何从海量数据中提取有效信息并制定科学决策,是各界关注的焦点。SASEM 决 ...
2025-07-30SPSS 语法使用详解 在当今数据驱动的时代,SPSS( Statistical Package for the Social Sciences)作为一款功能强大的统计分析软 ...
2025-07-30人工智能对CDA数据分析领域的影响 人工智能对 CDA(Certified Data Analyst,注册数据分析师)数据分析领域的影响是全方位、多层 ...
2025-07-30MySQL执行计划中rows的计算逻辑:从原理到实践 MySQL 执行计划中 rows 的计算逻辑:从原理到实践 在 MySQL 数据库的查询优化中 ...
2025-07-29左偏态分布转正态分布:方法、原理与实践 左偏态分布转正态分布:方法、原理与实践 在统计分析、数据建模和科学研究中,正态分 ...
2025-07-29CDA 数据分析师的职业生涯规划:从入门到卓越的成长之路 在数字经济蓬勃发展的当下,数据已成为企业核心竞争力的重要来源,而 CD ...
2025-07-29CDA数据分析师证书考取全攻略 一、了解 CDA 数据分析师认证 CDA 数据分析师认证是一套科学化、专业化、国际化的人才考核标准, ...
2025-07-29解析神经网络中 Softmax 函数的核心作用 在神经网络的发展历程中,激活函数扮演着至关重要的角色,它们为网络赋予了非线性能力, ...
2025-07-29解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-07-29鸢尾花判别分析:机器学习中的经典实践案例 在机器学习的世界里,有一个经典的数据集如同引路明灯,为无数初学者打开了模式识别 ...
2025-07-29用 Python 开启数据分析之旅:从基础到实践的完整指南 在数据驱动决策的时代,数据分析已成为各行业不可或缺的核心能力。而 Pyt ...
2025-07-29从 CDA LEVEL II 考试题型看 Python 数据分析要点 在数据科学领域蓬勃发展的当下,CDA(Certified Data Analyst)认证成为众多从 ...
2025-07-29CDA 数据分析师的工作范围解析 在数字化时代的浪潮下,数据已成为企业发展的核心资产之一。CDA(Certified Data Analyst)数据分 ...
2025-07-29解析 insert into select 是否会锁表:原理、场景与应对策略 在数据库操作中,insert into select 是一种常用的批量数据插入语句 ...
2025-07-29