
Kaggle机器学习大调查:中国从业者平均25岁,博士工资最高,最常使用Python
笔者按:Kaggle 是互联网上最著名的数据科学竞赛平台之一,用户数量超过了100 万人。最近,这一社区首次进行了机器学习/数据科学现状调查,向我们提供了有关从业者人群、业界最新动态以及如何进入该行业的洞见。
在超过 16,000 名从业者的详尽答卷中,我们可以一窥目前业内的发展趋势。
报告包括以下重点内容:
Python可能是当前最常使用的机器学习工具,但更多的统计学家仍然用R语言。
总体来说数据科学家平均年龄在30岁左右,但随着不同国家这个具体数值也在变化,例如,印度的受访者总体比澳大利亚平均年龄小9岁。
受访者学历占比最多的似乎是硕士,但是工资最高的(年薪150K以上)则更多是博士学位获得者。
雷锋网编译和解读报告内容如下,后台回复关键词“Kaggle调查”获取。
一、数据工作者是什么样的?
观察数据从业者的方式有很多,但本文将从人口统计学信息也就是数据科学从业者的工作和背景开始。
你的年龄是?
如图可见,本次调查对象的平均年龄大约 30 岁,但这个值在各个国家之间有变动。中国机器学习从业者年龄分布较为集中在20-45之间,中位数年龄非常年轻,在25岁左右,而美国的年龄分布则较为广泛,从图表上看起来,不乏百岁长者和稚子。
你目前的就业状况如何?
受调查者中,有 65.7% 表示自己有全职工作。但当将国籍选定为中国之后,这一数字的比例下降到53.5%。
你的职位是什么?
我们发现,数据科学领域可涵盖的工作非常多。比如在伊朗和马来西亚,数据科学从业者最流行的工作头衔是「科学家或者研究者」。在中国,最流行的头衔前三位是“机器学习工程师”、“数据分析师“以及”数据科学家“。
你的全职年薪是多少?
中位数$55,441,不过由于很多人没有全职工作,所以这一数字不见得准确。
就平均收入来说,美国的机器学习从业者薪资最高,年薪11万美元。中国则明显低于这个数字,平均不到$30K.印度则只有$11K,
你的最高学历是什么?
总体来说,数据科学从业者中最普遍的学历是硕士,但是获取最高薪水($150K - $200K 和 $200k+)的那些人多是有着博士学位。
中国的机器学习从业者学历以本科(39.5%)和硕士(40.5)为主,博士学历仅占比11.2%。美国对应的学历百分比则分别为26.5%,44.5%,和20.7%。
总体来说,被调查者的平均水平是数据科学家职称,30 岁左右,硕士学历,年薪$55,000 左右。但实际情况并不如此平均。这些最初的几个人口统计学问题只是展示了复杂的 Kaggle 数据科学社区在年龄、性别、国籍、工作职称、薪水、经验和学历方面的表层差异。
二、数据科学家的工作内容是什么?
我们把数据科学家定义为写代码以分析数据的一群人。他们的日常工作内容是什么?以下是我们的调查结果。
这一部分的问题受访者不再以国籍分类, 而是以所在公司规模、行业等。
工作中你使用什么数据科学方法?
Logistic 回归是工作之中最为常用的数据科学方法,不过军事领域和国家安全领域中神经网络使用则更为频繁。
总的来说,数据科学中更常见的还是使用经典的机器学习算法,简单的线性与非线性分类器是数据科学中最常见的算法,而功能强大的集成方法也十分受欢迎。我们看到目前神经网络模型的使用频率要高于支持向量机,这可能是近来多层感知机要比使用带核函数的 SVM 更加广泛的表现。
工作中你使用最多的工具语言是什么?
Python 是数据科学家最常用的语言,也是最常用的数据分析工具。不过,还有很多数据科学家对R 语言仍保持着较高忠诚度。
在工作中你常用的数据类型是什么?
关系型数据是开发者在工作中最常用的数据类型,大多数产业工程师都十分关注。而学术研究者和国防安全产业则更关注文本与图像。
如何分享工作中的代码?
超过一半数据工作者(58.4%)使用Git分享代码。不过,大公司的工作者更喜欢将代码保留在本地,并将代码用邮件分享。而初创公司可能需要在云中共享以保持更加敏捷的反应。
工作中遇到的障碍主要是什么?
脏数据(dirty data)以占据接近一半的比例位列第一,脏数据(Dirty Read)是指源系统中的数据不在给定的范围内或对于实际业务毫无意义,也就是说数据科学家一般最常见的困扰就是需要对数据进行大量的预处理工程。
紧随其后的是“缺乏数据科学天赋”、“缺乏资金和管理支持”“缺乏一个能明确回答的问题”以及“数据不可用或无法获取”。
值得注意的一点是,当调整公司规模到中小型企业,“缺乏资金组建数据团队”这一选项立刻跃居第三。看来资金和人才始终是创业公司面对的一大难题。这也意味着新的数据科学家很幸运。他们进入了一个抢手的行业。
三、数据科学家新手如何入行?
寻求新的职业发展时,看看别人的成功秘诀往往很有帮助。我们调查了在数据科学行业工作的人们,询问他们是如何“成功”的。以下是我们觉得较好的几条建议:
你建议数据科学家新手最先学哪门语言?
每一位数据科学家对于如何选择第一门语言都有自己的想法。事实证明,那些使用 Python 或 R 语言的人们做出了正确的选择。不过如果你问一下使用过 R 和 Python 的人们,他们推荐 Python 给你的概率可能会大两倍。
你们使用哪些数据科学学习资源?
数据科学是一个快速变化的领域,有很多有价值的资源可以帮助你学习并保持业内顶尖的位置,从而不断提升自己的竞争力。已经在数据科学领域中工作的人更多使用 Stack Overflow Q&A,Conferences 和 Podcasts,以在这个新人辈出的行业保持与时俱进。如果想要发布内容或开源软件,请记住,刚进入这个领域的人们通常更多使用官方的文档和观看 Youtube 视频。
你们在哪里获取开源数据?
没有数据,就没有数据科学。当需要学习数据科学技巧的时候,知道如何找到干净的开源数据集用于练习和开发项目相当重要。我们很高兴的得知,我们的数据集聚合器(dataset aggregators):https://www.kaggle.com/datasets 正发展为数据科学社区成员中最频繁使用的工具。
你们怎么找工作,以及怎么找到的?
找工作的时候你可能会到公司网站上,或寻找指定技术方向的招聘信息,但是根据已经在数据科学领域工作的人们的经验,这些方式是最差的选择。而通过建立自己在这个行业的关系网络、直接联系招聘者或建立自己的网络以进入这个领域才是他们的首选。
注:少于 50 名受访者的组别被合并进了「Other」类中。其中一些柱状图为了美观而做了缩放处理,希望查看所有问题和结果的原始数据可访问源网页查看。原报告后台回复关键词“Kaggle调查”获取。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-06-052025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27