京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者 | Admond Lee
翻译 | Mika
本文为 CDA 数据分析师原创作品,转载需授权
你想成为一名数据科学家?很棒,说明你是很有上进心的人,而且对数据科学充满热情,并希望通过解决复杂的问题为公司带来价值。但是你在数据科学方面毫无经验,也不知道如何开始。我很懂你,因为曾经我也是如此。本文就是特别针对热情且有抱负的数据科学家,解答进入该领域最常见的问题和挑战。
我希望通过分享我自己的经验,帮助你了解入科从事数据科学的职业,并为你提供一些指南,让你的学习之旅更加愉快。让我们开始吧!
数据科学人才缺口
根据国际数据公司(IDC)预测,2020年全球大数据和业务分析收入将超过2100亿美元。
根据LinkedIn 与2018年8月发布的美国劳动力报告, 2015年美国的数据科学人才过剩。三年后,随着越来越多公司面临数据科学技能人才的短缺,这一趋势发生了巨大变化。越来越多的公司开始使用大数据得出分析见解和制定决策。
从经济角度讲,这完全取决于供需关系。
好消息是:形势以及发生了转变。坏消息是:随着数据科学领域的就业机会不断增加,但很多有抱负的数据科学家由于技能不符合市场的需求,而难以找到心仪的工作。
在接下来的部分中,你将看到该如何提高数据科学技能,从而在大量求职者中脱颖而出,最终收获梦想的工作。
终极指南
1.需要哪些技能以及如何掌握?
说实话,要掌握数据科学领域所有技能几乎是不可能的,因为范围太广了。总有一些技术是数据科学家没有掌握的,因为不同的业务需要不同的技能。
但有一些核心技能是数据科学家所必须掌握的。
技术能力,数学和统计学,编程和商业知识。尽管无论使用何种语言,编程能力都是必备的。作为数据科学家,我们应该运用商业沟通能力想企业高层说明模型结果,同时基于数学和统计学的支持。
数学和统计学
关于数学和统计学,可以查看Randy Lao的相关文章,当中的资源非常丰富。
https://medium.com/@randylaosat
当我刚开始学习数据科学时,我读了这本书 An Introduction to Statistical Learning — with Applications in R(统计学习导论 - 与R中的应用)。我强烈推荐这本书给初学者,因为本书侧重于统计建模和机器学习的基本概念,并提供详细而直观的解释。如果你特别喜欢数学,也许你更喜欢这本书:The Elements of Statistical Learning(统计学习中的元素)。
编程
关于学习编程,特别是对于没有经验的初学者,我建议专注于学习一种语言,我个人更喜欢Python,因为Python更容易学习。关于Python或R哪种语言更好一直都存在争论,我个人认为重点应放在如何帮助企业解决问题,而不是使用哪种语言。
商业知识
最后,我要强调的是对商业知识的理解也是至关重要的。
软技能
事实上,软技能比硬技能更重要。在LinkedIn询问了2000名商业领袖,我们发现2018年他们最希望员工具备的软技能包括:领导力、沟通能力、合作能力和时间管理能力。我认为这些软技能在数据科学家的日常工作中起着至关重要的作用。
2.如何选择合适的训练营和在线课程?
随着人工智能和数据科学的兴起,大量课程课程、训练营如雨后春笋般涌现,都不希望错失良机。
因此问题来了,该如何选择适合你的学习资源呢?
我的选择方法如下:
没有一门课程能涵盖你需要的所有资源。有些课程在某些方面是重叠的,因此不值得花钱购买不同但有重复性的课程。
首先要知道你需要学什么。不要因为花哨和吸引人的标题就盲目选择课程。通过查看求职网站上数据科学家的职位描述,你会发现一些公司需要的通用技能。然后通过了解自己缺乏的技能去搜索相应课程。
比较不同平台提供的优质课程。类比几个课程,并且查看其他人的评论(非常重要!)。另一方面,Coursera、Udemy、Lynda、Codecademy、DataCamp、Dataquest等平台也提供许多免费课程。
以下是我个人特别喜欢的一些课程:
1.Machine Learning ,主讲人: Coursera的联合创始人吴恩达
2.Python for Data Science and Machine Learning Bootcamp,主讲人 :Jose Portilla
3.Deep Learning A-Z™: Hands-On Artificial Neural Networks,主讲人: Kirill Eremenko,Hadelin de Ponteves
4.Python for Data Science Essential Training ,主讲人:Lillian Pierson
5.The Ultimate Hands-On Hadoop — Tame your Big Data,主讲人:Frank Kane
3.能否通过开源学习成为数据科学家?
我想说的是,通过开源学习足以让你开始从事数据科学,之后可以根据业务需求进一步发展自己的职业生涯。
4.对于零基础的初学者有什么推荐的书籍吗?
没有固定的学习途径,条条大路通罗马。阅读相关书籍是掌握基础知识的良好。
注意不要试图去记忆具体的数学和算法细节,因为当应用于实际问题进行编程时,你可能会忘记这些内容。
你只需了解一定的基础知识,并继续学习,要务实。不要试图完全了解所有知识,因为有时完美主义会给你的学习拖后腿。
关于Python、机器学习和深度学习的基础知识,我推荐以下书籍:
Learning Python
Python for Data Analysis
An Introduction to Statistical Learning
Machine Learning for Absolute Beginners
Python Machine Learning
Python Data Science Handbook
Introduction to Machine Learning with Python
Deep Learning with Python
Deep Learning with Keras
5.如何在理解商业问题(制定解决方案)和提高技术技能(编程、数学知识等)之间取得平衡?
在理解商业问题和制定解决方案之前,我首先去提高自己的技术技能。
商业问题在于”是什么”和”为什么”。要解决商业问题,首先必须解决问题。而技术技能是注重于”怎么做”。我的建议主要基于个人经验。
6.如何克服开启数据科学家职业生涯的挑战?
对于许多数据科学家来说,主要挑战就是数据科学是信息的海洋。我们可能失去方向,因为有太多的建议和资源,大量的在线课程、研讨会等等,你需要保持专注,知道你拥有什么,你需要什么。
在我的数据科学历程中,我主要通过这些方法克服这些挑战:
有效地筛选学习资源
在刚开始时,我因为大量的资源感到困惑。通过听数据科学家的播客,阅读如何开启数据科学领域的文章,尝试不同在线课程。最终我关注我在本文中分享的这些优质资源。
不要放弃
当学习过程太过艰难时,我开始怀疑自己,我真的有能力做到吗?我追求的道理是正确的吗?最终对数据科学的热情和耐心让我重新开始,继续不断努力和前行。
获得数据科学相关的工作
由于就业市场竞争激烈,找到心仪的数据科学工作对我来说并非易事。我提交了大量的简历都毫无结果。因此我开始改进找工作的方法,参加聚会和研讨会,在网上分享我的学习经历,在招聘会上于潜在雇主接触等等。
7.如何有效地在简历中加入自己的工作经验,从而提高被录用的几率?
这是一种误解,你并不能通过简历中的经验就被聘用。事实上,简历是面试的敲门砖。
因此,学习如何写简历对于获得面试机会至关重要。研究表明,招聘人员在确定求职者是否适合该职位时,平均看简历的时间仅为6秒。
关于完善简历,我推荐以下网站和文章:
Vault
TopResume
Optimize Guide
A Resume Expert Gives Career Advice
https://www.facebook.com/businessinsider/videos/10153537949019071/
How to Pass the 6-Second Resume Test
https://www.topresume.com/career-advice/how-to-pass-the-6-second-resume-test
How to tailor your Academic CV for Data Science roles
https://www.linkedin.com/pulse/how-tailor-your-academic-cv-data-science-roles-jason-byrne/?trackingId=3ykuEpfW%2BISNc%2Fx9YFbIZQ%3D%3D
What do Hiring Managers Look For in a Data Scientist’s CV?
https://www.linkedin.com/pulse/what-do-hiring-managers-look-data-scientists-cv-ben-dias/
The 14 Things You Need On Your Resume To Land Your Dream Job
https://www.elitedaily.com/money/14-signs-you-have-a-strong-resume/617472
8.怎样的作品集能帮助我们找到第一数据科学或机器学习方面的工作?
简历是不够的,你还需要作品集的支撑。在看了简历之后,招聘人员希望更多地了解你的背景,这时就需要作品集了。
可以试着在社交媒体平台分享自己的学习经历,写文章和做播客都是不错的选择。
更多资源
学习平台 :
Towards Data Science, Quora, DZone, KDnuggets, Analytics Vidhya, DataTau, fast.ai
推荐视频:
Webinars——Data Science Office Hours, Data Science Connect, Humans of Data Science (HoDS)
推荐文章:
A Badass’s Guide to Breaking Into Data
http://www.data-mania.com/blog/guide-to-breaking-into-data/
10 Must Have Data Science Skills
https://www.kdnuggets.com/2016/05/10-must-have-skills-data-scientist.html?utm_content=buffer7c1a3&utm_medium=social&utm_source=linkedin.com&utm_campaign=buffer
My Data Science & Machine Learning, Beginner’s Learning Path
https://www.linkedin.com/pulse/my-data-science-machine-learning-beginners-path-vin-vashishta/?trackingId=J16vYmqLQEZ5wr4oElpnNA%3D%3D
24 Ultimate Data Science Projects To Boost Your Knowledge and Skills
https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills/
值得关注的数据科学家
LinkedIn上的数据科学社区非常棒,以下是我认为值得关注的数据科学家和专业人士:
Randy Lao
Kyle McKiou
Favio Vázquez
Vin Vashishta
Eric Weber
Sarah Nooravi
Kate Strachnyi
Tarry Singh
Karthikeyan P.T.R.
Megan Silvey
Imaad Mohamed Khan
Andreas Kretz
Andriy Burkov
Carla Gentry
Nic Ryan
Beau Walker
结语
希望本文能够解决你的问题。每当你在数据科学旅程中遇到任何障碍,快要放弃时请记住,坚持是关键。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在分类变量关联分析中(如 “吸烟与肺癌的关系”“性别与疾病发病率的关联”),卡方检验 P 值与 OR 值(比值比,Odds Ratio)是 ...
2025-11-05CDA 数据分析师的核心价值,不在于复杂的模型公式,而在于将数据转化为可落地的商业行动。脱离业务场景的分析只是 “纸上谈兵” ...
2025-11-05教材入口:https://edu.cda.cn/goods/show/3151 “纲举目张,执本末从。” 若想在数据分析领域有所收获,一套合适的学习教材至 ...
2025-11-05教材入口:https://edu.cda.cn/goods/show/3151 “纲举目张,执本末从。” 若想在数据分析领域有所收获,一套合适的学习教材至 ...
2025-11-04【2025最新版】CDA考试教材:CDA教材一级:商业数据分析(2025)__商业数据分析_cda教材_考试教材 (cdaglobal.com) ...
2025-11-04在数字化时代,数据挖掘不再是实验室里的技术探索,而是驱动商业决策的核心能力 —— 它能从海量数据中挖掘出 “降低成本、提升 ...
2025-11-04在 DDPM(Denoising Diffusion Probabilistic Models)训练过程中,开发者最常困惑的问题莫过于:“我的模型 loss 降到多少才算 ...
2025-11-04在 CDA(Certified Data Analyst)数据分析师的工作中,“无监督样本分组” 是高频需求 —— 例如 “将用户按行为特征分为高价值 ...
2025-11-04当沃尔玛数据分析师首次发现 “啤酒与尿布” 的高频共现规律时,他们揭开了数据挖掘最迷人的面纱 —— 那些隐藏在消费行为背后 ...
2025-11-03这个问题精准切中了配对样本统计检验的核心差异点,理解二者区别是避免统计方法误用的关键。核心结论是:stats.ttest_rel(配对 ...
2025-11-03在 CDA(Certified Data Analyst)数据分析师的工作中,“高维数据的潜在规律挖掘” 是进阶需求 —— 例如用户行为包含 “浏览次 ...
2025-11-03在 MySQL 数据查询中,“按顺序计数” 是高频需求 —— 例如 “统计近 7 天每日订单量”“按用户 ID 顺序展示消费记录”“按产品 ...
2025-10-31在数据分析中,“累计百分比” 是衡量 “部分与整体关系” 的核心指标 —— 它通过 “逐步累加的占比”,直观呈现数据的分布特征 ...
2025-10-31在 CDA(Certified Data Analyst)数据分析师的工作中,“二分类预测” 是高频需求 —— 例如 “预测用户是否会流失”“判断客户 ...
2025-10-31在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29