
作者 | Admond Lee
翻译 | Mika
本文为 CDA 数据分析师原创作品,转载需授权
你想成为一名数据科学家?很棒,说明你是很有上进心的人,而且对数据科学充满热情,并希望通过解决复杂的问题为公司带来价值。但是你在数据科学方面毫无经验,也不知道如何开始。我很懂你,因为曾经我也是如此。本文就是特别针对热情且有抱负的数据科学家,解答进入该领域最常见的问题和挑战。
我希望通过分享我自己的经验,帮助你了解入科从事数据科学的职业,并为你提供一些指南,让你的学习之旅更加愉快。让我们开始吧!
数据科学人才缺口
根据国际数据公司(IDC)预测,2020年全球大数据和业务分析收入将超过2100亿美元。
根据LinkedIn 与2018年8月发布的美国劳动力报告, 2015年美国的数据科学人才过剩。三年后,随着越来越多公司面临数据科学技能人才的短缺,这一趋势发生了巨大变化。越来越多的公司开始使用大数据得出分析见解和制定决策。
从经济角度讲,这完全取决于供需关系。
好消息是:形势以及发生了转变。坏消息是:随着数据科学领域的就业机会不断增加,但很多有抱负的数据科学家由于技能不符合市场的需求,而难以找到心仪的工作。
在接下来的部分中,你将看到该如何提高数据科学技能,从而在大量求职者中脱颖而出,最终收获梦想的工作。
终极指南
1.需要哪些技能以及如何掌握?
说实话,要掌握数据科学领域所有技能几乎是不可能的,因为范围太广了。总有一些技术是数据科学家没有掌握的,因为不同的业务需要不同的技能。
但有一些核心技能是数据科学家所必须掌握的。
技术能力,数学和统计学,编程和商业知识。尽管无论使用何种语言,编程能力都是必备的。作为数据科学家,我们应该运用商业沟通能力想企业高层说明模型结果,同时基于数学和统计学的支持。
数学和统计学
关于数学和统计学,可以查看Randy Lao的相关文章,当中的资源非常丰富。
https://medium.com/@randylaosat
当我刚开始学习数据科学时,我读了这本书 An Introduction to Statistical Learning — with Applications in R(统计学习导论 - 与R中的应用)。我强烈推荐这本书给初学者,因为本书侧重于统计建模和机器学习的基本概念,并提供详细而直观的解释。如果你特别喜欢数学,也许你更喜欢这本书:The Elements of Statistical Learning(统计学习中的元素)。
编程
关于学习编程,特别是对于没有经验的初学者,我建议专注于学习一种语言,我个人更喜欢Python,因为Python更容易学习。关于Python或R哪种语言更好一直都存在争论,我个人认为重点应放在如何帮助企业解决问题,而不是使用哪种语言。
商业知识
最后,我要强调的是对商业知识的理解也是至关重要的。
软技能
事实上,软技能比硬技能更重要。在LinkedIn询问了2000名商业领袖,我们发现2018年他们最希望员工具备的软技能包括:领导力、沟通能力、合作能力和时间管理能力。我认为这些软技能在数据科学家的日常工作中起着至关重要的作用。
2.如何选择合适的训练营和在线课程?
随着人工智能和数据科学的兴起,大量课程课程、训练营如雨后春笋般涌现,都不希望错失良机。
因此问题来了,该如何选择适合你的学习资源呢?
我的选择方法如下:
没有一门课程能涵盖你需要的所有资源。有些课程在某些方面是重叠的,因此不值得花钱购买不同但有重复性的课程。
首先要知道你需要学什么。不要因为花哨和吸引人的标题就盲目选择课程。通过查看求职网站上数据科学家的职位描述,你会发现一些公司需要的通用技能。然后通过了解自己缺乏的技能去搜索相应课程。
比较不同平台提供的优质课程。类比几个课程,并且查看其他人的评论(非常重要!)。另一方面,Coursera、Udemy、Lynda、Codecademy、DataCamp、Dataquest等平台也提供许多免费课程。
以下是我个人特别喜欢的一些课程:
1.Machine Learning ,主讲人: Coursera的联合创始人吴恩达
2.Python for Data Science and Machine Learning Bootcamp,主讲人 :Jose Portilla
3.Deep Learning A-Z™: Hands-On Artificial Neural Networks,主讲人: Kirill Eremenko,Hadelin de Ponteves
4.Python for Data Science Essential Training ,主讲人:Lillian Pierson
5.The Ultimate Hands-On Hadoop — Tame your Big Data,主讲人:Frank Kane
3.能否通过开源学习成为数据科学家?
我想说的是,通过开源学习足以让你开始从事数据科学,之后可以根据业务需求进一步发展自己的职业生涯。
4.对于零基础的初学者有什么推荐的书籍吗?
没有固定的学习途径,条条大路通罗马。阅读相关书籍是掌握基础知识的良好。
注意不要试图去记忆具体的数学和算法细节,因为当应用于实际问题进行编程时,你可能会忘记这些内容。
你只需了解一定的基础知识,并继续学习,要务实。不要试图完全了解所有知识,因为有时完美主义会给你的学习拖后腿。
关于Python、机器学习和深度学习的基础知识,我推荐以下书籍:
Learning Python
Python for Data Analysis
An Introduction to Statistical Learning
Machine Learning for Absolute Beginners
Python Machine Learning
Python Data Science Handbook
Introduction to Machine Learning with Python
Deep Learning with Python
Deep Learning with Keras
5.如何在理解商业问题(制定解决方案)和提高技术技能(编程、数学知识等)之间取得平衡?
在理解商业问题和制定解决方案之前,我首先去提高自己的技术技能。
商业问题在于”是什么”和”为什么”。要解决商业问题,首先必须解决问题。而技术技能是注重于”怎么做”。我的建议主要基于个人经验。
6.如何克服开启数据科学家职业生涯的挑战?
对于许多数据科学家来说,主要挑战就是数据科学是信息的海洋。我们可能失去方向,因为有太多的建议和资源,大量的在线课程、研讨会等等,你需要保持专注,知道你拥有什么,你需要什么。
在我的数据科学历程中,我主要通过这些方法克服这些挑战:
有效地筛选学习资源
在刚开始时,我因为大量的资源感到困惑。通过听数据科学家的播客,阅读如何开启数据科学领域的文章,尝试不同在线课程。最终我关注我在本文中分享的这些优质资源。
不要放弃
当学习过程太过艰难时,我开始怀疑自己,我真的有能力做到吗?我追求的道理是正确的吗?最终对数据科学的热情和耐心让我重新开始,继续不断努力和前行。
获得数据科学相关的工作
由于就业市场竞争激烈,找到心仪的数据科学工作对我来说并非易事。我提交了大量的简历都毫无结果。因此我开始改进找工作的方法,参加聚会和研讨会,在网上分享我的学习经历,在招聘会上于潜在雇主接触等等。
7.如何有效地在简历中加入自己的工作经验,从而提高被录用的几率?
这是一种误解,你并不能通过简历中的经验就被聘用。事实上,简历是面试的敲门砖。
因此,学习如何写简历对于获得面试机会至关重要。研究表明,招聘人员在确定求职者是否适合该职位时,平均看简历的时间仅为6秒。
关于完善简历,我推荐以下网站和文章:
Vault
TopResume
Optimize Guide
A Resume Expert Gives Career Advice
https://www.facebook.com/businessinsider/videos/10153537949019071/
How to Pass the 6-Second Resume Test
https://www.topresume.com/career-advice/how-to-pass-the-6-second-resume-test
How to tailor your Academic CV for Data Science roles
https://www.linkedin.com/pulse/how-tailor-your-academic-cv-data-science-roles-jason-byrne/?trackingId=3ykuEpfW%2BISNc%2Fx9YFbIZQ%3D%3D
What do Hiring Managers Look For in a Data Scientist’s CV?
https://www.linkedin.com/pulse/what-do-hiring-managers-look-data-scientists-cv-ben-dias/
The 14 Things You Need On Your Resume To Land Your Dream Job
https://www.elitedaily.com/money/14-signs-you-have-a-strong-resume/617472
8.怎样的作品集能帮助我们找到第一数据科学或机器学习方面的工作?
简历是不够的,你还需要作品集的支撑。在看了简历之后,招聘人员希望更多地了解你的背景,这时就需要作品集了。
可以试着在社交媒体平台分享自己的学习经历,写文章和做播客都是不错的选择。
更多资源
学习平台 :
Towards Data Science, Quora, DZone, KDnuggets, Analytics Vidhya, DataTau, fast.ai
推荐视频:
Webinars——Data Science Office Hours, Data Science Connect, Humans of Data Science (HoDS)
推荐文章:
A Badass’s Guide to Breaking Into Data
http://www.data-mania.com/blog/guide-to-breaking-into-data/
10 Must Have Data Science Skills
https://www.kdnuggets.com/2016/05/10-must-have-skills-data-scientist.html?utm_content=buffer7c1a3&utm_medium=social&utm_source=linkedin.com&utm_campaign=buffer
My Data Science & Machine Learning, Beginner’s Learning Path
https://www.linkedin.com/pulse/my-data-science-machine-learning-beginners-path-vin-vashishta/?trackingId=J16vYmqLQEZ5wr4oElpnNA%3D%3D
24 Ultimate Data Science Projects To Boost Your Knowledge and Skills
https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills/
值得关注的数据科学家
LinkedIn上的数据科学社区非常棒,以下是我认为值得关注的数据科学家和专业人士:
Randy Lao
Kyle McKiou
Favio Vázquez
Vin Vashishta
Eric Weber
Sarah Nooravi
Kate Strachnyi
Tarry Singh
Karthikeyan P.T.R.
Megan Silvey
Imaad Mohamed Khan
Andreas Kretz
Andriy Burkov
Carla Gentry
Nic Ryan
Beau Walker
结语
希望本文能够解决你的问题。每当你在数据科学旅程中遇到任何障碍,快要放弃时请记住,坚持是关键。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
SQL Server 中 CONVERT 函数的日期转换:从基础用法到实战优化 在 SQL Server 的数据处理中,日期格式转换是高频需求 —— 无论 ...
2025-09-18MySQL 大表拆分与关联查询效率:打破 “拆分必慢” 的认知误区 在 MySQL 数据库管理中,“大表” 始终是性能优化绕不开的话题。 ...
2025-09-18CDA 数据分析师:表结构数据 “获取 - 加工 - 使用” 全流程的赋能者 表结构数据(如数据库表、Excel 表、CSV 文件)是企业数字 ...
2025-09-18DSGE 模型中的 Et:理性预期算子的内涵、作用与应用解析 动态随机一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明确:TIF 中的地名有哪两种存在形式? 在开始提取前,需先判断 TIF 文件的类型 —— ...
2025-09-17CDA 数据分析师:解锁表结构数据特征价值的专业核心 表结构数据(以 “行 - 列” 规范存储的结构化数据,如数据库表、Excel 表、 ...
2025-09-17Excel 导入数据含缺失值?详解 dropna 函数的功能与实战应用 在用 Python(如 pandas 库)处理 Excel 数据时,“缺失值” 是高频 ...
2025-09-16深入解析卡方检验与 t 检验:差异、适用场景与实践应用 在数据分析与统计学领域,假设检验是验证研究假设、判断数据差异是否 “ ...
2025-09-16CDA 数据分析师:掌控表格结构数据全功能周期的专业操盘手 表格结构数据(以 “行 - 列” 存储的结构化数据,如 Excel 表、数据 ...
2025-09-16MySQL 执行计划中 rows 数量的准确性解析:原理、影响因素与优化 在 MySQL SQL 调优中,EXPLAIN执行计划是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 对象的 text 与 content:区别、场景与实践指南 在 Python 进行 HTTP 网络请求开发时(如使用requests ...
2025-09-15CDA 数据分析师:激活表格结构数据价值的核心操盘手 表格结构数据(如 Excel 表格、数据库表)是企业最基础、最核心的数据形态 ...
2025-09-15Python HTTP 请求工具对比:urllib.request 与 requests 的核心差异与选择指南 在 Python 处理 HTTP 请求(如接口调用、数据爬取 ...
2025-09-12解决 pd.read_csv 读取长浮点数据的科学计数法问题 为帮助 Python 数据从业者解决pd.read_csv读取长浮点数据时的科学计数法问题 ...
2025-09-12CDA 数据分析师:业务数据分析步骤的落地者与价值优化者 业务数据分析是企业解决日常运营问题、提升执行效率的核心手段,其价值 ...
2025-09-12用 SQL 验证业务逻辑:从规则拆解到数据把关的实战指南 在业务系统落地过程中,“业务逻辑” 是连接 “需求设计” 与 “用户体验 ...
2025-09-11塔吉特百货孕妇营销案例:数据驱动下的精准零售革命与启示 在零售行业 “流量红利见顶” 的当下,精准营销成为企业突围的核心方 ...
2025-09-11CDA 数据分析师与战略 / 业务数据分析:概念辨析与协同价值 在数据驱动决策的体系中,“战略数据分析”“业务数据分析” 是企业 ...
2025-09-11Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10