
作者 | Mohammad Shahebaz
来源 | 图灵TOPIA
本文作者Shahebaz,毕业于JNTUH大学电子与通信工程学院。他最近在Kaggle比赛中获得了4枚银牌和1枚金牌奖牌,并且拥有31 枚讨论金牌,他现在是其所在国家(印度)最年轻(21岁)的Kaggle X2 Master。
他表示,介绍进入数据科学领域所需技能的文章有很多,分享成功经验和意见的访谈也不少。但很少能找到文章具体介绍他们是如何开始自己的数据科学之旅的。所以,近期他在Medium上撰文分享了自己的成长经验。
他表示,刚开始的时候,自己也是个菜鸟,对很多知识并不是很擅长;并且,数学也从来不是自己最喜欢的科目。然而,今天他却很热爱这个领域。。。
以下是文章具体内容:
少有人走的路
我是最近才开始参加比赛的,并且在过去的9个月中,在各种比赛中赢得了一堆奖牌。这听起来是不是挺神奇的?
我曾经特别害怕参加Kaggle比赛,因为 - 觉得它们很难!
那么,这一切是从什么时候开始改变的呢?
2017年,作为Oppia.org的会员和活跃撰稿人,为了更好地工作,我开始学习Python 2.7。
后来我学会了所谓的“过时”的 Python2.7版本,但是又不得不重新学习Python 3。
我几乎无法创建列表或add/join字符串,那时我也只是一名新手程序员。
我在开源贡献期间学习了编程,使用git进行软件版本控制,以及意识到了良好结构和文档化代码的重要性。
有一天,我正在搜索Python 2.7还能做什么的时候,浏览了一下互联网并登陆了Kaggle。著名的Kaggle 声明(statement)正盯着我,读完问题声明后,我惊奇地盯着屏幕。
“在这次挑战中,我们要求您完成对哪些人可能存活的分析”
当我读到这个。我感觉到了像追星族般的惊奇。预测幸存的人?这是什么样的黑魔法?我甚至立刻检查了Kaggle网站的真实性,第二个惊奇的时刻就是我意识到 -
数据科学听起来像是21世纪非常真实的科幻技术!
就像一部科幻电影突然在我的现实生活中出现,它的概念对我来说完全陌生。
我决定让自己进入这个领域。而对数据科学学习的热情一直在我身上保持。(老实说,即使今天也没有任何消减)
我是如何学习的?推荐资源!
▲选择的悖论——越多越少
如今,网上有很多课程。通过谷歌搜索 - “如何成为数据科学家” ,你就会得到许多结果,也就很容易陷入选择的悖论。这种感觉就像在餐馆里从琳琅满目的选择中选择一道美味的开胃菜。就本文的范围而言,我将列出我最喜欢的几本书。
Python推荐
如果您使用Python编写代码并且您的技能处于中间水平,则本书应该放在您的书架上。
《Python的数据结构和算法》由Michael T. Goodrich,Roberto Tamassia,Michael H. Goldwasser 撰写。
▲《Python中的数据结构和算法》
本书深入探讨了Python中的OOP,数据结构和算法的概念。我喜欢本章每一节的练习。在制作需要优化和格式化编码的车库项目时,我仍然将其用于日常参考。
着手机器学习基础知识
结束Python基础知识之后。我买了几本关于机器学习的书,我推荐这本书;
▲《用Python学习机器学习》
《用Python学习机器学习》,作者是Andreas C. Müllerand Sarah Guido
它涉及机器学习的基础知识,由scikit-learn的创始人自己编写,它是一本完整的初学者入门书。
读这本书让我非常熟悉scikit-learn,我最终还在官方的scikit-learn存储库中推了几个PR。
但是,如果您熟悉数据科学并已进入任何机器学习竞赛的前20%,您会发现上述的书挺无聊的。但是,如果你仔细阅读,肯定有一些方便的技巧和方法可以帮助你在比赛中获得优势。
另一本比MOOC更值得推荐的书是《Introduction to Statistical Learning with Applications in R》
如果我是一名面试官,我会找一个在理论和实践中理解ISLR的人。
▲《ISLR》
这本书是关于R语言的。但是,我仍然十分推荐它。
通常在研究背景下,对于想要深入挖掘并达到统计核心的人来说,《统计学习的要素》是非常推荐的一本书。ISLR和ESL这两本书都是可以免费下载的。因此,您不必破费,就可以获得免费的机器学习知识。
▲《统计学习的要素》
人们经常问我 - 你学习机器学习的MOOC是什么?
答案是None。
我发现在线课程没有效果。至少,我注册的那些没有效果。有以下几个原因:
这并不意味着我讨厌MOOC。事实上,我计划在今年完成一些工作。我建议你把基础打牢,而不是专注于观看只针对单一课程的视频内容。阅读书籍和资源肯定扩展了我对某些概念的认识,我现在可以从不同的角度来解释这些概念。
初学者的生活
我经常在LinkedIn上收到想要从事数据科学的人发来的信息。但痛苦的现实是,根据你之前所做的,学习曲线并不陡峭。我会让你从我的经历中走出来。
这是我当时的问题:
1、如何开始使用数据科学?
2、我完成了一堆算法。接下来做什么?
3、如何找到工作并搞定数据科学面试?
4、做Kaggle值得吗?比赛会有所作为吗?
我非常渴望得到这些问题的答案!
现在,我已经通过了系统的学习,可以用一句话回答你:事情没那么简单,这很复杂。
部分原因是术语—数据分析师、数据科学家和ML工程师是三个不同的头衔。这份工作的性质因公司而异。
数据分析师有时只能执行SQL查询,或者构建模型或进行业务分析。有时他们也会成为项目经理。
数据科学家有时制作基本模型,其他角色需要博士学位。研究工作和很少的其他工作需要在大型系统上进行模型调优和部署。
ML Engineer是融合了数据科学知识的软件工程专业知识
问题是……
您的梦想数据科学工作没有固定的职位描述。
许多公司仍在搞清楚“究竟什么属于数据科学,应该关注哪些问题”。在这种情况下,你的学习必须是连续的,而不是受MOOC课程时间限制的,这一点变得非常重要。
追随你的激情,解决问题。比如从你的Android手机上收集数据,汇总推文研究你最喜欢的演员的粉丝,在《复仇者联盟3:无限战争》中应用奇怪的机器学习案例等等。
▲我的图像说明项目
想象力是无限的,ML也有无限的可能性。现在让我们来探索成为一名更好的数据科学家的能力技能。
数据科学爱好者的目标清单
该列表适用于数据科学家角色,但是如果您申请领域特定的角色,则可能需要更多的技能。
1. 掌握统计和概率:比较容易,这项技能数据科学领域的面包和黄油。我强烈推荐面包优先的方法,除非你是写研究论文或在学术界的角色。
在现实世界中,虽然在编写代码时不会经常使用stats知识。但是,掌握好stas知识不仅能让你成为更好的数据科学家,还能帮助你做出关键决定。
2. 参与数据科学竞赛:主要是学习不一定非要赢比赛。我明白在比赛中获胜并且赢得奖金听起来有利可图。我花了100多场比赛才进入我的第一个50强排行榜。没有人从第一天开始就是赢家。比赛将帮助您在竞争激烈的世界中回顾自己的成长。
3.你的项目是你自己最好的代言人:使您的GitHub配置文件保持活跃并完成至少2-3个项目,包括文档的最终实现。虽然比赛是应用你的技能的一种方式,但是对他们的反对声很大。
比赛并不是现实世界数据科学任务的同义词。他们就像在一家五星级餐厅品尝现成的拼盘。
从头开始贡献或处理项目将使您在实际数据科学任务中获得经验,这些任务才被认为是最重要的。
数据科学&其他
如果你正在寻找一个职位,如果职位描述要求你全能:既要求你是数据科学家又要有8-10年“spark”经验。
赶紧跑吧!(Spark是2011年推出的!)
有很多公司只是因为媒体炒作或者人云亦云的趋势而想要去推动数据科学。
有时候,他们需要的只是.groupby(),而不是机器学习。
未来的工作角色将会大不相同。作为一名数据科学家,请确定您想要进入的领域。目标是你在那个领域的项目和竞赛。
招聘人员更倾向于雇佣已经从事过公司目前正在从事的工作的人。
假设你要去一家餐厅吃海德拉巴Biryani。你会喜欢一个刚刚在YouTube上看过菜谱的新厨师,还是喜欢一家专门制作正宗海德拉巴Biryani的餐厅?公司也是如此。他们想要的是一个有经验的人。
例如:我经常坚持参加金融领域和NLP的竞赛。这是我几个月前接受采访时最大的优势。我可以问更多与领域相关的问题,了解公司目前正在进行哪些项目,以及我认为自己适合哪些领域。
毕竟,比工作更重要的是,可以在你最喜欢的项目度过每个星期一上午。
写在最后
我遇到了这样一个奇妙的场景,实际上是一个极端的场景。想象一下,如果Tensorflow消失了会怎样?
您意识到您不再是数据科学家和ML工程师了!
这个想象很有趣但也合法。
未来可能会有一些新的工具和数据科学库。曾经XGBoost是商业机密算法,现在它完全开源。明天,其他一些工具将改变数据游戏。
AutoML已经在引领下一代数据科学解决方案。我亲自从H2O.ai中找到无人驾驶 AI !
当重复性任务自动化时,业界总会出现问题。让自己了解并学习核心技能,而不是少数库的语法。探索:
你需要让自己时刻保持学习和成长。
打个比方,如果您自己不进行.transform()和.fit()改进,那么您将成为一个under fit分类器~
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29CDA 数据分析与量化策略分析流程:协同落地数据驱动价值 在数据驱动决策的实践中,“流程” 是确保价值落地的核心骨架 ——CDA ...
2025-08-29CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-28CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-08-28