京公网安备 11010802034615号
			经营许可证编号:京B2-20210330
		CDA数据分析师 出品
作者:Natassha Selvaraj
编译:Mika
导读:由于新冠疫情,一年多前我失业了。在失业后,我自学了数据分析,如今我的收入翻了三倍。
大约18个月前,正值新冠疫情爆发最严重的时期,我失去了工作。之前,我在大学期间做兼职家教。我获得的课时费被用来支付伙食费、汽车加油等费用。
随着疫情防护政策的升级,要求停课停学,居家隔离,我也不能再去学校了,被迫在家自习。
一开始这看起来很糟,但我意识到这能让我有更多的时间。我开始尝试在这段时间里提升自己的技能。
在做了一些研究后,我发现一个很有意思的机器学习在线课程。这是我学完的第一个在线课程。在那之后,我把大部分时间都用于开发项目、学习代码和获得在线认证上。
如今,一年半过去了,凭借我在数据科学和分析领域的知识,我已经有了多个收入来源。下面跟大家简单分享一下。
首先,我入职了一家公司的数据分析岗位,在实习一段时间后,现在已经成功转正了。
起初,我本以为我的工作主要是模型构建。在入职后我发现,模型构建大约只占我工作内容的10%。其余的时间,我和我的团队都在研究如何创建的新解决方案,以解决业务问题。
通常,这些问题甚至不需要用到机器学习来解决。数据解决方案大多可以通过SQL查询完成。
我每天的工作主要包括回答以下问题:
这是对我日常工作的简单概括。但我想强调的是,创建数据解决方案并不以建立模型为起点和终点。
如果你是一位有抱负的数据分析师,我建议你在想从事的行业中获得一些专业领域知识。
我会把自己在数据领域获得的经验写下来。如果我在工作中构建一个项目,我会在Kaggle上找类似的数据集并复制分析,而且围绕它写一个教程。
最开始这只是我的个人爱好,也能提升自己的作品集。但同时,这类文章也让我认识了许多志同道合的数据分析师。这也是我展示自己编写和构建ML模型能力的一种方式。
起初,我从未想过通过自己的写作会得到报酬。然而,在过去的一年里,这项爱好开始为我创造收入。现在,我可以通过创建与数据相关的教程、项目和写自己的经历来获得被动收入。
当我在数据分析社区活跃起来后,我开始收到多个项目的邀约,也接了一些数据分析的私活。我为客户建立了机器学习模型,创建竞争对手分析报告,并撰写数据科学文章。
当我最初想到自由职业时,我以为必须在某个在线平台上竞标项目。然而,我所有的客户都是在阅读了我的文章或看了我的数据分析项目后主动与我联系的。
几个月前,我构建了一个聚类算法,并在网上发布了关于它的教程。第二天,就有人主动联系我,问我是否有兴趣为他们的客户构建聚类模型。
接手这些项目让我掌握了很多我在日常工作领域以外的技能。
在我的公司,我处理的数据通常以某种预处理的格式提供,我用SQL和Python对数据进行查询和处理。
而接私活时,客户的数据的格式非常不同。大部分数据都没有经过处理或结构化,我要花很多时间来弄清数据集之间的关系并进行理解。
我还需要收集外部数据来进行分析,这通常包括爬取第三方网站和使用开源工具。这些工程中让我接触到了目前日常工作外的知识,而且我能够在从事的每一个项目中学到新的东西。
我是如何做到的
之前提到,我参加了一个数据科学在线课程。其实在刚上完课程后,我感到很失落和茫然。之后我又花了大约一个月的时间用Scikit Learn学习不同的算法和训练模型。
当时我也不知道今后该怎么发展。
之后我看到一些文章,当中分享了别人是如何在没有相关学位或任何专业资格的情况下成功地获得了数据分析工作。我意识到领域知识和借助现有数据解决问题的重要性。
对我来说,建立最精确的模型或理解模型背后的基本算法并不是必须的。
我意识到,最重要的技能是利用数据解决问题的能力,而不是局限于机器学习的算法。
之后我又我参加了商业分析和ML工程的课程。这次我花在学习代码上的时间比花在理论上的时间多,我还花时间学习了SQL和数据处理。
随后,我通过网络爬取,从在线网站收集数据。我用这些数据解决问题,并用它构建了简单的机器学习web应用。
通过这种方式,我慢慢获得了成为端到端数据科学家所需的技能。
在公司的数据分析团队中,如果有任何超出我们日常工作范围的项目,比如需要收集外部数据或新算法的项目,我通常会被分配到该项目中。
如果你对数据分析行业感兴趣,或者已经在从事数据分析工作,现在网上有很多资源可供使用。事实上,这些资源太多了,有时你会不知道该如何选择。
虽然知道构建和训练模型的基本原理是很重要的,但大多数现有工作都要求你超越这一点。真正的需求在于,你能够借助现有数据去解决实际问题。
                  数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 DDPM(Denoising Diffusion Probabilistic Models)训练过程中,开发者最常困惑的问题莫过于:“我的模型 loss 降到多少才算 ...
2025-11-04在 CDA(Certified Data Analyst)数据分析师的工作中,“无监督样本分组” 是高频需求 —— 例如 “将用户按行为特征分为高价值 ...
2025-11-04当沃尔玛数据分析师首次发现 “啤酒与尿布” 的高频共现规律时,他们揭开了数据挖掘最迷人的面纱 —— 那些隐藏在消费行为背后 ...
2025-11-03这个问题精准切中了配对样本统计检验的核心差异点,理解二者区别是避免统计方法误用的关键。核心结论是:stats.ttest_rel(配对 ...
2025-11-03在 CDA(Certified Data Analyst)数据分析师的工作中,“高维数据的潜在规律挖掘” 是进阶需求 —— 例如用户行为包含 “浏览次 ...
2025-11-03在 MySQL 数据查询中,“按顺序计数” 是高频需求 —— 例如 “统计近 7 天每日订单量”“按用户 ID 顺序展示消费记录”“按产品 ...
2025-10-31在数据分析中,“累计百分比” 是衡量 “部分与整体关系” 的核心指标 —— 它通过 “逐步累加的占比”,直观呈现数据的分布特征 ...
2025-10-31在 CDA(Certified Data Analyst)数据分析师的工作中,“二分类预测” 是高频需求 —— 例如 “预测用户是否会流失”“判断客户 ...
2025-10-31在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27