
作者布兰登·科斯利,FastDataScience.ai
数据科学家需求不足,没有两种方法。工作岗位嗯,有很多空缺,这个行业似乎只是在这个后疫情时代的数字世界里才有所增长。因此,数据科学专业的学生也是世界劳动力中日益增长的一部分,这就不足为奇了。但是学习数据科学并不容易。事实上,它是错误的,而且很难有几个好的原因:
1.数据科学作为一个专业融合了许多不同的子专业,这些子专业本身就是专业,如数据工程、编程、统计学和数据可视化。
2.该行业及相关工具和技术正在迅速发展,使人很难知道将研究重点放在哪里。
3.教育机构(大学、数字教程)教授的数据科学与企业使用的数据科学之间存在差距。
4.由于所需知识的广泛性,很容易对一个人向未来雇主有效地传达自己所受教育的价值的能力失去信心。
我记得我自己试图从一个精通数据的学术研究员变成一个行业数据科学专业人士的经历。我把自己暴露在所有的教程、博客和MOOC中,我可以。我沉浸在行业新闻和趋势中。我把我的桶装满了,发现我学得越多,我就越意识到我不知道。我压力很大,对自己拥有的技能缺乏信心,感觉自己就像一个冒名顶替的人,去参加数据科学面试,希望自己不会被“抓住”,因为我没有花足够的时间在损失函数上。
我全神贯注于数据科学教育,希望我的广泛接触能引导我实现我的目标,并获得更好的薪水。我当时没有意识到的是,我已经本末倒置了。我是如此渴望学习,以至于我把所有的时间都花在学习很多“东西”上,从来没有停下来问自己;所有这些“东西”如何结合起来解决真正的问题?
请允许我告诉你一个明显的秘密,大多数企业不关心数据科学“东西”,大多数企业只关心这些东西是否能解决业务问题。因此,问题就在这里,试图学习数据科学的所有工具,这样你的简历就可以充满一个不断扩大的“东西”列表(Python、R、回归、随机森林、幼稚贝叶斯、马尔可夫链、支持向量机、k-means聚类、XGBoost、卷积神经网络、自然语言处理,等等)是徒劳的。
这些“事情”不会把你引向你的目标,因为你的目标只是由你觉得自己被重视的地方来定义的。您将感到有价值的地方是允许您不断发展的数据科学知识应用于解决问题的地方。能够交流如何利用一些数据科学工具来解决问题,将比简单地列出您在一个或另一个类中接触过的所有算法在业务上走得更远。
总之,先找个目的。你关心什么?你的激情在哪里?你想解决什么问题?一旦你有了一个列表,选择一些东西,并考虑如何应用你的数据科学知识来解决与该兴趣相关的问题。
通过首先找到你的目的,你将结合上下文来学习你的数据科学教育,你将寻求学习的工具将感觉不那么压倒性,因为有任何意义的应用工具必然会更少。
知识、激情和对问题的理解也会开启你的创造力。创造性的问题解决是看到我们对两个或更多不同领域的理解如何以新颖的方式结合在一起。如果我们只在我们的“罐头”数据集和冷静分配的问题的背景下学习数据科学,我们就不再能够从多个领域跨越我们的知识深度。
通过首先找到您的目的,您将很快了解到解决相同问题有许多不同的数据科学解决方案。换句话说,在数据科学中很少有对错之分,更常见的是业务问题可以用无数种方法来解决。有些解决方案比其他的好吗?当然可以。但这并不意味着那些不是最优的就是错的,相反,它们只是没有那么好。有了足够的钱和时间,总有一个“更好”的解决方案,所以最好不要太过陷入这种螺旋。相反,关注你所拥有的知识如何能带来比以前更多的价值,或者通过揭示在其他人身上不明显的新见解来增加现有的解决方案。
通过首先找到你的目的,你将解决大多数数据科学课程中经常没有教的问题,但它们是企业数据科学家每天都要面对的问题。以寻找正确数据的简单问题为例。大多数数据科学课程不会教你数据发现的价值,但在企业中,数据科学家通常负责发现并与新的数据集混合,以进一步实现收集的数据和雇佣的数据科学家对其进行评估的价值。先有目的地学习数据科学将迫使您寻找获取与您的问题最相关的数据的方法,它将要求您访问、争论和设计这些数据,以便它能够用机器学习模型进行训练。
最后,通过首先找到您的目的,您将知道如何传达您构建的解决方案的价值。
我的目的是社会公正。我想使用数据科学的工具和技能来提供信息,以产生揭露不公正的洞察力,为积极的社会变革提供解决方案,并帮助我们认识到人类偏见的含义。
在我的第一个项目中,我想帮助三班工人识别车辆犯罪的口袋,以支持更安全的停车决定。我必须找到当地公共警察报告数据,并将其与人口普查数据等其他数据源混合。利用我所拥有的数据科学知识,我可以建立一个预测模型,根据周围位置的特征来预测汽车经历车辆犯罪(例如盗窃、破坏)的可能性。这个项目让我学会了基本的数据争论,如何导出一些地理空间特征,测试不同分类模型的准确性,如随机森林、逻辑回归和朴素贝叶斯,使用Tableau Public进行基本的可视化,以及如何设置管道在每次刷新警方数据时刷新仪表板。
还有其他问题我可以解决吗?当然了.我可以用其他工具来解决这个特定的问题吗?最肯定的是。我想出了最好的解决方案,甚至是市场上唯一的解决方案吗?不是一个机会,但我的解决方案比那里的更好,这没什么。
我不仅学习了上面提到的具体工具,而且对数据科学的过程获得了更多的直觉。我能够更清楚地阐明为什么我希望使用特定数据类型的特定分类模型而不是其他分类模型。最重要的是,我能够充满激情地谈论这些工具是如何让我通过结合数百个数据点来做出明智的决定的。
现在,当面对新的目的,并询问是否有数据科学解决方案来克服与该目的相关的问题时,我不再对我不知道的事情感到缺乏信心。我利用这个目的来应用我所知道的,解释我的方法,并确定一些新的东西要学习,并相信我可以。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29