京公网安备 11010802034615号
经营许可证编号:京B2-20210330
我最近读到一篇文章,将数据科学描述为一个过饱和的领域。文章预测ML工程师将在未来几年取代数据科学家。
根据这篇文章的作者,大多数公司致力于用数据科学解决非常相似的业务问题。因此,数据科学家没有必要提出解决问题的新方法。
作者接着说,在大多数数据驱动的组织中,为了解决问题,只需要基本的数据科学技能。这个角色很容易被机器学习工程师取代--一个拥有数据科学算法基础知识的人,他也拥有部署ML模型的知识。
在过去的一年里,我读过许多类似的文章。
其中一些人表示,数据科学家的角色将被AutoML之类的工具所取代,而另一些人则将数据科学称为“垂死的领域”,很快将被数据工程和ML操作之类的角色所超越。
作为一个与数据行业不同支柱密切合作的人,我想就这个主题提供我的观点,并回答以下问题:
大多数组织中的数据科学工作流程非常相似。许多公司雇佣数据科学家来解决类似的商业问题。大多数建立的模型都不需要你想出新颖的解决方案。
在这些组织中,您将采用的解决数据驱动问题的大多数方法很可能以前已经使用过,您可以从网上可用的大量资源中获得灵感。
此外,AutoML和DataRobot等自动化工具的兴起使预测建模变得更加容易。
我在一些业务用例中使用DataRobot,它是一个很好的工具。它迭代许多值,并为您的模型选择最佳参数,以确保最终得到尽可能高精度的模型。
因此,如果预测模型随着时间的推移变得更加容易,为什么公司仍然需要数据科学家?为什么他们不直接使用自动化工具和ML工程师的组合来管理他们的整个数据科学工作流呢?
答案很简单:
首先,数据科学从来不是关于重新发明轮子或构建高度复杂的算法。
数据科学家的角色是用数据为组织增加价值。在大多数公司中,只有很小一部分涉及到构建ML算法。
其次,总会有自动化工具无法解决的问题。这些工具有一组固定的算法,您可以从中选择,如果您确实发现了一个需要结合使用多种方法来解决的问题,您将需要手动完成。
虽然这种情况并不经常发生,但仍然会发生--作为一个组织,你需要雇佣足够熟练的人来做到这一点。此外,像DataRobot这样的工具不能进行数据预处理,也不能进行建模之前的任何繁重工作。
作为一个为初创企业和大公司创建数据驱动解决方案的人,这种情况与处理Kaggle数据集的情况非常不同。
没有固定的问题。通常,您有一个数据集,然后给您一个业务问题。如何利用客户数据来最大限度地提高公司的销售额取决于您。
这意味着数据科学家需要的不仅仅是技术或建模技能。您将需要将数据与手头的问题连接起来。您需要决定可以优化解决方案的外部数据源。
数据预处理是漫长而艰苦的,不仅因为它需要很强的编程技能,还因为您需要试验不同的变量及其与手头问题的相关性。
您需要将模型精确度与转换率之类的指标联系起来。
模型构建并不总是这个过程的一部分。有时,一个简单的计算可能足以执行像客户排名这样的任务。只有一些问题需要你做出预测。
归根结底,数据科学家为组织提供的价值在于他们将数据应用于现实世界用例的能力。无论是建立细分模型、推荐系统,还是评估客户潜力,除非结果是可解释的,否则对组织没有真正的好处。
只要一个数据科学家能够在数据的帮助下解决问题,并弥合技术和业务技能之间的差距,这个角色就会继续存在。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在机器学习与数据分析领域,特征是连接数据与模型的核心载体,而特征重要性分析则是挖掘数据价值、优化模型性能、赋能业务决策的 ...
2026-01-27关联分析是数据挖掘领域中挖掘数据间潜在关联关系的经典方法,广泛应用于零售购物篮分析、电商推荐、用户行为路径挖掘等场景。而 ...
2026-01-27数据分析的基础范式,是支撑数据工作从“零散操作”走向“标准化落地”的核心方法论框架,它定义了数据分析的核心逻辑、流程与目 ...
2026-01-27在数据分析、后端开发、业务运维等工作中,SQL语句是操作数据库的核心工具。面对复杂的表结构、多表关联逻辑及灵活的查询需求, ...
2026-01-26支持向量机(SVM)作为机器学习中经典的分类算法,凭借其在小样本、高维数据场景下的优异泛化能力,被广泛应用于图像识别、文本 ...
2026-01-26在数字化浪潮下,数据分析已成为企业决策的核心支撑,而CDA数据分析师作为标准化、专业化的数据人才代表,正逐步成为连接数据资 ...
2026-01-26数据分析的核心价值在于用数据驱动决策,而指标作为数据的“载体”,其选取的合理性直接决定分析结果的有效性。选对指标能精准定 ...
2026-01-23在MySQL查询编写中,我们习惯按“SELECT → FROM → WHERE → ORDER BY”的语法顺序组织语句,直觉上认为代码顺序即执行顺序。但 ...
2026-01-23数字化转型已从企业“可选项”升级为“必答题”,其核心本质是通过数据驱动业务重构、流程优化与模式创新,实现从传统运营向智能 ...
2026-01-23CDA持证人已遍布在世界范围各行各业,包括世界500强企业、顶尖科技独角兽、大型金融机构、国企事业单位、国家行政机关等等,“CDA数据分析师”人才队伍遵守着CDA职业道德准则,发挥着专业技能,已成为支撑科技发展的核心力量。 ...
2026-01-22在数字化时代,企业积累的海量数据如同散落的珍珠,而数据模型就是串联这些珍珠的线——它并非简单的数据集合,而是对现实业务场 ...
2026-01-22在数字化运营场景中,用户每一次点击、浏览、交互都构成了行为轨迹,这些轨迹交织成海量的用户行为路径。但并非所有路径都具备业 ...
2026-01-22在数字化时代,企业数据资产的价值持续攀升,数据安全已从“合规底线”升级为“生存红线”。企业数据安全管理方法论以“战略引领 ...
2026-01-22在SQL数据分析与业务查询中,日期数据是高频处理对象——订单创建时间、用户注册日期、数据统计周期等场景,都需对日期进行格式 ...
2026-01-21在实际业务数据分析中,单一数据表往往无法满足需求——用户信息存储在用户表、消费记录在订单表、商品详情在商品表,想要挖掘“ ...
2026-01-21在数字化转型浪潮中,企业数据已从“辅助资源”升级为“核心资产”,而高效的数据管理则是释放数据价值的前提。企业数据管理方法 ...
2026-01-21在数字化商业环境中,数据已成为企业优化运营、抢占市场、规避风险的核心资产。但商业数据分析绝非“堆砌数据、生成报表”的简单 ...
2026-01-20定量报告的核心价值是传递数据洞察,但密密麻麻的表格、复杂的计算公式、晦涩的数值罗列,往往让读者望而却步,导致核心信息被淹 ...
2026-01-20在CDA(Certified Data Analyst)数据分析师的工作场景中,“精准分类与回归预测”是高频核心需求——比如预测用户是否流失、判 ...
2026-01-20在建筑工程造价工作中,清单汇总分类是核心环节之一,尤其是针对楼梯、楼梯间这类包含多个分项工程(如混凝土浇筑、钢筋制作、扶 ...
2026-01-19