
作为一个在数据科学领域工作了十多年的人,看到人们预言该领域将在10年内如何灭绝是令人沮丧的。给出的典型原因是emergingAutoMLtools将如何消除从业者开发自己算法的需求。
我发现这样的观点特别令人沮丧,因为它阻止了初学者足够认真地对待数据科学,从而在它方面出类拔萃。坦率地说,对于一个需求只会进一步增加的领域,看到这样的预言是对数据科学界的伤害!
为什么任何一个理智的人会投入有限的时间和精力去学习即将灭绝的东西?
给你点东西。如果有一个领域你最有可能真正退休,那就是数据科学。我将给出数据科学不会很快灭绝的四个关键原因。然后我也会给你我的建议,以确保你在10年后保持在数据科学的正确一边。
数据科学不会灭绝,但如果你不跟上它的步伐,你的技能可能会灭绝。我们潜水吧。
让我们从科学开始。我不必让你相信科学已经存在了几个世纪。科学的本质是从数据中学习。我们观察世界上的事物(收集数据),然后我们创建一个模型(传统上称为理论),可以总结和解释这些观察。我们创建这些模型来帮助我们解决问题。
数据科学的本质也正是如此。收集数据,通过创建模型从中学习,然后使用那些模型解决问题。多年来,不同的学科已经开发和完善了几个工具来实现这一点。根据该领域的重点,使用不同的名称来描述这组工具和过程。术语是Data Science。
然而,以前的时代与现在的不同之处在于数据量和我们可用的计算能力。当我们只有几个数据点和几个维度时,手工将它们放在纸上并拟合一条直线(回归)或识别模式是可能的。现在,我们可以廉价地从多个来源(多个特性)收集大量数据。当你有大量的数据点和维度时,拟合一条直线(或集群)是不可能的,也是不可行的。
如果收集数据并开发模型来解释它的做法已经存在了几个世纪,为什么你认为它会在未来10年内灭绝?
如果有什么不同的话,我们将收集更多种类的数据,我们将需要创造性地将它们结合起来解决问题的新方法。
在“自动机器学习”的保护伞下的几种工具正在获得吸引力,其中一些可能会导致数据科学的民主化。但是,大多数这样的工具将有助于加快对cleaned数据输入的不同算法的测试和实现。
但是向模型中获取干净数据的能力一点也不简单。
事实上,一些与数据科学相关的调查已经指出,任何数据科学家在收集和清理数据上花费的时间都是不成比例的。例如,Anaconda的年度调查(数据科学家使用的领先分布之一)指出,数据科学家将66%的时间用于数据加载、清理和可视化,只有23%的时间用于模型训练、选择和评分。我在这个领域工作了十多年的个人经历也是类似的。
学习算法如何在底层工作并理解它们的细微差别一点也不简单,许多在线课程花时间解释这些都是正确的。然而,这种对算法的关注只会造成一种错误的错觉,好像数据科学就是关于模型的。许多有经验的实践者开始看到以数据清理为代价对模型的过度强调。Andrew Ng(该领域的领先专家)一直鼓励数据科学界转向以数据为中心的方法,而不是我们大多数人目前在数据科学项目中采用的以模型为中心的方法。在他的《收入通讯》中,他说:
这是一个常见的笑话,80%的机器学习实际上是数据清理,好像这是一个较小的任务。我的观点是,如果我们80%的工作是数据准备,那么确保数据质量就是机器学习团队的重要工作。
像Kaggle这样的网站进一步加剧了这种情况,在这些网站上,参与者可以获得干净的数据,任务仅限于开发不同的模型,目的是最大化预先确定的性能指标。(Kaggle真棒!)
一个真实的项目处理几个问题,而这些问题并不是从仔细清理的数据或定义的问题开始的。在大多数项目中,我们先验地不一定知道哪些特性是相关的,收集数据的频率如何,以及需要回答的正确问题是什么。欢迎来到现实世界!
新的自动化工具的出现将继续使不同模型的实现变得容易和可访问。然而,它无法对现实世界项目中更具挑战性的问题进行分类。许多这样的问题依赖于上下文,自动化的时机还不成熟。
也许是受到关于数据科学的炒作的驱使,我遇到过这样的情况,人们接近我,告诉我他们有数据,并希望我应用“数据科学”来解决他们的问题(这可能也不一定是明确定义的)。我敢打赌,许多不是数据科学家的人认为它是某种魔力(一个可以在一边输入数据,另一端获得输出的工具)。
恰恰相反,真正的项目有需要平衡的权衡。这需要一种迭代方法,首先部署初始模型,然后在收集更多数据以进一步改进时监视性能。
任何部署的模型只有在按预期使用时才有用。这是不能保证的。需要有一个熟练的人员元素,可以继续监视和诊断已部署模型的使用,并提出适当的解决方案来改进它。然而,监测部分不一定要自动化,甚至不一定要定量。可能会发生你无法预料的非常意外和奇怪的事情。
不久前,伦敦大都会警察局测试了一个实时面部识别系统。该系统有摄像头,可以扫描购物中心和公共广场上的人,提取各种面部特征,然后将这些特征与观察名单中的嫌疑人进行比较。然后,该系统将显示任何匹配,供官员审查并决定是否需要阻止任何嫌疑人(在某些情况下,逮捕)。关于该系统运作的一项独立声明提出了重大关切,并强调了几个限制。在经过6次审判确定的42名嫌疑人中,只有8名(仅19%)证明是正确的匹配。
有许多数据科学算法被歪曲的例子,使它们不够充分,需要进一步发展。就目前的情况来看,我们甚至还没有处于模型被广泛部署和使用的阶段。因此,我们甚至没有足够的模型漂移或出错的用例来进一步自动化此类工具。到目前为止,我们所拥有的最好的方法是在模型部署时识别问题(例如,银行、医疗保健、警务)。
这是最先进的。我们开发和部署模型,但结果证明它们是不够的,不适合目的。我们正处在一个阶段,我们只看到使用不合适的模型的早期后果。有没有自动化的解决方案来处理这个问题?一个都没有!
即使是手动,我们也在受到挑战!
这是我最喜欢的一点。一段时间以来,平凡的、重复的、非认知要求的任务一直处于自动化的风险之中。然而,这种干扰只会导致更多需要人类创造力和解决问题的工作。我们的记忆很糟糕,但我们,人类,在识别模式以解决问题时,却异常出色。
“你的头脑是用来有想法的,而不是拿着它们。”大卫·艾伦
数据科学是科学是有原因的。而是解决问题。我们面临的问题,需要创造性的、巧妙的解决方案。我们正是在这一点上大放异彩,这是一种非常令人向往的技能。数据科学的用例只会增加。这仅仅是因为我们正在收集更多的数据,我们有更多的计算能力在小芯片上实现复杂的数学运算。
让我向您展示实现当今最著名的机器学习算法是多么的微不足道。
假设您已经仔细清理了输入变量(x)和输出变量(y),准备进入模型。使用ingscikit-learn(Python中一个著名的开源机器学习库),我们可以用以下两行代码实现决策树:
from sklearn import tree tree.DecisionTreeClassifier.fit(X,Y)
我们可以用以下两行代码实现支持向量机:
from sklearn import svm svm.SVC.fit(X,y)
你看到图案了吗?我们所需要做的就是改变函数名,然后你就有了模型。真正的数据科学家不会坐着从头开始重新实现这些算法。他们最终将使用行业中成熟的库,如Scikit-learn。
但你真的认为大多数数据科学家都在这样做,并因这项技能而被雇佣吗?改变模型中的一个单词,然后运行,然后报告结果?不!
然而,作为一名数据科学家,如果这是你关注的全部,那么对这种技能的需求很快就会消失。
实现一个模型是大多数人可以做的事情,如果他们知道工具,而且很容易让人接受培训。硬的部分是:
上面提到的技能是通过在现实世界中工作而获得的,具有挑战性的项目。它们需要时间,学习过程需要认知能力。然而,随着我们收集更多的数据,面对独特的行业挑战,面临更多的竞争(而不是更少!),这些技能将变得越来越重要。
我上面列出的技能属于解决问题和创造力的永恒领域。这些技能将继续备受追捧,因为它们不能自动化。
无论如何,你应该有一个你学习的工具,变得熟练,并理解来龙去脉,因为你得到了更多的经验。但是,要确保你能利用那些让你在挑战性项目中工作的机会,在这些项目中你可以锻炼你的创造性和解决问题的技能。
不要担心数据科学很快就会灭绝。这样的担心只会分散你享受旅程的注意力,你会带着半心半意的信念接近这个领域。如果你相信这样的末日预言,你将无法利用有希望的机会,让你的技能停滞不前。事实上,你的需求将会消失!
“无论你认为你能,还是你认为你不能,你都是对的。”亨利·福特
但是,如果您继续从事具有挑战性的数据科学项目(从数据收集到模型部署),10年后您将处于该领域的正确一边,您的需求只会增加!
选择权在你。对此,作者提出了建议
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
PyTorch 核心机制:损失函数与反向传播如何驱动模型进化 在深度学习的世界里,模型从 “一无所知” 到 “精准预测” 的蜕变,离 ...
2025-07-252025 年 CDA 数据分析师考纲焕新,引领行业人才新标准 在数字化浪潮奔涌向前的当下,数据已成为驱动各行业发展的核心要素。作为 ...
2025-07-25从数据到决策:CDA 数据分析师如何重塑职场竞争力与行业价值 在数字经济席卷全球的今天,数据已从 “辅助工具” 升级为 “核心资 ...
2025-07-25用 Power BI 制作地图热力图:基于经纬度数据的实践指南 在数据可视化领域,地图热力图凭借直观呈现地理数据分布密度的优势,成 ...
2025-07-24解析 insert into select 是否会锁表:原理、场景与应对策略 在数据库操作中,insert into select 是一种常用的批量数据插入语句 ...
2025-07-24CDA 数据分析师的工作范围解析 在数字化时代的浪潮下,数据已成为企业发展的核心资产之一。CDA(Certified Data Analyst)数据分 ...
2025-07-24从 CDA LEVEL II 考试题型看 Python 数据分析要点 在数据科学领域蓬勃发展的当下,CDA(Certified Data Analyst)认证成为众多从 ...
2025-07-23用 Python 开启数据分析之旅:从基础到实践的完整指南 在数据驱动决策的时代,数据分析已成为各行业不可或缺的核心能力。而 Pyt ...
2025-07-23鸢尾花判别分析:机器学习中的经典实践案例 在机器学习的世界里,有一个经典的数据集如同引路明灯,为无数初学者打开了模式识别 ...
2025-07-23解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-07-22解析神经网络中 Softmax 函数的核心作用 在神经网络的发展历程中,激活函数扮演着至关重要的角色,它们为网络赋予了非线性能力, ...
2025-07-22CDA数据分析师证书考取全攻略 一、了解 CDA 数据分析师认证 CDA 数据分析师认证是一套科学化、专业化、国际化的人才考核标准, ...
2025-07-22左偏态分布转正态分布:方法、原理与实践 左偏态分布转正态分布:方法、原理与实践 在统计分析、数据建模和科学研究中,正态分 ...
2025-07-22你是不是也经常刷到别人涨粉百万、带货千万,心里痒痒的,想着“我也试试”,结果三个月过去,粉丝不到1000,播放量惨不忍睹? ...
2025-07-21我是陈辉,一个创业十多年的企业主,前半段人生和“文字”紧紧绑在一起。从广告公司文案到品牌策划,再到自己开策划机构,我靠 ...
2025-07-21CDA 数据分析师的职业生涯规划:从入门到卓越的成长之路 在数字经济蓬勃发展的当下,数据已成为企业核心竞争力的重要来源,而 CD ...
2025-07-21MySQL执行计划中rows的计算逻辑:从原理到实践 MySQL 执行计划中 rows 的计算逻辑:从原理到实践 在 MySQL 数据库的查询优化中 ...
2025-07-21在AI渗透率超85%的2025年,企业生存之战就是数据之战,CDA认证已成为决定企业存续的生死线!据麦肯锡全球研究院数据显示,AI驱 ...
2025-07-2035岁焦虑像一把高悬的利刃,裁员潮、晋升无望、技能过时……当职场中年危机与数字化浪潮正面交锋,你是否发现: 简历投了10 ...
2025-07-20CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-18