
作者:William Vorhies
CDA数据分析研究院原创作品, 转载需授权
2018年刚刚结束,在2019年到来之际,让我们一起展望在今年数据科学、机器学习和人工智能领域会有怎样的发展趋势。
首先让我们快速回顾一下,去年我们曾做出了哪些预测。
2018年预测回顾
预测1
模型生产和数据准备都将越来越自动化。
大型的数据科学操作将集中在一个平台上。这两种趋势都是为了提高效率,从而让更少的数据科学家完成更多工作。
结果
预测正确。 无代码数据科学和端对端集成平台都处于上升发展阶段。
预测2
数据科学将继续专业化,意味着全栈型数据科学家将消失。
结果
是的。如今比起数据科学家,数据工程师更受关注。数据工程师是那些让数据科学模型在现实中发挥作用的人。
预测3
非数据科学家将比数据科学家执行更多复杂的分析。
结果
这是真的。Data Viz和Visual Analytics等技术作为桥梁,让非数据科学家能够从复杂的数据科学工具中获取更多价值。
预测4
深度学习很复杂。很少有数据科学家掌握刚领域的技能,这将阻碍人工智能的应用,直到深度学习平台得到更为简化和产品化。
结果
微软和谷歌都在2018年推出了自动化深度学习平台。这些平台从转移学习开始,但正朝着完整自动化深度学习发展。同时也还有一些集成自动深度学习平台。OneClick.AI有完整的自动化机器学习和自动化深度学习平台。
预测5
尽管有大肆宣传和炒作,但人工智能和深度学习在各大市场中渗透的速度和广度都比你想象更慢更窄。
结果
除了聊天机器人的出现,人工智能在商业中的实际应用非常有限。他们来了,但还没有。在我知道最全面的研究表明,在大型公司中,只有五分之一到三分之一的公司在大规模实施人工智能。在较小的公司中,这个比例要小得多。而且我们不确定哪些是否是“真正的”人工智能。
预测6
政府将开始认真看待人工智能对社会和隐私的影响,无论是有意的还是无意的。
结果
只要看到这方面的新闻就会发现,政府在针对这方面出台相关的监管机制。对人工智能设计的隐私等方面进行规定。
我们队2018年的预测基本正确,当中有些预测趋势也可以用于新的一年,下面继续看到对2019年数据科学、机器学习和人工智能领域的预测。
2019年预测
预测1:
数据变得比算法更重要
我们已经有一年多美元在深度学习和机器学习方面取得任何重大突破了。当中也有一些渐进式的改进,比如使用时间卷积网(TCN)而不是RNN来减少NLP的延迟,但没有很大的新创新。性能最佳的算法很有名,或者可通过自动机器学习轻松发现。
目前,随着公司开始实现数字化转型,拥有更多更好的数据是成功的关键。实际上,这为同时想多个方向提供数据相关解决方案的提供了竞争机会。
一个方面,获得准确标记的图像或文本的训练数据仍然非常昂贵且耗时。Figure Eight这样专注于标记数据的公司正在推广智能的成本效益策略,比如Active Learning,让你在标记数据和模型准确性之间取得最佳权衡。这涉及多次迭代,添加人工标记或机器标记的数据,然后重新训练以找到最佳方案。
第二个方面是访问第三方数据。像DymstData这样的服务公司已经进入该领域,作为数百种附加数据的结算方。他们还承担着确保敏感PII受到保护等服务,这些信息在金融和医疗服务中尤为重要。
第三个方面是自动跟踪并记录模型中使用数据的来源。特别是当不同来源的流数据被集成,且随时间变化时,知道其来源以和使用方式对准确性和合规性都是至关重要的。Tibco和其他分析平台正在整合此功能。
围绕数据的服务产品在今年将大幅扩展。
预测2:
随着人工智能和机器学习从分析平台转移到行业或流程特定应用,一切将变得更容易。
纵观人工智能和机器学习创业公司,可以看到竞争正在转向行业或流程特定的应用。这些应用程序或小型平台主要解决市场营销、B2B销售、医疗保健、金融技术等行业特定问题。
这些新应用程序专注于嵌入人工智能和机器学习,从而企业在进行更新和改进时,只需依赖这些开发人员,而无需大型内部数据科学家团队。
有人将这称之为人工智能和机器学习商品化,但更准确地说,你可以将其视为人工智能和机器学习的专业化。
如果你熟悉90年代后期从流程再造(Reengineering)到企业资源计划(ERP)的过渡,其实这是一回事。最初,流程再造呼吁公司使用复杂的定制IT解决方案来改进流程,因为当时还不存在标准化解决方案。这为Oracle、PeopleSoft、SAP等采用集成ERP的企业带来了机遇。我们的行业目前正在经历同样的变化。
这些新的企业都致力于在各自特定领域提供广泛的解决方案,但不可避免地最终得到不太大的ERP规模平台。
还要注意中小型公司中人工智能和机器学习的采用率,这些公司不再需要大型数据科学团队,而可以完全依赖定制的开发模型。
预测3:
数据工程师和数据分析师的崛起
这并不是说数据科学家以及不受欢迎了,远非如此。当你缺乏某种技能时,市场会以不同的方式填补这种短缺。
一种方法是通过上文讨论的行业和流程特定智能应用,这些应用程序不需要大量的内部数据科学家。
第二种方法是自动机器学习平台在迅速涌现。这意味着效率的提高,更少的数据科学家能够完成更多的工作。
模型的数量没有减少,而是增加了,这将工作负荷转移到具备两方面技能的数据工程师上。
第一是能够创建数据科学所需的基础架构,如数据湖和Spark实例。
第二是采用模型,确保模型在操作系统中实现,并跟踪模型的准确性和更新。
一些数据工程师还负责数据操作,确保数据流干净和预处理环节。
分析平台的另一个发展是视觉分析和数据可视化工具的发展。如今,这些工具大多与数据科学工具集完全集成,让数据分析师和高层能从中提取更多价值,甚至指导分析工作。他们不会取代数据科学家,但强化了高级分析中的团队作用。
预测4:
神经形态芯片:人工智能与物联网走向前沿
两种不同的技术同时达到半成熟阶段,从而解决长期存在的延迟问题。
例如,当你想用移动设备自动将文本或图像外来词翻译成其他语言时,你的设备将信号发送到云端进行翻译,然后传回设备。
谷歌等即时翻译服务已经从RNN转为专门的CNN结构,称为时间卷积网,因为RNN 不能很好地适应大规模并行处理,而CNN可以。这样能够减少延迟,但仍然保证信号的完整传输。
解决这个问题的两种技术之一是5G网络。5G速度更快,但其真正的好处是能够承载的流量密度。这能够让一切信息都能在互联网上传输,具体的传输量还有待观察。
第二种解决方案是引入新的且更好的神经形态芯片(又称脉冲神经网络)。我们希望这些全新的神经网络能够实现通用人工智能,虽然这还有很长的路要走。
如今,主要的芯片制造商和几家初创公司都在发布现在正在发布脉冲神经芯片,专门针对芯片上的CNN和RNN型号进行了优化。其中一些还针对极低功耗进行了优化。
这些特性结合在一起非常适合将深度学习转移到网络边缘的芯片上。从今年开始,随着这些新功能的出现,物联网和其他流媒体数据应用程序将出现爆炸式增长。
预测5:
不同的人工智能框架将学会相互交流
现在,文本、语音、图像和视频模型已成为主流,我们遇到了意想不到的障碍。在一个框架(Caffe2、PyTorch、Apache MXNet、Microsoft Cognitive Toolkit和TensorFlow)上构建的模型无法轻松移植到不同的框架。
幸运的是,这个痛点推动了创新。AWS、Facebook和Microsoft合作构建了开放式神经网络交换(ONNX),使模型可以在不同的框架上实现互操作。
随着开发人员、应用程序和设备之间共享的模型数量越来越多,ONNX将成为今年的关键技术。
以上就是2019年数据科学、机器学习和人工智能领域的相关预测。让我们拭目以待,期待这些领域在今年的发展和创新。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13