京公网安备 11010802034615号
经营许可证编号:京B2-20210330
用机器学习构建O(N)复杂度的排序算法,可在GPU和TPU上加速计算
排序一直是计算机科学中最为基础的算法之一,从简单的冒泡排序到高效的桶排序,我们已经开发了非常多的优秀方法。但随着机器学习的兴起与大数据的应用,简单的排序方法要求在大规模场景中有更高的稳定性与效率。中国科技大学和兰州大学等研究者提出了一种基于机器学习的排序算法,它能实现
O(N) 的时间复杂度,且可以在 GPU 和 TPU 上高效地实现并行计算。这篇论文在 Reddit
上也有所争议,我们也希望机器学习能在更多的基础算法上展现出更优秀的性能。
排序,作为数据上的基础运算,从计算伊始就有着极大的吸引力。虽然当前已有大量的卓越算法,但基于比较的排序算法对?(N log N)
比较有着根本的需求,也就是 O(N log N)
时间复杂度。近年来,随着大数据的兴起(甚至万亿字节的数据),效率对数据处理而言愈为重要,研究者们也做了许多努力来提高排序算法的效率。
大部分顶尖的排序算法采用并行计算来处理大数据集,也取得了卓越的成果。例如,2015 年阿里巴巴开发的 FuxiSort,就是在 Apsara
上的分布式排序实现。FuxiSort 能够在随机非偏态(non-skewed)数据集上用 377 秒完成 100TB 的 Daytona
GraySort 基准,在偏态数据集上的耗时是 510 秒,而在 Indy GraySort 基准上的耗时是 329 秒。到了 2016 年,在
Indy GraySort 基准上,Tencent Sort 排序 100TB 数据时达到了 60.7TB/min
的速度,使用的是为超大数据中心优化过的包含 512 个 OpenPOWER 服务器集群。然而,这些算法仍旧受下边界复杂度和网络耗时的限制。
另一方面,机器学习在近年来发展迅速,已经在多个领域中得到广泛应用。在 2012 年,使用深度卷积神经网络实现 ImageNet
图像的接近误差减半的分类是一项重大突破,并使深度学习迅速被计算机视觉社区所接受。在 2016 年 3 月,AlphaGo
使用神经网络在人工智能的重大挑战即围棋中打败了世界冠军李世石。机器学习的巨大成功表明计算机 AI
可以在复杂任务中超越人类知识,即使是从零开始。在这之后,机器学习算法被广泛应用到了多种领域例如人类视觉、自然语言理解、医学图像处理等,并取得了很高的成就。
由人类大脑结构启发而来的神经网络方法拥有输入层、输出层和隐藏层。隐藏层由多个链接人工神经元构成。这些神经元连接强度根据输入和输出数据进行调整,以精确地反映数据之间的关联。神经网络的本质是从输入数据到输出数据的映射。一旦训练阶段完成,我们可以应用该神经网络来对未知数据进行预测。这就是所谓的推理阶段。推理阶段的精度和效率启发研究者应用机器学习技术到排序问题上。在某种程度上,可以将排序问题看成是从数据到其在数据集位置的映射。
在本文中,研究者提出了一个复杂度为 O(N·M)的使用机器学习的排序算法,其在大数据上表现得尤其好。这里 M
是表示神经网络隐藏层中的神经元数量的较小常数。我们首先使用一个 3
层神经网络在一个小规模训练数据集上训练来逼近大规模数据集的分布。然后使用该网络来评估每个位置数据在未来排序序列中的位置。在推理阶段,我们不需要对两个数据之间进行比较运算,因为我们已经有了近似分布。在推理阶段完成之后,我们得到了几乎排序好的序列。因此,我们仅需要应用
O(N) 时间复杂度的运算来得到完全排序的数据序列。此外,该算法还可以应用到稀疏哈希表上。
算法
若假定我们有一个实数序列 S,它的长度为 N、上边界和下边界分别为 x_max 和 x_min。对于一个有效的排序算法,我们需要交换 x_i
的位置来确保新的序列 S' 是经过排序的。假设一个实数 x_i 在序列 S' 中的位置为 r_i,那么我们可以将排序问题视为一个双映射函数
G(x_i)=r_i。如果我们可以预先求得这个函数,那么排序算法的复杂度就为 O(N)。实际上,如果序列 S 中所有的实数都来自同一分布
f(x),且当 N 足够大时,那么 x_i 在新序列 S' 中的排位 r_i 将近似等于:

其中 F 为数据的概率分布函数,且当 N 趋向于无穷大时,表达式左右两边取等号。
这样形式化排序问题的困难时函数 G(x) 通常是很难推导的,概率密度函数 f(x) 同样也如此。然而当我们处理大数据序列时,N
会足够大以令序列保持一些统计属性。因此如果我们能推出概率密度函数 f(x),那么就有机会根据上面所示的方程 1 降低排序算法的复杂度到
O(N)。
在这一篇论文中,作者们应用了广义支持向量机(General Vector Machine,GVM)来逼近概率密度函数 f(x)。这种 GVM
是带有一个隐藏层的三层神经网络,且它的结构展示在以下图 1 中。GVM 的学习过程基于蒙特卡洛算法而不是反向传播,作者们也发现 GVM
非常适合拟合函数。
在该神经网络中,输入层仅有一个神经元且输入是用于拟合函数的 x_i,输出层也只有一个神经元,输出为 y_i。研究者修改了隐藏层的神经元数量为
M=100。实际在某种程度上,隐藏层的神经元越多拟合的精度就越大,但同时也伴随着过拟合问题,以及计算效率降低的问题。
N 个实数的排序估计过程仅需要 O(N·M) 的时间。M 与 N 是互相独立的,且在理论分析上 M
是没有下界的。例如如果数据序列服从高斯分布且我们只使用一个隐藏神经元,那么计算复杂度就为
log(N)。特别地,我们也可以用多个神经元拟合高斯分布,神经元的数量依赖于机器学习方法。
在预测过程中,这种算法不需要比较和交换运算,并且每个数据的排序估计都是互相独立的,这使得并行计算变得高效且网络负载小。除了高效并行计算之外,由于机器学习需要矩阵运算,它还适用于在 GPU 或 TPU 上工作以实现加速 [19]。
实验
如图 2 所示,我们选择两种分布进行实验:均匀分布和截尾正态分布。

图 2:数据分布。(a)截尾正态分布和(b)均匀分布的 107 个数据点。(c)截尾正态分布和(d)均匀分布的训练序列分布的 103 个数据点。紫色实线是解析分布,粉色点线是实验数据。
图 3 对比了 Tim Sorting 和 Machine Learning Sorting 的运行时间。

图
3:(a)截尾正态分布的数据数量和时间复杂度的关系。(b)截尾正态分布的数据数量和时间复杂度离均差的关系。(c)均匀分布的数据数量和时间复杂度的关系。(d)均匀分布的数据数量和时间复杂度离均差的关系,研究者使用了
102 次实现的总体均值来获得结果。
我们提出了一种基于机器学习方法的 O(N) 排序算法,其在大数据排序应用上有巨大的潜力。该排序算法可以应用到并行排序,且适用于 GPU 或 TPU 加速。此外,我们还将该算法应用到了稀疏哈希表上。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27在数字化时代,企业积累的海量数据如同散落的珍珠,若缺乏有效的梳理与分类,终将难以发挥实际价值。CDA(Certified Data Analys ...
2026-02-27在问卷调研中,我们常遇到这样的场景:针对同一批调查对象,在不同时间点(如干预前、干预后、随访期)发放相同或相似的问卷,收 ...
2026-02-26在销售管理的实操场景中,“销售机会”是核心抓手—— 从潜在客户接触到最终成交,每一个环节都藏着业绩增长的关键,也暗藏着客 ...
2026-02-26在CDA数据分析师的日常工作中,数据提取、整理、加工是所有分析工作的起点,而“创建表”与“创建视图”,则是数据库操作中最基 ...
2026-02-26在机器学习分析、数据决策的全流程中,“数据质量决定分析价值”早已成为行业共识—— 正如我们此前在运用机器学习进行分析时强 ...
2026-02-25在数字化时代,数据已成为企业决策、行业升级的核心资产,但海量杂乱的原始数据本身不具备价值—— 只有通过科学的分析方法,挖 ...
2026-02-25在数字化时代,数据已成为企业核心资产,而“数据存储有序化、数据分析专业化、数据价值可落地”,则是企业实现数据驱动的三大核 ...
2026-02-25在数据分析、机器学习的实操场景中,聚类分析与主成分分析(PCA)是两种高频使用的统计与数据处理方法。二者常被用于数据预处理 ...
2026-02-24在聚类分析的实操场景中,K-Means算法因其简单高效、易落地的特点,成为处理无监督分类问题的首选工具——无论是用户画像分层、 ...
2026-02-24数字化浪潮下,数据已成为企业核心竞争力,“用数据说话、用数据决策”成为企业发展的核心逻辑。CDA(Certified Data Analyst) ...
2026-02-24CDA一级知识点汇总手册 第五章 业务数据的特征、处理与透视分析考点52:业务数据分析基础考点53:输入和资源需求考点54:业务数 ...
2026-02-23CDA一级知识点汇总手册 第四章 战略与业务数据分析考点43:战略数据分析基础考点44:表格结构数据的使用考点45:输入数据和资源 ...
2026-02-22CDA一级知识点汇总手册 第三章 商业数据分析框架考点27:商业数据分析体系的核心逻辑——BSC五视角框架考点28:战略视角考点29: ...
2026-02-20CDA一级知识点汇总手册 第二章 数据分析方法考点7:基础范式的核心逻辑(本体论与流程化)考点8:分类分析(本体论核心应用)考 ...
2026-02-18第一章:数据分析思维考点1:UVCA时代的特点考点2:数据分析背后的逻辑思维方法论考点3:流程化企业的数据分析需求考点4:企业数 ...
2026-02-16