京公网安备 11010802034615号
经营许可证编号:京B2-20210330
用机器学习构建O(N)复杂度的排序算法,可在GPU和TPU上加速计算
排序一直是计算机科学中最为基础的算法之一,从简单的冒泡排序到高效的桶排序,我们已经开发了非常多的优秀方法。但随着机器学习的兴起与大数据的应用,简单的排序方法要求在大规模场景中有更高的稳定性与效率。中国科技大学和兰州大学等研究者提出了一种基于机器学习的排序算法,它能实现
O(N) 的时间复杂度,且可以在 GPU 和 TPU 上高效地实现并行计算。这篇论文在 Reddit
上也有所争议,我们也希望机器学习能在更多的基础算法上展现出更优秀的性能。
排序,作为数据上的基础运算,从计算伊始就有着极大的吸引力。虽然当前已有大量的卓越算法,但基于比较的排序算法对?(N log N)
比较有着根本的需求,也就是 O(N log N)
时间复杂度。近年来,随着大数据的兴起(甚至万亿字节的数据),效率对数据处理而言愈为重要,研究者们也做了许多努力来提高排序算法的效率。
大部分顶尖的排序算法采用并行计算来处理大数据集,也取得了卓越的成果。例如,2015 年阿里巴巴开发的 FuxiSort,就是在 Apsara
上的分布式排序实现。FuxiSort 能够在随机非偏态(non-skewed)数据集上用 377 秒完成 100TB 的 Daytona
GraySort 基准,在偏态数据集上的耗时是 510 秒,而在 Indy GraySort 基准上的耗时是 329 秒。到了 2016 年,在
Indy GraySort 基准上,Tencent Sort 排序 100TB 数据时达到了 60.7TB/min
的速度,使用的是为超大数据中心优化过的包含 512 个 OpenPOWER 服务器集群。然而,这些算法仍旧受下边界复杂度和网络耗时的限制。
另一方面,机器学习在近年来发展迅速,已经在多个领域中得到广泛应用。在 2012 年,使用深度卷积神经网络实现 ImageNet
图像的接近误差减半的分类是一项重大突破,并使深度学习迅速被计算机视觉社区所接受。在 2016 年 3 月,AlphaGo
使用神经网络在人工智能的重大挑战即围棋中打败了世界冠军李世石。机器学习的巨大成功表明计算机 AI
可以在复杂任务中超越人类知识,即使是从零开始。在这之后,机器学习算法被广泛应用到了多种领域例如人类视觉、自然语言理解、医学图像处理等,并取得了很高的成就。
由人类大脑结构启发而来的神经网络方法拥有输入层、输出层和隐藏层。隐藏层由多个链接人工神经元构成。这些神经元连接强度根据输入和输出数据进行调整,以精确地反映数据之间的关联。神经网络的本质是从输入数据到输出数据的映射。一旦训练阶段完成,我们可以应用该神经网络来对未知数据进行预测。这就是所谓的推理阶段。推理阶段的精度和效率启发研究者应用机器学习技术到排序问题上。在某种程度上,可以将排序问题看成是从数据到其在数据集位置的映射。
在本文中,研究者提出了一个复杂度为 O(N·M)的使用机器学习的排序算法,其在大数据上表现得尤其好。这里 M
是表示神经网络隐藏层中的神经元数量的较小常数。我们首先使用一个 3
层神经网络在一个小规模训练数据集上训练来逼近大规模数据集的分布。然后使用该网络来评估每个位置数据在未来排序序列中的位置。在推理阶段,我们不需要对两个数据之间进行比较运算,因为我们已经有了近似分布。在推理阶段完成之后,我们得到了几乎排序好的序列。因此,我们仅需要应用
O(N) 时间复杂度的运算来得到完全排序的数据序列。此外,该算法还可以应用到稀疏哈希表上。
算法
若假定我们有一个实数序列 S,它的长度为 N、上边界和下边界分别为 x_max 和 x_min。对于一个有效的排序算法,我们需要交换 x_i
的位置来确保新的序列 S' 是经过排序的。假设一个实数 x_i 在序列 S' 中的位置为 r_i,那么我们可以将排序问题视为一个双映射函数
G(x_i)=r_i。如果我们可以预先求得这个函数,那么排序算法的复杂度就为 O(N)。实际上,如果序列 S 中所有的实数都来自同一分布
f(x),且当 N 足够大时,那么 x_i 在新序列 S' 中的排位 r_i 将近似等于:

其中 F 为数据的概率分布函数,且当 N 趋向于无穷大时,表达式左右两边取等号。
这样形式化排序问题的困难时函数 G(x) 通常是很难推导的,概率密度函数 f(x) 同样也如此。然而当我们处理大数据序列时,N
会足够大以令序列保持一些统计属性。因此如果我们能推出概率密度函数 f(x),那么就有机会根据上面所示的方程 1 降低排序算法的复杂度到
O(N)。
在这一篇论文中,作者们应用了广义支持向量机(General Vector Machine,GVM)来逼近概率密度函数 f(x)。这种 GVM
是带有一个隐藏层的三层神经网络,且它的结构展示在以下图 1 中。GVM 的学习过程基于蒙特卡洛算法而不是反向传播,作者们也发现 GVM
非常适合拟合函数。
在该神经网络中,输入层仅有一个神经元且输入是用于拟合函数的 x_i,输出层也只有一个神经元,输出为 y_i。研究者修改了隐藏层的神经元数量为
M=100。实际在某种程度上,隐藏层的神经元越多拟合的精度就越大,但同时也伴随着过拟合问题,以及计算效率降低的问题。
N 个实数的排序估计过程仅需要 O(N·M) 的时间。M 与 N 是互相独立的,且在理论分析上 M
是没有下界的。例如如果数据序列服从高斯分布且我们只使用一个隐藏神经元,那么计算复杂度就为
log(N)。特别地,我们也可以用多个神经元拟合高斯分布,神经元的数量依赖于机器学习方法。
在预测过程中,这种算法不需要比较和交换运算,并且每个数据的排序估计都是互相独立的,这使得并行计算变得高效且网络负载小。除了高效并行计算之外,由于机器学习需要矩阵运算,它还适用于在 GPU 或 TPU 上工作以实现加速 [19]。
实验
如图 2 所示,我们选择两种分布进行实验:均匀分布和截尾正态分布。

图 2:数据分布。(a)截尾正态分布和(b)均匀分布的 107 个数据点。(c)截尾正态分布和(d)均匀分布的训练序列分布的 103 个数据点。紫色实线是解析分布,粉色点线是实验数据。
图 3 对比了 Tim Sorting 和 Machine Learning Sorting 的运行时间。

图
3:(a)截尾正态分布的数据数量和时间复杂度的关系。(b)截尾正态分布的数据数量和时间复杂度离均差的关系。(c)均匀分布的数据数量和时间复杂度的关系。(d)均匀分布的数据数量和时间复杂度离均差的关系,研究者使用了
102 次实现的总体均值来获得结果。
我们提出了一种基于机器学习方法的 O(N) 排序算法,其在大数据排序应用上有巨大的潜力。该排序算法可以应用到并行排序,且适用于 GPU 或 TPU 加速。此外,我们还将该算法应用到了稀疏哈希表上。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28随着大数据技术的快速普及,各行各业积累了海量的用户数据、交易数据、生产数据与行为数据。单纯的数据统计与报表分析只能呈现表 ...
2026-05-28在Python网络请求、接口测试、数据爬取、业务对接开发中,Requests库是最简洁、最高效的HTTP请求工具,凭借简洁的语法、完善的适 ...
2026-05-272025 年,零售与服务行业的竞争已从 “经验驱动” 全面转向 “数据驱动”。中小企业门店普遍面临数据零散、分析浅层、决策凭感觉 ...
2026-05-27 很多数据分析师每天都在写SQL,但当被问到“数据查询语言(DQL)的本质是什么”“SELECT语句中各子句的书写顺序与实际执行顺 ...
2026-05-27在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25 很多数据分析师精通Excel函数和透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系 ...
2026-05-25数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21