京公网安备 11010802034615号
经营许可证编号:京B2-20210330
【每周一期-数据蒋堂】非常规聚合
标准SQL中提供了五种最常用的聚合运算:SUM/COUNT/AVG/MIN/MAX。观察这几个运算,我们发现它们都可以看成是一个以集合为参数返回单值的函数,我们就先把这个共同点理解为聚合运算的定义,把集合变成单值,多个值变成一个值,也就是发生了"聚合“,所以叫聚合运算。
那么很显然,有集合的时候就可以应用聚合运算了,所以SUM/COUNT这些运算可以针对一个数据表(记录集合)实施。
分组运算的结果是一批分组子集,那么每个子集上也可以应用聚合运算,这也就是SQL的分组运算了。其实针对全集的聚合运算也可以理解为只分了一个组的特殊分组(也是个完全划分),这样理解后,我们可以认为聚合运算总是发生在分组运算之后(但分组运算后不一定总有聚合运算,前面已说过)。而且,还可以反过来说,只要被认定为是聚合运算(符合前述定义的运算),就一定可以用在分组之后。我们在下面会看到,这个理解将大幅度地扩展分组+聚合运算的应用范围。
除了这五种聚合运算外,有的数据库还提供了方差、标准差等聚合函数,其性质和这五种差不多,可以称为是常规的聚合运算。我们下面来研究业务上有意义的其它形式聚合运算。
1、返回记录
上述的常规聚合都是针对数值的运算,特别地,对于结构化数据来说,是针对某个字段(或表达式)的运算,返回值也是这些数值的运算结果。但有时候我们关心的不是结果数值本身,而是与结果数值相关的信息。
比如我们想从日志表中找出某个用户第一次登录时用的IP地址,而不是登录时刻。用标准SQL写这个运算大概是这样:
SELECT ip_address FROM LogTable WHERE user=? AND logintime=
(SELECT MIN(logintime) FROM LogTable WHERE user=?)
用子查询先计算出该用户的第一次登录的时刻,再查找出该时刻时用到的IP地址,这要把数据集遍历两次。
ORACLE提供了一个KEEP函数,可以不用子查询写出这样的运算:
SELECT MIN(ip_address) KEEP(DENSE_RANK FIRST ORDER BY logintime) FROM LogTable WHERE user=?
但是,我们关心的可能还不止是IP地址,还可能是日志表中的其它字段,比如所用浏览器、是否移动端等,其实就是关心最小值对应的那条完整记录。而由于SQL缺乏离散性,即使有KEEP函数,也不容易写出这种运算,要么每个字段分别用KEEP,要么还是用子查询遍历两次,都很繁琐。
如果有一个用于返回最大值/最小值对应记录而非值本身的聚合函数,那这个运算写起来就简单了,也只要遍历一次:
=LogTable.select(user=?).minp(logintime)
像前面说的,这样的聚合运算还可以用在GROUP中,比如找出每个用户首次登录的日志记录
=LogTable.group(user).(~.minp(logintime))
类似地,还可以有maxp方法用于返回最大值对应记录。
日志记录常常本来就是按事件发生时刻有序,利用这个特点时就不需要再用比较来计算最小值了,而是直接取出第一条即可。
=LogTable.select(user=?).first() // 聚合函数first返回第1个成员
在分组中也可以:
=LogTable.group(user).(~.first())
当然实际编码时也可以直接取集合成员,这里写成first只是为了强调可以把取某成员的动作理解为一种聚合运算。
这种运算较为常用,我们可以为group函数做一个选项:
=LogTable.group@1(user)
SQL建立在无序集合概念上,无法保证返回记录的次序,想写出这种运算就又需要人为制造序号后再用过滤条件来做。
2、返回集合
我们把上面的问题改一下:找出一群人中年龄最小的那些人的姓名。
和前述问题不同的是,同一个用户不会有多个相同的登录时间,但一批人中则可能有年龄相同的人,年龄最小的人可能不止一个。minp函数的返回值应当是一个集合才合理。
仔细观察我们在文章开始对聚合运算的定义,我们会发现,其实返回单值的要求并无必要,只要参数是集合,随便返回什么东西都可以认定为是聚合运算,这种定义下,返回集合的minp/maxp仍然可以作为聚合运算处理。
需要返回集合的聚合运算中,更常见是topN。
SQL并不把topN理解成一种聚合运算,而只是返回结果集时的一种修饰符。原理上,SQL会先把完整的结果集计算出来,然后再只取前N条返回。topN总是在排序动作之后,大集合的排序是个时间成本很高的动作,但其实只做topN并不需要全集的排序。这时候只能依靠数据库在工程上的优化,但这并不是总能做好的。另外,只作为结果集的修饰,那就不能把这个运算实施到分组子集上了,而且运算复杂化后优化也很难做了。
把topN理解成聚合运算后,一切都变得很轻松
=a=LogTable.select(user=?).top(logingtime,-2), a(2)-a(1) //某用户最后的两次登录时间间隔
=LogTable.groups(user;(a=~.top(logintime,-2),a(2)-a(1))) //每个用户最后的两次登录时间间隔
而且实施计算也不需要刻意地工程上优化,在分组后使用也能获得高性能。
topN也有返回记录的情况,即取出某个字段(表达式)在前N名的对应记录。和minp/maxp类似地,这需要再设计一个函数。
同样的,有序情况也会发生,像前面的日志计算,如果假定日志表已经针对事件时刻有序,那可以不必再用topN去做比较运算了。
=a=LogTable.select(user=?).last(2),a(2)-a(1) //聚合函数last(n)返回最后n个成员
=LogTable.groups(user;(a=~.last(2),a(2)-a(1)))
类似地,last函数也可以写成取集合成员的形式。
这里讨论了非常规聚合的两种常见情况,都是SQL不易支持的。当然按照定义还会有更多形式的聚合运算,即使这两种情况也还会有许多变种,比如取出排序位置居中的成员、取出针对某一字段的唯一值(DISTINCT)集合等。深入理解聚合运算及其与分组运算的关系,将能够扩展这些运算的应用范围,对计算的描述和实施都有不小的意义。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04