京公网安备 11010802034615号
经营许可证编号:京B2-20210330
在企业数据分析场景中,单一维度的统计(如 “总销售额”“用户总数”)往往无法满足业务决策的深度需求。而 SQL 多个聚合函数的组合使用(如同时调用SUM、COUNT、AVG、MAX等),能帮助 CDA(Certified Data Analyst)数据分析师从 “量、率、值、极值” 等多维度拆解数据,快速挖掘业务背后的量化规律。这种分析方式不仅提升了数据解读的全面性,更成为 CDA 分析师连接技术与业务、输出精准决策依据的核心工具。
SQL 聚合函数是对数据进行汇总计算的基础工具,而 “多个聚合” 并非简单的函数叠加,而是结合GROUP BY(分组)、HAVING(聚合后筛选)等语法,实现 “多指标同步计算 + 维度分层分析” 的高效分析模式。其核心价值体现在三大维度,完美适配企业业务决策的需求:
单一聚合函数仅能回答 “某一个问题”(如SUM(销售额)回答 “总卖了多少钱”),而多个聚合可同时输出 “一组关联指标”,完整呈现业务现状。例如,零售企业分析 “各门店销售表现” 时,可通过SUM(销售额)(总营收)、COUNT(订单ID)(订单总量)、AVG(客单价)(客单价 = 销售额 / 订单数)、MAX(单笔金额)(最高订单额)四个聚合函数同步计算,既知晓 “卖了多少”,也清楚 “订单量如何”“用户消费能力怎样”“是否有高价值订单”,避免因单一指标导致的决策片面性。
结合GROUP BY与HAVING,多个聚合函数可实现 “按维度分组计算 + 按聚合结果筛选”,快速定位业务中的核心群体或异常环节。例如,电商平台分析 “用户消费行为” 时,按 “用户等级”(普通 / 银卡 / 金卡 / 钻石)分组,同时计算COUNT(DISTINCT 用户ID)(该等级用户数)、SUM(消费金额)(总消费)、AVG(复购次数)(平均复购),再通过HAVING SUM(消费金额) > 100万筛选高贡献等级,可直接锁定 “金卡、钻石用户” 为核心客群,为后续精准运营提供明确方向。
在传统分析中,若需获取多维度指标,可能需编写多段 SQL 分别计算(如先算总销售额,再算订单数,最后手动关联结果)。而多个聚合函数可通过一段 SQL 完成多指标计算,大幅减少代码量与执行时间。例如,分析 “月度商品销售数据” 时,一段 SQL 即可同步输出SUM(销量)(总销量)、AVG(售价)(平均售价)、MIN(库存)(最低库存)、MAX(上架时间)(最新上架商品时间),CDA 分析师无需反复操作,将更多精力投入到洞察解读中。
CDA 分析师对 SQL 多个聚合的运用,始终围绕 “解决业务问题” 展开。以下三大核心场景,覆盖了零售、电商、互联网等多行业的高频需求,且每个场景均需结合 “多聚合函数 + 分组筛选” 实现深度分析:
企业日常运营需监控 “营收、用户、效率” 等多维度核心指标,SQL 多个聚合是指标计算的核心工具。以零售企业 “月度运营分析” 为例,CDA 分析师需计算的指标及对应聚合组合如下:
| 业务指标 | SQL 聚合函数组合 | 业务意义 |
|---|---|---|
| 月度总营收 | SUM(订单金额) |
整体营收规模 |
| 月度订单总量 | COUNT(DISTINCT 订单ID) |
订单增长趋势 |
| 月度客单价 | SUM(订单金额) / COUNT(DISTINCT 订单ID)(或AVG(订单金额),需排除异常订单) |
用户消费能力 |
| 高价值订单占比 | SUM(CASE WHEN 订单金额 > 500 THEN 1 ELSE 0 END) / COUNT(DISTINCT 订单ID) |
高价值用户贡献度 |
| 库存周转效率 | SUM(销量) / AVG(库存数量) |
商品库存消化速度 |
通过一段 SQL 即可同步输出上述指标,例如:
SELECT
DATE_FORMAT(下单时间, '%Y-%m') AS 月度,
SUM(订单金额) AS 月度总营收,
COUNT(DISTINCT 订单ID) AS 月度订单总量,
ROUND(SUM(订单金额)/COUNT(DISTINCT 订单ID), 2) AS 月度客单价,
ROUND(SUM(CASE WHEN 订单金额 > 500 THEN 1 ELSE 0 END)/COUNT(DISTINCT 订单ID), 4) AS 高价值订单占比,
ROUND(SUM(销量)/AVG(库存数量), 2) AS 库存周转效率
FROM 销售数据表
WHERE 下单时间 BETWEEN '2025-01-01' AND '2025-06-30'
GROUP BY 月度
ORDER BY 月度;
该结果可直接用于管理层月度复盘,快速判断 “营收是否达标”“客单价是否提升”“库存周转是否正常”。
在用户运营中,CDA 分析师需通过多个聚合函数按 “用户属性”(如等级、地域、注册时间)分组,拆解不同群体的行为特征,实现用户分层。以电商平台 “用户复购分析” 为例,目标是找到 “高复购、高消费” 的核心用户,SQL 聚合组合如下:
SELECT
用户等级,
COUNT(DISTINCT 用户ID) AS 用户数,
AVG(复购次数) AS 平均复购次数,
SUM(消费金额) AS 总消费金额,
MAX(最近下单时间) AS 最近活跃时间
FROM 用户消费表
WHERE 注册时间 < '2025-01-01' -- 筛选老用户
GROUP BY 用户等级
HAVING AVG(复购次数) >= 3 -- 仅保留复购3次以上的群体
ORDER BY 总消费金额 DESC;
分析结果显示:“钻石等级用户” 的平均复购次数达 5.2 次,总消费金额占老用户的 45%,且最近活跃时间集中在近 7 天 —— 这一结论直接指导运营团队针对钻石用户推出 “专属会员日” 活动,进一步提升其复购率。
企业业务中常出现 “销量突降”“成本异常” 等问题,CDA 分析师可通过多个聚合函数对比 “正常周期” 与 “异常周期” 的数据,定位风险根源。以快消品牌 “某区域门店成本异常” 为例,通过多个聚合拆解成本构成:
SELECT
门店ID,
SUM(食材成本) AS 总食材成本,
SUM(人力成本) AS 总人力成本,
AVG(单店租金) AS 平均租金,
SUM(食材成本+人力成本+租金) AS 总成本,
SUM(销售额) AS 总销售额,
ROUND((总成本/销售额)*100, 2) AS 成本率
FROM 门店经营表
WHERE 经营时间 BETWEEN '2025-07-01' AND '2025-07-31' -- 异常月份
GROUP BY 门店ID
HAVING 成本率 > 60% -- 筛选成本率超标的门店
ORDER BY 成本率 DESC;
结果发现:“门店 A01” 的成本率高达 75%,进一步拆解显示其 “食材成本” 是其他门店的 2 倍,且AVG(食材损耗率)达 15%(正常门店为 5%)—— 最终定位问题为 “门店 A01 食材存储不当导致损耗过高”,企业据此优化了该门店的食材管理流程,1 个月内成本率降至 55%。
SQL 多个聚合虽高效,但实际使用中易因 “分组逻辑混乱”“函数搭配错误” 导致结果偏差。CDA 分析师需掌握三大实操要点,确保分析结果准确且高效:
GROUP BY是多个聚合的核心,需遵循 “非聚合字段必须包含在 GROUP BY 中” 的规则(部分数据库如 MySQL 可放宽,但易导致结果不可控)。例如,若需按 “月度” 和 “门店类型” 分组计算销售额与订单数,GROUP BY必须同时包含这两个字段:
-- 正确写法
SELECT 月度, 门店类型, SUM(销售额), COUNT(订单ID)
FROM 销售表
GROUP BY 月度, 门店类型;
-- 错误写法(门店类型未在GROUP BY中,结果随机)
SELECT 月度, 门店类型, SUM(销售额), COUNT(订单ID)
FROM 销售表
GROUP BY 月度;
CDA 分析师需根据业务目标确定分组维度,避免 “维度冗余”(如无需分组时强行 GROUP BY)或 “维度缺失”(如漏分组导致数据混淆)。
不同聚合函数的计算逻辑不同,搭配时需符合业务逻辑:
避免 “无关函数组合”:如SUM(订单金额)与COUNT(用户ID)搭配时,需确认 “一个用户可能有多笔订单”,避免误将 “订单金额总和” 与 “用户数” 直接关联;
用CASE WHEN实现条件聚合:如需计算 “不同支付方式的销售额占比”,可通过SUM(CASE WHEN 支付方式='支付宝' THEN 订单金额 ELSE 0 END)实现,无需多次查询;
注意数值精度:用ROUND()函数保留合理小数位(如客单价保留 2 位,占比保留 4 位),避免结果冗长。
WHERE与HAVING,精准控制筛选时机WHERE用于 “聚合前筛选数据”(如排除测试订单),HAVING用于 “聚合后筛选结果”(如筛选销售额超 100 万的门店),二者不可混淆。例如,筛选 “2025 年 Q2 正常订单中,销售额超 50 万的门店”:
-- 正确写法:WHERE先筛正常订单,HAVING再筛销售额
SELECT 门店ID, SUM(订单金额) AS 总销售额
FROM 销售表
WHERE 订单状态='正常' AND 下单时间 BETWEEN '2025-04-01' AND '2025-06-30'
GROUP BY 门店ID
HAVING SUM(订单金额) > 500000;
-- 错误写法:用WHERE筛选聚合结果(语法错误)
SELECT 门店ID, SUM(订单金额) AS 总销售额
FROM 销售表
WHERE 订单状态='正常' AND SUM(订单金额) > 500000
GROUP BY 门店ID;
某电商平台 2025 年 Q2 新用户留存率环比下降 12%,CDA 分析师通过 SQL 多个聚合函数拆解留存问题,具体步骤如下:
目标:找到 “留存率低的用户群体” 及 “影响留存的关键行为”;
数据:新用户注册表(含用户 ID、注册时间、注册渠道)、用户行为表(含用户 ID、访问次数、下单次数、收藏商品数)、订单表(含用户 ID、首单时间、首单金额)。
按 “注册渠道” 和 “首单行为” 分组,计算留存率相关指标:
SELECT
注册渠道,
是否首单(CASE WHEN 首单时间 IS NOT NULL THEN '有首单' ELSE '无首单' END),
COUNT(DISTINCT 用户ID) AS 新用户总数,
COUNT(DISTINCT CASE WHEN 7天内访问次数 >=1 THEN 用户ID ELSE NULL END) AS 7天留存用户数,
ROUND(COUNT(DISTINCT CASE WHEN 7天内访问次数 >=1 THEN 用户ID ELSE NULL END)/COUNT(DISTINCT 用户ID), 4) AS 7天留存率,
AVG(首单金额) AS 平均首单金额,
AVG(收藏商品数) AS 平均收藏数
FROM 新用户注册表
LEFT JOIN 用户行为表 ON 新用户注册表.用户ID = 用户行为表.用户ID
LEFT JOIN 订单表 ON 新用户注册表.用户ID = 订单表.用户ID
WHERE 注册时间 BETWEEN '2025-04-01' AND '2025-06-30'
GROUP BY 注册渠道, 是否首单
ORDER BY 7天留存率 DESC;
渠道差异:“短视频广告渠道” 的新用户 7 天留存率仅 18%(其他渠道平均 35%),且 “无首单” 用户占比达 60%;
行为影响:“有首单” 用户的 7 天留存率(45%)是 “无首单” 用户(12%)的 3.75 倍,且首单金额 > 200 元的用户留存率达 58%;
关联行为:“平均收藏数≥3” 的用户留存率(42%)显著高于 “收藏数 = 0” 的用户(15%)。
基于分析,CDA 分析师提出:
渠道优化:减少短视频广告的低质投放,重点投放 “社交平台渠道”(留存率 38%);
首单激励:对新用户推出 “首单满 200 减 50” 活动,提升首单转化率;
行为引导:新用户注册后推送 “收藏商品领优惠券” 活动,增加用户互动。
实施 1 个月后,平台新用户 7 天留存率提升至 32%,环比增长 20%。
在数据驱动决策的时代,SQL 多个聚合函数并非简单的技术工具,而是 CDA 分析师将 “数据” 转化为 “业务洞察” 的核心桥梁。它通过多指标同步量化,帮助分析师还原业务全貌;通过分组筛选,精准定位核心问题;通过高效计算,降低分析成本 —— 这些特性完美契合企业对 “快速、精准、全面” 的数据分析需求。
对于 CDA 分析师而言,掌握 SQL 多个聚合不仅需要熟悉语法规则,更需具备 “业务驱动技术” 的思维:明确分析目标后,选择合适的聚合函数组合与分组维度,避免陷入 “为技术而技术” 的误区。未来,随着企业数据量的增长与业务复杂度的提升,SQL 多个聚合将与 AI 建模、可视化工具进一步结合,成为 CDA 分析师推动企业数字化转型的重要能力之一。

数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在回归分析中,因子(即自变量)的筛选是构建高效、可靠回归模型的核心步骤——实际分析场景中,往往存在多个候选因子,其中部分 ...
2026-04-13在机器学习模型开发过程中,过拟合是制约模型泛化能力的核心痛点——模型过度学习训练数据中的噪声与偶然细节,导致在训练集上表 ...
2026-04-13在数据驱动商业升级的今天,商业数据分析已成为企业精细化运营、科学决策的核心手段,而一套规范、高效的商业数据分析总体流程, ...
2026-04-13主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-13在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-13在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09在数据可视化领域,折线图是展示时序数据、趋势变化的核心图表类型之一,其简洁的线条的能够清晰呈现数据的起伏规律。Python ECh ...
2026-04-09在数据驱动的时代,数据分析早已不是“凭经验、靠感觉”的零散操作,而是一套具备固定逻辑、标准化流程的系统方法——这就是数据 ...
2026-04-09长短期记忆网络(LSTM)作为循环神经网络(RNN)的重要改进模型,凭借其独特的门控机制(遗忘门、输入门、输出门),有效解决了 ...
2026-04-08在数据分析全流程中,数据质量是决定分析结论可靠性的核心前提,而异常值作为数据集中的“异类”,往往会干扰统计检验、模型训练 ...
2026-04-08在数字经济飞速发展的今天,数据已渗透到各行各业的核心场景,成为解读趋势、优化决策、创造价值的核心载体。而数据分析,作为挖 ...
2026-04-08在数据分析全流程中,数据处理是基础,图形可视化是核心呈现手段——前者负责将杂乱无章的原始数据转化为干净、规范、可分析的格 ...
2026-04-07在数据分析与统计推断中,p值是衡量假设检验结果显著性的核心指标,其本质是在原假设(通常为“无效应”“无差异”)成立的前提 ...
2026-04-07在数字经济深度渗透的今天,数据已成为企业生存发展的核心资产,企业的竞争本质已转变为数据利用能力的竞争。然而,大量来自生产 ...
2026-04-07Python凭借简洁的语法、丰富的生态库,成为算法开发、数据处理、机器学习等领域的首选语言。但受限于动态类型、解释性执行的特性 ...
2026-04-03在深度学习神经网络中,卷积操作是实现数据特征提取的核心引擎,更是让模型“看懂”数据、“解读”数据的关键所在。不同于传统机 ...
2026-04-03当数字化转型从企业的“战略口号”落地为“生存之战”,越来越多的企业意识到,转型的核心并非技术的堆砌,而是数据价值的深度挖 ...
2026-04-03在日常办公数据分析中,数据透视表凭借高效的汇总、分组功能,成为Excel、WPS等办公软件中最常用的数据分析工具之一。其中,“计 ...
2026-04-02