京公网安备 11010802034615号
经营许可证编号:京B2-20210330
很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题,用描述性统计就能解决。
小张是一名刚入行的数据分析师,第一次拿到公司销售数据时,面对数万行密密麻麻的数字,他感到无从下手。客户满意度是上升还是下降?销售业绩的波动大不大?哪个客户群体贡献最高?
这些问题看似简单,但在数据面前,如果没有方法,就只是一堆数字。
描述性统计分析,正是解决这一困境的核心能力。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析和分布形态,以及一些基本的统计图形。它不涉及推断或预测,其核心目的是“用简洁的方式呈现数据的核心特征”,将杂乱的原始数据转化为可理解的信息,回答“数据是什么样的”这一基础问题。
描述性统计的核心是通过量化指标揭示数据“是什么”,而非“为什么”,其指标体系可分为三大维度:集中趋势、离散程度和分布形态。
集中趋势反映数据的平均水平,是判断数据整体特征的首要工具。它回答了“数据的典型值是多少”这个问题。常用的集中趋势指标包括以下三种:
| 指标 | 定义 | 适用场景 | CDA考点提示 |
|---|---|---|---|
| 均值 | 所有数据的算术平均 | 数据呈对称分布、无异常值 | 对异常值敏感,若有极端值需结合中位数修正结论 |
| 中位数 | 排序后位于中间位置的数值 | 偏态分布或含异常值的数据 | 反映“大多数”情况,如薪资、房价分析的首选 |
| 众数 | 数据中出现频率最高的数值 | 分类数据或离散数据 | 一组数据可能没有众数或有多个众数 |
在实际业务中,这三个指标往往需要结合起来解读。例如,某公司员工薪资呈右偏分布(少数高管薪资极高),此时中位数(8000元/月)比均值(12000元/月)更能反映普通员工的真实薪资水平。
此外,在集中趋势分析中,还有一个重要的工具——四分位数。四分位数是通过Q1(25%分位数)、Q2(中位数,50%分位数)、Q3(75%分位数)将数据划分为四个等份的统计量。它是描述数据分布形态和识别异常值的有效工具。
离散程度衡量数据的分散程度,反映各变量值远离其中心值的程度。它回答了“数据之间的差异有多大”这个问题。离散程度是“风险评估”“稳定性分析”的关键环节。
常用的离散程度指标包括:
| 指标 | 定义 | 适用场景 | CDA考点提示 |
|---|---|---|---|
| 极差 | 最大值与最小值的差值 | 快速判断数据跨度 | 对异常值敏感,易受极端值影响 |
| 方差 | 每个数据与均值之差的平方的平均值 | 衡量数据的整体离散程度 | 单位是原单位的平方,解释性较差 |
| 标准差 | 方差的平方根 | 最常用的离散程度指标 | 单位与原数据相同,易于理解和比较 |
| 四分位距(IQR) | Q3与Q1的差值 | 识别异常值 | IQR=Q3-Q1,异常值通常定义为超出Q1-1.5IQR或Q3+1.5IQR的数值 |
| 变异系数 | 标准差与均值的比值 | 比较不同量纲数据的离散程度 | 消除单位影响,适用于跨指标比较 |
在实际应用中,标准差是业务分析中最常用的离散指标之一。例如,某连锁超市的日销售额标准差为2000元(均值为5万元),说明销售额波动可控;若标准差达1万元,则需排查门店运营问题。
案例:某金融平台通过四分位距筛选出“贷款金额超过Q3+1.5IQR”的客户,作为高风险群体重点审核,显著降低了坏账率。
分布形态是描述性统计分析中较为进阶的内容,它回答了“数据是如何分布的”这个问题。在统计研究中,常常假设总体数据服从正态分布,则需要利用偏度和峰度来判断样本数据是否符合这一假设。
分布形态的判断,主要包括以下几个方面:
偏态:指数据分布偏斜的程度,用偏态系数(SK)来测度。若偏态系数 > 0,数据呈右偏分布,即均值 > 中位数 > 众数;若偏态系数 < 0,数据呈左偏分布,即众数 > 中位数 > 均值。
峰态:指数据分布尖峭或平坦的程度,用峰态系数来测度。正态分布的峰度为0;峰度 > 0表示分布比正态分布更尖峭,数据更集中于均值附近;峰度 < 0表示分布更平坦,数据更分散。
理解分布形态,对于选择合适的分析方法和识别数据特征至关重要。
除了数值指标,描述性统计还离不开图表工具。CDA大纲中明确要求掌握以下统计图形:
| 图表类型 | 适用场景 | CDA考点提示 |
|---|---|---|
| 直方图 | 展示数值型数据的分布形态 | 观察数据是否呈正态分布,发现异常值 |
| 柱状图 | 比较不同类别的数值大小 | 分类变量对比的首选图表 |
| 箱型图 | 展示数据的五数概括和异常值 | 快速识别异常值,判断数据对称性 |
| 折线图 | 展示数据随时间的变化趋势 | 时间序列分析的核心图表 |
| 饼图 | 展示各类别占总体的比例 | 分类变量占比分析,适合少量类别 |
| 散点图 | 展示两个变量之间的关系 | 相关分析的基础图表 |
在实际分析中,建议先用描述性统计数值指标(均值、标准差、偏度等)快速了解数据的基本特征,再用图表(直方图、箱型图)直观呈现分布形态,两者结合才能全面把握数据的“画像”。
在进行描述性统计分析之前,必须先理解数据的变量类型。数据的计量尺度与变量类型是高频考点。数据的计量尺度和具体的统计方法息息相关,大致分为3类,分别是名义测量、次序测量和连续变量测量。
分类变量是最低的测量等级,其数值仅代表某些分类或属性,一般不做高低、大小区分。
典型示例:性别(1表示男性,2表示女性)、民族(1表示汉族,2表示回族等)。
描述性统计方法:频次/频数、百分比、累积频次与累积百分比(仅对顺序变量有意义)。
顺序变量的量化水平高于分类变量,用于测量的数值代表了一些有序分类。
典型示例:受教育程度(1表示小学、2表示中学、3表示大学)、满意度等级(1表示满意、2表示一般、3表示不满意)。
描述性统计方法:众数、频次、百分比、累积频次与累积百分比、四分位差等。
数值变量的量化程度最高,其取值是采用一定单位的实际测量值。数值变量可进一步细分为:
间距测量:可进行加减运算,但不能进行乘除运算,因其“0”值不是物理上的绝对“0”。例如考试成绩——0分不代表完全没有知识。
比率测量:是最高级的测量等级,具有绝对意义的“0”值,可进行加减乘除运算。例如增长率、收入等。
描述性统计方法:中心水平(均值、中位数、众数)、离散程度(极差、标准差、方差)、分布形态(偏度、峰度)。
值得注意的是,分类变量、顺序变量、数值变量的量化水平是由低到高的。低水平变量的统计量可以用于高水平,但高水平变量的统计量不一定能用于低水平。例如,分类变量的统计量(如众数)可以用于连续变量,但反之则不成立。
某电商平台运营团队需要了解用户的行为特征,以便制定精准营销策略。他们收集了1000名用户的以下信息:
| 变量 | 变量类型 | 说明 |
|---|---|---|
| 用户ID | 分类变量 | 唯一标识,不用于统计 |
| 性别 | 分类变量 | 男/女 |
| 会员等级 | 顺序变量 | 普通/银卡/金卡/钻石 |
| 年龄 | 数值变量 | 岁 |
| 月均消费金额 | 数值变量 | 元 |
| 月均登录天数 | 数值变量 | 天 |
任务:通过描述性统计分析,回答以下问题:
1. 用户的平均消费水平是多少?是否稳定?
2. 哪个会员等级的用户最多?
3. 不同性别用户的消费能力是否有差异?
4. 用户的年龄分布特征如何?
检查数据质量:是否存在缺失值、异常值?年龄为负数或大于120岁需要处理
确认变量类型:会员等级是顺序变量(有等级关系,但差值不一定相等)
对于性别和会员等级等分类变量,使用频数分析:
| 会员等级 | 频数 | 百分比 |
|---|---|---|
| 普通 | 320 | 32% |
| 银卡 | 280 | 28% |
| 金卡 | 250 | 25% |
| 钻石 | 150 | 15% |
结论:普通会员占比最高,钻石会员占比最低——提示运营资源应向会员升级转化倾斜。
对月均消费金额进行集中趋势分析:
| 指标 | 数值 | 业务解读 |
|---|---|---|
| 均值 | 1250元 | 平均每位用户月消费1250元 |
| 中位数 | 980元 | 50%的用户月消费低于980元 |
| 众数 | 500元 | 最常见的月消费金额为500元 |
发现:均值 > 中位数,数据呈右偏分布,说明存在少数高消费用户拉高了平均值。运营应重点关注“腰部用户”,而非被少数高消费用户的数据迷惑。
离散程度分析:
变异系数 = 580 / 1250 = 0.464 → 数据分散度较高
按性别分组对比月均消费:
| 性别 | 频数 | 均值 | 中位数 | 标准差 |
|---|---|---|---|---|
| 男 | 520 | 1320元 | 1100元 | 620元 |
| 女 | 480 | 1180元 | 950元 | 540元 |
结论:男性用户的平均消费略高于女性,但中位数差距更大,说明男性用户中的高消费群体更突出。
绘制年龄分布的直方图:
呈现左偏分布,年轻人(20-30岁)是主力用户群体
分布相对集中,说明目标人群明确,可针对性设计年轻化营销内容
通过以上分析,可以得出以下业务建议:
1. 消费能力方面:用户月均消费1250元,但中位数仅980元,存在高端消费群体拉高平均值,建议分层运营——对高消费用户提供VIP服务,对腰部用户设计升级激励。
2. 会员体系方面:普通会员占32%,钻石会员仅15%,建议设计会员升级路径,引导普通会员向更高等级转化。
3. 目标人群方面:用户年龄集中在20-30岁,男性消费略高于女性,营销内容应突出年轻化和个性化。
这就是一套完整的“变量识别 → 频数分析 → 集中趋势与离散分析 → 分组对比 → 分布分析”的描述性统计分析实战流程。
数字是杂乱的,但掌握描述性统计的人能让它们说出真相。
”

在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15在企业数字化转型、系统架构设计、数据治理与AI落地过程中,数据模型、本体模型、业务模型是三大核心基础模型,三者相互支撑、各 ...
2026-04-15数据分析师的一天,80%的时间花在表格数据上,但80%的坑也踩在表格数据上。 如果你分不清数值型和文本型的区别,不知道数据从哪 ...
2026-04-15在人工智能与机器学习落地过程中,模型质量直接决定了应用效果的优劣——无论是分类、回归、生成式模型,还是推荐、预测类模型, ...
2026-04-14在Python网络编程、接口测试、爬虫开发等场景中,HTTP请求的发送与响应处理是核心需求。Requests库作为Python生态中最流行的HTTP ...
2026-04-14 很多新人学完Python、SQL,拿到一张Excel表还是不知从何下手。 其实,90%的商业分析问题,都藏在表格的结构里。 ” 引言:为 ...
2026-04-14在回归分析中,因子(即自变量)的筛选是构建高效、可靠回归模型的核心步骤——实际分析场景中,往往存在多个候选因子,其中部分 ...
2026-04-13在机器学习模型开发过程中,过拟合是制约模型泛化能力的核心痛点——模型过度学习训练数据中的噪声与偶然细节,导致在训练集上表 ...
2026-04-13在数据驱动商业升级的今天,商业数据分析已成为企业精细化运营、科学决策的核心手段,而一套规范、高效的商业数据分析总体流程, ...
2026-04-13主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-13在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-13