京公网安备 11010802034615号
经营许可证编号:京B2-20210330
描述性数据汇总
对于成功的数据预处理,获得数据的总体印象是至关重要的。描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据值应当视为噪声或离群点。因此,在讨论具体的数据预处理之前,我们首先介绍描述性数据汇总的基本概念。
对于许多数据预处理任务,用户希望知道关于数据的中心趋势和离中趋势特征。中心趋势度量包括均值(mean)、中位数(median)、众数(mode)和中列数(midrange),而数据离中趋势度量包括四分位数(quartiles)、四分位数极差(interquartile range, IQR)和方差(variance)。这些描述性统计量有助于理解数据的分布。这些度量在统计学界已经广泛研究。
从数据挖掘的角度,我们需要考察如何在大型数据库中有效地计算它们。特殊地,我们需要引进分布式度量、代数度量和整体度量的概念。知道我们处理的度量类型可能有助于我们选择它的有效实现。
2.2.1 度量数据的中心趋势
我们考察度量数据中心趋势的各种方法。数据集的“中心”最常用、最有效的数值度量是(算术)均值。设x1, x2,., xN是(如某个像salary这样的属性)N个值或观测的集合。
该值集的均值是
这对应于关系数据库系统提供的内部聚集函数average(SQL中为avg())。
分布式度量(distributive measure)是一种可以通过如下方法计算度量(即函数):将数据集划分成较小的子集,计算每个子集的度量,然后合并计算结果,得到原(整个)数据集的度量值。sum()和count()都是分布式度量,因为它们都可以用这种方法计算。其他例子包括max()和min()。代数度量(algebraic measure)是可以通过应用一个代数函数于一个或多个分布度量计算的度量。因此,average(或mean())是代数度量,因为它可以通过sum()/count() 计算。当我们计算数据立方体时,sum()和count()可以在预计算时保留。这样,导出数据立方体的average是直截了当的。
有时,集合中每个值xi与一个权值wi相关联,i = 1, ., N。权值反映对应值的显著性、重要性或出现频率。在这种情况下,我们可以计算
这称为加权算术均值(weighted arithmetic mean)或加权平均(weighted average)。注意,加权平均是代数度量的又一个例子。
尽管均值是描述数据集的最有用的单个量,但不总是度量数据中心的最好方法。均值的主要问题是对于极端值(如离群值)很敏感。即使少量极端值也可能影响均值。例如,公司的平均工资可能被少数高报酬的经理的工资显著抬高。类似地,班级的考试平均成绩可能因为少数几个非常低的成绩而降低相当多。为了抵销少数极端值的影响,我们可以使用截断均值(trimmed mean)。截断均值是去掉高、低极端值得到的均值。例如,我们可以将工资的观
测值排序,并在计算均值前去掉上下各2%的值。我们应当避免在两端截断的比例太大(如20%),因为这可能导致损失有价值的信息。
对于倾斜的(非对称的)数据,数据中心的一个较好度量是中位数。设给定的N个不同值的数据集按数值序排序。如果N是奇数,则中位数是有序集的中间值;否则(即,如果N是偶数),中位数是中间两个值的平均值。
整体度量(holistic measure)是必须对整个数据集计算的度量。整体度量不能通过将给定数据划分成子集并合并每个子集上度量得到的值来计算。中位数是整体度量的一个例子。计算整体度量的开销比计算上述分布度量的开销大得多。
然而,我们可以容易地计算数据集中位数的近似值。假定数据根据它们的xi值划分成区间,并且已知每个区间的频率(即数据值的个数)。例如,可以根据年薪将人划分到诸如10~20K, 20~30K等区间。令包含中位数频率的区间为中位数区间。我们可以使用如下公式插值计算整个数据集的中位数的近似值:

数据立方体的计算在第3、4章详细介绍。
其中,L1是中位数区间的下界,N是整个数据集的值的个数,(Σfreq)l是低于中位数区间的所有区间的频率和,freqmedian是中位数区间的频率,而width是中位数区间的宽度。
另一种中心趋势度量是众数。数据集的众数是集合中出现频率最高的值。可能最高频率对应多个不同值,导致多个众数。具有一个、两个或三个众数的数据集合分别称为单峰的(unimodal)、双峰的(bimodal)和三峰的(trimodal)。一般,具有两个或更多众数的数据集是多峰的(multimodal)。在另一种极端情况下,如果每个数据值仅出现一次,则它没有众数。
对于适度倾斜(非对称的)的单峰频率曲线,我们有下面的经验关系
mean-mode = 3×(mean-median) (2-4)
这意味如果均值和中位数已知,适度倾斜的单峰频率曲线的众数容易计算。
在完全对称的数据分布单峰频率曲线中,均值、中位数和众数都是相同的中心值,如图2-2a 所示。然而,在大部分实际应用中数据不是对称的。它们可能是正倾斜的,其中众数出现在小于中位数的值上(图2-2b);或者是负倾斜的,其中众数出现在大于中位数的值上(图2-2c)。
中列数也可以用来评估数据集的中心趋势。中列数是数据集的最大和最小值的平均值。中列数是代数度量,因为它容易使用SQL的聚集函数max()和min()计算。
2.2.2 度量数据的离散程度
数值数据趋向于分散的程度称为数据的离差或方差。数据离中趋势的最常用度量是极差、五数概括(基于四分位数)、中间四分位数极差和标准差。盒图根据五数概括绘制,是一种识别离群点的有用工具。
1. 极差、四分位数、离群点和盒图
设x1, x2,., xN是某属性的观测值集合。该集合的极差(range)是最大值(max())与最小值(min())之差。本节的其余部分假定数据以数值递增序排列。
在数值序下,数据集合的第k个百分位数(percentile)是具有如下性质的值xi:百分之k的数据项位于或低于xi。中位数(上一节讨论过)是第50个百分位数。除中位数外,最常用的百分位数是四分位数(quartile)。第一个四分位数记作Q1,是第25个百分位数;第三个四分位数记作Q3,是第75个百分位数。四分位数(包括中位数)给出分布的中心、离散和形状的某种指示。第一个和第三个四分位数之间的距离是分布的一种简单度量,它给出被数据的中间一半所覆盖的范围。该距离称为中间四分位数极差(IQR),定义为
IQR = Q3 -Q1 (2-5)
根据类似于2.2.1节中位数分析的推理,可以断言Q1和Q3是整体度量,IQR也是。
描述倾斜分布,单个分布数值度量(如IQR)不是非常有用的。倾斜分布两边的分布是不等的(图2-2)。因此,提供两个四分位数Q1和Q3以及中位数信息更丰富。一个识别可疑的离群点的常用经验是:挑出落在至少高于第三个四分位数或低于第一个四分位数1.5×IQR处的值。
因为Q1、中位数和Q3不包含数据端点(例如尾)信息,分布形状的更完整概括可以通过提供最高和最低数据值得到。这称作五数概括。分布的五数概括(five-number summary)由中位数,四分位数Q1和Q3,最小和最大观测值组成,按以下次序写为Minimum, Q1, Median, Q3, Maximum。
分布的一种流行的可视化表示是盒图(boxplot)。盒图体现了五数概括:
. 在典型情况下,盒的端点在四分位数上使得盒的长度是中间四分位数极差IQR。
. 中位数用盒内的线标记。
. 盒外的两条线(称作胡须)延伸到最小(Minimum)和最大(Maximum)观测值。
当处理数量适中的观测值时,值得个别地绘出潜在的离群点。在盒图中这样做:仅当这些值超过四分位数不到1.5×IQR时,胡须扩展到最高和最低观测值。否则,胡须出现在四分位数的1.5×IQR之内的最极端的观测值处终止。剩下的情况个别地绘出。盒图可以用来比较若干个可比数据集。图2-3给出在给定的时间段,AllElectronics的4个分店销售的商品单价数据的盒图。对于分店1,我们看到销售商品单价的中位数是80美元,Q1是60美元,Q3是100美元。注意,该分店的两个边远的观测值个别地绘制,因为它们的值175和202超过IQR的1.5倍,这里IQR = 40。
对于大型数据集的挖掘,盒图的有效计算,甚至是近似的盒图(基于五数概括的近似)仍然是一个具有挑战性的问题。
图2-3 在给定的时间段,AllElectronics的4个分店销售的商品单价的盒图
2. 方差和标准差
N个观测值x1, x2, ., xN的方差是

其中, 是观测值的均值,由式(2-1)定义。观测值的标准差σ是方差x σ2的平方根。
作为发散性的度量,标准差σ的基本性质是
. σ度量关于均值的发散,仅当选择均值作为中心度量时使用。
. 仅当不存在发散时,即当所有的观测值都具有相同值时,σ = 0;否则,σ > 0。方差和标准差是代数度量,因为它们可以由分布度量计算。即,N(SQL的count())、Σxi (xi的sum())和Σxi 2(xi 2的sum())可以按任意划分进行计算,然后合并提供给式(2-6)。这样,方差和标准差的计算在大型数据库都是可伸缩的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04