基本描述数据汇总的图形显示-CDA数据分析师官网

热线电话：13121318867

基本描述数据汇总的图形显示

2016-09-25

基本描述数据汇总的图形显示

除了在大部分统计或图形数据表示软件包中使用的条形图、饼图和线图之外，还有一些常用的图用于显示数据汇总和分布，包括直方图、分位数图、q-q图、散布图和局部回归（loess）曲线。对于数据的直观观察，这些图是非常有帮助的。

画直方图（或频率直方图）是一种概括给定属性分布的图形方法。属性A的直方图将A的数据分布划分成不相交的子集或桶。通常，每个桶的宽度是一致的。每个桶用一个矩形表示，其高度等于桶中的值计数或相对频率。如果A是分类的，如车型或商品类型，则对A的每个已知值画一个矩形，而结果图更多地称作条形图。如果A是数值的，更多地使用术语直方图。对于数值属性，构造直方图的划分规则在2.5.4节讨论。例如，在等宽的直方图中，每个桶代表数值属性A的等宽值域。

表2-1 AllElectronics的一个分店销售的商品单价数据集

图2-4显示表2-1中数据的直方图，其中，桶定义成等宽的，代表增量20美元，而频率是商品的销售数量。直方图至少有一个世纪了，是一种广泛使用的单变量图形方法。然而，对于比较单变量观测组，它可能不如分位数图、q-q图和盒图方法有效。

图2-4 表2-1中数据集的直方图

分位数图（quantile plot）是一种观察单变量数据分布的简单有效方法。首先，它显示给定属性的所有数据（允许用户评估总的情况和不寻常的出现）。其次，它绘出了分位数信息。

这一步使用的机制与2.2.2节讨论的百分位数计算稍微有点不同。设xi (i = 1, ., N)是按递增序排序的数据，使得x1是最小的观测值，而xN是最大的。每个观测值xi与一个百分数fi配对，指出大约100fi%的数据小于或等于xi。我们说“大约”，因为可能没有一个精确的小数值fi，使得数据的fi%小于或等于xi。注意，0.25分位数对应于四分位数Q1，0.50分位数对应于中位数，而0.75分位数对应于Q3。令

这些数由1/2N（稍大于0）到1－1/2N（稍小于1），以相同的步长1/N递增。在分位数图中，xi 对着fi画出。这使得我们可以基于分位数比较不同的分布。例如，给定两个不同时间段销售数据的分位数图，我们一眼就可以比较它们的Q1，中位数，Q3，以及其他fi值。图2-5显示了表2-1单价数据的分位数图。

图2-5 表2-1单价数据的分位数图

分位数-分位数图或q-q图对着另一个对应的分位数，绘制一个单变量分布的分位数。它是一种强有力的可视化工具，使得用户可以观察从一个分布到另一个是否有移位。

假定对于变量单价有两个观测集，取自两个不同的分店。设x1, ., xN是取自第一个分店的数据，y1, ., yM是取自第二个分店的数据，每组数据都按递增序排序。如果M = N（即每个集合中的点数相等），则我们简单地对着xi画yi，其中yi和xi都是各自数据集的第(i－0.5) / N个分位数。如果M < N（即第二个分店的观测值比第一个少），则可能只有M个点在q-q图中。这里，yi是y数据的第(i－0.5) / M个分位数，对着x数据的第(i－0.5) / M个分位数画。在典型情况下，该计算涉及插值。

图2-6显示在给定的时间段，AllElectronics的两个不同分店销售的商品单价数据的分位数分位数图。每个点对应于每个数据集的相同的分位数，并显示分店1与分店2相对的销售商品单价。例如，左下角的最低点对应于分位数0.03。（为帮助比较，我们也画了一条直线，代表对于给定的分位数，两个分店的单价相同的情况。此外，加黑的点分别对应于Q1、中位数和Q3。）我们看到，在分位数0.03，分店1销售的商品单价比分店2稍低。换言之，在分店1销售
的商品3%低于或等于40美元，而在分店2销售的商品3%低于或等于42美元。在最高分位数，我们看到分店2的商品单价稍微低于分店1。一般地，我们注意到分店1的分布相对于分店2有一个移位，分店1销售的商品单价趋向于比分店2低。

散布图（scatter plot）是确定两个数值属性之间看上去是否有联系、模式或趋势的最有效的图形方法之一。为构造散布图，每个值对视为一个代数坐标对，并作为一个点画在平面上。图2-7 显示表2-1中数据集的散布图。散布图是一种观察双变量数据有用的方法，用于观察点的簇和离群点，或考察相关联系的可能性。在图2-8中，我们看到两个不同数据集中两个属性之间的正相关和负相关的例子。图2-9显示了三种情况，每个数据集的两个属性之间都不存在相关联系。

图2-6 两个不同分店的单价数据的分位数-分位数图

图2-7 表2-1中数据的散布图

图2-8 散布图可以用来发现属性之间的a）正相关或b）负相关

图2-9 三种情况，其中每个数据集中两个属性之间都不存在观察到的相关

图2-10 表2-1中数据集的loess曲线

在处理多个属性时，散布图矩阵（scatter-plot matrix）是散布图的一种有用的扩充。给定n个属性，散布图矩阵是散布图的n×n栅格，提供每个属性（或维）与每个其他属性的可视化表示。随着所研究的属性数量增加，散布图的有效性降低。在这种情况下，用必要进行诸如放大（zooming）和摇动（panning）等用户交互操作，帮助有效地解释单个散布图。

loess曲线是另一种重要的图形探查工具，它添加一条光滑曲线到散布图，以便更好地理解依赖模式。loess一词是“局部回归”（local regression）的缩写。图2-10显示表2-1中数据集的loess曲线。

为了拟合loess曲线，需要设置两个参数—光滑参数α，被回归拟合的多项式的次数λ。α可以是正数（典型值在1/4～1之间），而λ可以是1或2。选择α的目的是产生一个拟合，它尽59 ~可能光滑，而不过分破坏数据中潜在的模式。曲线随α增大而变得更光滑。然而，可能出现拟60 合不足，表明可能“丢失”数据模式。如果α太小，跟踪了潜在的模式，但可能过分拟合数据，曲线中的局部“摆动”可能不被数据支持。如果数据的潜在模式具有“温和的”曲率，而没有局部极大和极小，则局部线性拟合通常就足够了（λ = 1）。然而，如果存在局部极大和极小，则二次拟合（λ = 2）一般做得更好，它遵循数据模式并且保持局部光滑性。

总而言之，描述性数据汇总提供了数据总体行为的有价值的洞察。通过帮助识别噪声和离群点，它们对于数据清理特别有用。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；