图解spss探索分析实例-CDA数据分析师官网

热线电话：13121318867

图解spss探索分析实例

2016-10-31

图解spss探索分析实例

探索分析是在对数据的基本特征统计量有初步了解的基础上，对数据进行的更为深入详细的描述性观察分析。它在一般描述性统计指标的基础上，增加了有关数据其他特征的文字与图形描述，显得更加细致与全面，有助于用户思考对数据进行进一步分析的方案。主要的分析如下：

（1）观察数据的分布特征：通过绘制箱锁图和茎叶图等图形，直观地反映数据的分布形式和数据的一些规律，包括考察数据中是否存在异常值等。过大或过小的数据均有可能是奇异值、影响点或错误数据。寻找异常值，并分析原因，然后决定是否从分析中删除这些数据。因为奇异值和影响点往往对分析的影响较大，不能真实地反映数据的总体特征。

（2）正态分布检验：检验数据是否服从正态分布。很多检验能够进行的前提即总体数据分布服从正态分布。因此，检验数据是否符合正态分布，就决定了它们是否能用只对正态分布数据适用的分析方法。

（3）方差齐性检验：用Levene检验比较各组数据的方差是否相等，以判定数据的离散程度是否存在差异。例如在进行独立右边的T检验之前，就需要事先确定两组数据的方差是否相同。如果通过分析发现各组数据的方差不同，还需要对数据进行方差分析，那么就需要对数据进行转换使得方差尽可能相同。Levene检验进行方差齐性检验时，不强求数据必须服从正态分布，它先计算出各个观测值减去组内均值的差，然后再通过这些差值的绝对值进行单因素方差分析。如果得到的显著性水平（Significance）小于0.05，那么就可以拒绝方差相同的假设。

探索分析的具体操作步骤如下：

打开数据文件，选择【分析】（Analyze）菜单，单击【描述统计】（Descriptive Statistics）命令下的【探索】（Explore）命令，SPSS将弹出"探索"（Explore）对话框，如图3-9所示。

在"探索"（Explore）对话框中，左边的变量列表为原变量列表，通过单击按钮可选择一个或者几个变量进入右边的"因变量列表"（Dependent List）框、"因子列表"（Factor List）框和"标注个案"（Label Cases by）列表框。因变量是用户所研究的目标变量。因子变量是影响因变量的因素，例如分组变量。标注个案是区分每个观测量的变量，如雇员的ID等。例如，研究同一班级男生和女生的身高差距时，就可将"身高"变量列入"因变量列表"（Dependent List）框中，将"性别"列入"因子列表"（Factor List）框中，同时将学生的"学号"变量列入"标注个案"（Label Cases by）列表框中。

如果有多个分组变量进入"因子列表"列表框中，那么会以分组变量的各种取值进行组合分组。如两个分组变量各有2种取值，那么输出的结果就会有4种组合分组。

在对话框下端的"输出"（Display）框中有三个选项：

两者都（Both）：默认选项，表示同时输出描述统计量的统计表格和图形。选择此项将激活右边的【统计量】（Statistics）和【绘制】（Plots）按钮。

统计量（Statistics）：表示只输出统计表格，不输出图表。选择此项将激活右边的【统计量】（Statistics）按钮，【绘制】（Plots）按钮不被激活。

图（Plots）：表示只输出图表，不输出统计表格。选择此项将激活右边的【绘制】（Plots）按钮，【统计量】（Statistics）按钮不被激活。

单击【统计量】（Statistics）按钮，打开"探索：统计量（Explore：Statistics）"对话框，如图3-10所示。

在该对话框中，4个选择项分别如下：

描述性（Descriptives）：选择此项，将生成描述性统计表格。表中显示样本数据的描述统计量，包括平均值、中位数、5%调整平均数、标准误、方差、标准差、最大值、最小值、组距、四分位数、峰度、偏度及峰度和偏度的标准误。此项为默认选项，在下面的"均值的置信区间"（Confidence Interval for Mean）文本框中，用户还可输入数值指定均值的置信区间的置信度，系统默认的置信度为95%。

M-估计量（M-estimators）：选择此项，将计算并生成稳健估计量。M估计在计算时对所有观测量赋予权重，随观测量距分布中心的远近而变化，通过给远离中心值的数据赋予较小的权重来减小异常值的影响。

界外值（Outliers）：选择此项，将输出分析数据中的5个最大值和5个最小值作为异常嫌疑值。

百分位数（Percentiles）：选择此项，将计算并显示指定的百分位数，包括5%、10%、25%、50%、75%、90%和95%等。

"探索：统计量"对话框中的4个选项为复选框，用户可进行多项选择，单击【继续】（Continue）按钮，即可返回"探索"主对话框。

单击【绘制】（Plots）按钮，打开"探索：图"（Explore：Plots）对话框，如图3-11所示。

"探索：图"对话框中有如下4个选择组：

（1）箱图（Boxplots）栏（单选项组）：箱图，又称箱锁图。如果用户在"探索"主对话框的"因变量列表"（Dependent List）框中输入了多个变量名，则在此选择组中进行选择，可确定箱锁图的生成方式。箱锁图中，底部的水平线段是数据的最小值（异常点除外），顶部的水平线段是数据的最大值（异常点除外），中间矩形箱子的底所在的位置是数据的第一个四分位数（即25%分位数），箱子顶部所在位置是数据的第三个四分位数据（即75%分位数）。箱子中间的水平线段刻画的是数据的中位数（即50%分位数）。

按因子水平分组（Factor levels together，系统默认）：选择此项，将为每个因变量创建一个箱锁图，在每个箱锁图内根据分组变量的不同水平的取值创建箱形单元。

不分组（Dependents together）：选择此项，将为每个分组变量的水平创建一个箱锁图，在每个箱锁图内用不同的颜色区分不同因变量所对应的箱形单元，方便用户进行比较。

无（None）：选择此项，不创建箱图。

（2）描述性（Descriptive）栏（复选项）：选择该组内的选项，可以生成茎叶图和（或）直方图。在箱图（Boxplots）组内选择的选项不同，则生成的茎叶图和直方图也不相同。选择"按因子水平分组"单选按钮时，在创建茎叶图和（或）直方图时，首先会根据因变量的不同进行分类，为每一个因变量对应的不同分组变量的不同水平创建一个茎叶图和（或）直方图；选择"不分组"单选按钮时，在创建茎叶图和（或）直方图时，则首先根据不同分组变量水平的不同，为每一个因变量创建一个茎叶图和（或）直方图。

茎叶图（Stem-and-leaf，系统默认）：茎叶图主要由3个部分组成，即频率（Frequency）、茎（Stem）和叶（Leaf），在图中按从左到右的顺序依次排列，在图的底端，注明了茎的宽度（Stem Width）和每一叶所代表的观测量数（Each Leaf）。茎叶图中，茎表示数据的整数部分，叶表示数据的小数部分（小数位数只有一位，频数的数值有多大，则对应的小数就有多少个），将茎和叶的数值组合起来再乘以茎宽，便是该数据的值。由于茎叶图不仅仅能表示数据的频数分布，还能近似地表示数据的大小，因此它比直方图表达的信息更全面。

直方图（Histogram）：直接绘制直方图的步骤详见第10章。

（3）带检验的正态图（Normality plots with test，复选框）：选择此项，将进行正态性检验，并生成正态Q-Q概率图和无趋势正态Q-Q概率图。

（4）伸展与级别Levene检验（Spread vs level with Levene Test）栏（单选项组）：对所有的展布-水平图进行方差齐性检验和数据转换，同时输出回归直线的斜率及方差齐性的Levene检验，但如果没有指定分组变量，则此选项无效。

无（None）：不进行Levene检验，系统默认。选择此项，SPSS将不产生回归直线的斜率和方差齐性检验。

幂估计（Power Estimation）：对每组数据产生一个中位数的自然对数及四个分位数的自然对数的散点图。

已转换（Transformed）：变换原始数据，用户可在后面的参数框中选择数据变换类型。

未转换（Untransformed）：不变换原始数据时选择此项。

用户在"探索：图"对话框中进行选择后，单击【继续】（Continue）按钮，即可返回"探索"主对话框。

单击【选项】（Options）按钮，打开"探索：选项"（Explore：Options）对话框，如图3-12所示。