SPSS—描述性统计分析—探索性分析-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读SPSS—描述性统计分析—探索性分析

SPSS—描述性统计分析—探索性分析

2017-01-14

SPSS—描述性统计分析—探索性分析

菜单

除了可以计算基本的统计量之外，也可以给出一些简单的检验结果和图形，有助于用户进一步的分析数据。使得用户能够从大量的分析结果之中挖掘到所需要的统计信息。

适用范围
对资料的性质、分布特点等完全不清楚的时候

Analyze -> Descriptive Statistics -> Expore

数据源

ceramics.sav

因变量列表

用于选入待分析的变量

因子列表

用于选择分组变量，根据该变量取值不同，分组分析因变量列表中的变量

标注个案

选择标签变量

统计量

描述性

计算一般的描述性统计量，及指定的均数可信区间

M-估计量

描述集中趋势的统计量，用于稳健估计

界外值

分别输出5个极大值和极小值

百分位数

输出变量5%,10%,25%,50%,75%,90%,95%分位数

绘制

带校验的正态图

选择是否进行正态校验，且是否输出相应的Q-Q图

伸展与级别Levene检验

当选入分组变量时，该功能才被激活，主要用于比较各组之间的离散程度是否一致。在这里可以选择“未转换”，用于方差齐性检验

选项

输出结果

个案处理分析结果

包括观测量、缺失值等信息

描述性统计量

包括：均值、95%置信区间、方差、中位数、标准差、最大最小值、偏度和峰度等信息

集中趋势分布的3种较佳平稳测度

较佳测度之一：中位数等

中位数

与均值和众数大不相同，中位数是依赖于数据的主体部分而不是极值，因此它的值不是过分地受某几个观察值的影响

平稳估计量

如果对数据来源的总体做出某个假设（比如假定服从正态分布），则会有更佳分布位置的估计量，这种估计量称为平稳或稳健测度的估计量

较佳测度之二：修正均值
由于均值深受极端值影响，因此可通过去掉一些远离主体数据的极端值，进而获得一个对于分布位置简单而平稳的估计量

5%修正均值

是通过去掉所有观察值中最大的5%和最小的5%的数据而获得

调整后的均值与中位数可更好的利用数据

较佳测度之三：M估计
将极端值计算在内，而赋予比靠近中央值较小的一个权重，这种方法可借助M估计或采用广义最大似然估计
M-estimators：平稳分布位置的最大似然估计量

Huber的M估计值

Tukey双权重估计值

Hampel重复递减M估计值

Andrew波形估计值

M-估计器

极值

这里用标注个案来标记极值

正态性检验

其中Premium变量对应的K-S检验P值和Shapiro-Wilk检验P值均为0.000，非常显著，应该拒绝原假设。所以，此变量的数据分布不是正态分布。

而Standard数据的分布不是显著的，可以认为是正态分布

在‘探索’里出现的Kolmogorov-Smirnov 检验，它的右上角有一个a 的注释号。它将Kolmogorov-Smirnov 检验改进用于一般的正态性检验。

而在‘非参数检验’里出现的Kolmogorov-Smirnov 检验，是没有经过纠正或改进的。

该正态性检验只能做标准正态检验。

SPSS 规定：当样本含量3≤n≤5000 时，结果以Shapiro—Wilk(W 检验)为难，当样本含量n>5000 结果以Kolmogorm —Smimov(D检验)为准。

问题：

(1) 在实际应用中常出现检验结果与直方图、正态性概率图不一致，甚至几种假设检验方法结果完全不同的情况。

(2) Shapiro—Wilk 检验(Ⅳ 检验)和经过Lilliefors 显著水平修正的Kolmogorov—Smirnov 检验(D 检验)是用一个综合指标(顺序统计量Ⅳ 或D)来判定资料的正态性由于两种方法都是用一个指标反映资料的正态性，

所以当资料的正态峰和对称性两个特征有一个不满足正态性要求时，两种方法出现假阴性错误的机率均较大；而且两种方法的检验统计量都是进行大小排序后得到，所以易受异常值的影响。

(3) Kolmogorov—Smirnov 单一样本检验是根据实际的累计频数分布和理论的累计频数分布的最大差异来检验资料的正态性，可对正态分布进行拟合优度检验。但它并非检验正态性的专用方法，因此它的检验效率是最低的，最容易受样本量和异常值等因素的影响。

方差齐性检验

假设检验：
H0: 两样本方差齐性（相等，或无显著性差异）

如上图，Sig > 0.2，并无显著差异。

正态Q-Q图

正态性检验可以通过直观的Q-Q图，进行人工验证。

Q-Q图是一种散点图,对应于正态分布的Q-Q图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图. 要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值.

如上图，batch=Standard Q-Q图上的点在一条直线附近，可以认为是正态分布，和正态性检验Lilliefors，Shapiro-Wilk得出的结果一致。

反趋势正态 Q-Q 图

如上图，反趋势正态概率Q-Q图以变量的观测值为X坐标，以变量的Z得分与期望值的偏差为Y坐标。
batch=Standard 图的观测点离期望值很集中，说明符合正态分布。

盒子图

Premiun中有部分异常数据，数据偏大。需要进行异常值检测。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

正态分布方差期望值假设检验标准差散点图偏差直方图

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

SPSS—描述性统计分析—探索性分析

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

从“整体波动”到“因子归因”：CDA数据分析师视角 ...

【CDA干货】单因素方差分析：三组及以上独立样本的 ...

【CDA干货】次日付费留存计算方法、统计口径与业务 ...

从“点状静态”到“时序动态”：CDA数据分析师视角 ...

CDA持证人专访：王晓琳谈数据分析备考与秋招实战经 ...

【CDA干货】用户决策流程全解析：核心环节、影响因 ...

从“标签”到“人”：CDA数据分析师视角下的用户画 ...

【CDA干货】透视表跨表数据应用原理与实战方法 ...

【CDA干货】正态分布异常事件识别与处理方法：数据 ...

从“raw”到“ready”：CDA数据分析师视角下的标签 ...

CDA持证人专访：孙尚亮谈制造行业数据分析与生产采 ...

【CDA干货】DataFrame数据归一化：核心原理、常用方 ...

从“零散标识”到“结构资产”：CDA数据分析师视角 ...

【CDA干货】数据分析如何辅助商业谈判决策：从经验 ...

【CDA干货】T检验完整实操教程：核心原理、分类场景 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载