京公网安备 11010802034615号
经营许可证编号:京B2-20210330
SPSS教程:判断数据正态分布的超多方法
当我们应用统计方法对数据进行分析时,会发现许多计量资料的分析方法,例如常用的T检验、方差分析、相关分析以及线性回归等等,都要求数据服从正态分布或者近似正态分布,但这一前提条件往往被使用者所忽略。因此为了保证数据满足上述统计方法的应用条件,对原始数据进行正态性检验是十分必要的,这一节内容我们主要向大家介绍如何对数据资料进行正态性检验。
一、正态性检验:偏度和峰度
1、偏度(Skewness):描述数据分布不对称的方向及其程度(见图1)。
当偏度≈0时,可认为分布是对称的,服从正态分布;
当偏度>0时,分布为右偏,即拖尾在右边,峰尖在左边,也称为正偏态;
当偏度<0时,分布为左偏,即拖尾在左边,峰尖在右边,也称为负偏态;
注意:数据分布的左偏或右偏,指的是数值拖尾的方向,而不是峰的位置,容易引起误解。
2、峰度(Kurtosis):描述数据分布形态的陡缓程度(图2)。
当峰度≈0时,可认为分布的峰态合适,服从正态分布(不胖不瘦);
当峰度>0时,分布的峰态陡峭(高尖);
当峰度<0时,分布的峰态平缓(矮胖);
利用偏度和峰度进行正态性检验时,可以同时计算其相应的Z评分(Z-score),即:偏度Z-score=偏度值/标准误,峰度Z-score=峰度值/标准误。在α=0.05的检验水平下,若Z-score在±1.96之间,则可认为资料服从正态分布。
了解偏度和峰度这两个统计量的含义很重要,在对数据进行正态转换时,需要将其作为参考,选择合适的转换方法。
3、SPSS操作方法
以分析某人群BMI的分布特征为例。
(1) 方法一
选择Analyze → Descriptive Statistics → Frequencies
将BMI选入Variable(s)框中 → 点击Statistics → 在Distribution框中勾选Skewness和Kurtosis
(2) 方法二
选择Analyze → Descriptive Statistics → Descriptives
将BMI选入Variable(s)框中 → 点击Options → 在Distribution框中勾选Skewness和Kurtosis
4、结果解读
在结果输出的Descriptives部分,对变量BMI进行了基本的统计描述,同时给出了其分布的偏度值0.194(标准误0.181),Z-score = 0.194/0.181 = 1.072,峰度值0.373(标准误0.360),Z-score = 0.373/0.360 = 1.036。偏度值和峰度值均≈0,Z-score均在±1.96之间,可认为资料服从正态分布。
二、正态性检验:图形判断
1、直方图:表示连续性变量的频数分布,可以用来考察分布是否服从正态分布
(1)选择Graphs → Legacy Diaiogs → Histogram
(2)将BMI选入Variable中,勾选Display normal curve绘制正态曲线
2、P-P图和Q-Q图
(1) P-P图反映了变量的实际累积概率与理论累积概率的符合程度,Q-Q图反映了变量的实际分布与理论分布的符合程度,两者意义相似,都可以用来考察数据资料是否服从某种分布类型。若数据服从正态分布,则数据点应与理论直线(即对角线)基本重合。
(2) SPSS操作:以P-P图为例
选择Analyze → Descriptive Statistics → P-P Plots
将BMI选入Variables中,Test Distribution选择Normal,其他选项默认即可。
三、正态性检验:非参数检验分析法
1、正态性检验属于非参数检验,原假设为“样本来自的总体与正态分布无显著性差异,即符合正态分布”,也就是说P>0.05才能说明资料符合正态分布。
通常正态分布的检验方法有两种,一种是Shapiro-Wilk检验,适用于小样本资料(SPSS规定样本量≤5000),另一种是Kolmogorov–Smirnov检验,适用于大样本资料(SPSS规定样本量>5000)。
2、SPSS操作
(1) 方法一:Kolmogorov–Smirnov检验方法可以通过非参数检验的途径实现
选择Analyze → Nonparametric Tests → Legacy Dialogs → 1-Sample K-S
将BMI选入Test Variable List中,在Test Distribution框中勾选Normal,点击OK完成操作。
(2) 方法二:Explore方法
选择Analyze → Descriptive Statistics → Explore
将BMI选入Dependent List中,点击Plots,勾选Normality plots with tests,在Descriptive框中勾选Histogram,Boxplots选择None,点击OK完成操作。
3、结果解读
(1)在结果输出的Descriptives部分,对变量BMI进行了基本的统计描述,同时给出了其分布的偏度值、峰度值及其标准误,具体意义参照上面介绍的内容。
(2)在结果输出的Tests of Normality部分,给出了Shapiro-Wilk检验及Kolmogorov-Smirnov检验的结果,P值分别为0.200和0.616,在α=0.05的检验水准下,P>0.05,不拒绝原假设,可认为资料服从正态分布。
(3)在结果输出的最后部分,同时给出了直方图和Q-Q图,具体意义参照上面介绍的内容。建议可以直接使用Explore方法,结果中不仅可以输出偏度值,峰度值,绘制直方图,Q-Q图,还可以输出非参数检验的结果,一举多得。
四、注意事项
事实上,Shapiro-Wilk检验及Kolmogorov-Smirnov检验从实用性的角度,远不如图形工具进行直观判断好用。在使用这两种检验方法的时候要注意,当样本量较少的时候,检验结果不够敏感,即使数据分布有一定的偏离也不一定能检验出来;而当样本量较大的时候,检验结果又会太过敏感,只要数据稍微有一点偏离,P值就会<0.05,检验结果倾向于拒绝原假设,认为数据不服从正态分布。所以,如果样本量足够多,即使检验结果P<0.05,数据来自的总体也可能是服从正态分布的。
因此,在实际的应用中,往往会出现这样的情况,明明直方图显示分布很对称,但正态性检验的结果P值却<0.05,拒绝原假设认为不服从正态分布。此时建议大家不要太刻意追求正态性检验的P值,一定要参考直方图、P-P图等图形工具来帮助判断。很多统计学方法,如T检验、方差分析等,与其说要求数据严格服从正态分布,不如说“数据分布不要过于偏态”更为合适。
有专家根据经验提出,标准差超过均值的1/2时提示数据不服从正态分布,或者四分位间距与标准差的比值在1.35左右时提示服从正态分布,这些可以作为正态性检验的一个粗略判断依据,仅供参考。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28