
SPSS分析技术:探索性分析;强大的综合性描述性统计模块
SPSS还提供了一种综合性的数据描述工具:探索性分析,它能够一次性将上述分析结果和其它更详细的分析结果呈现出来,不能能够输出数据结果,还能提供各种直观统计图。
探索性分析
生活中,高空作业一般都会借助外物如吊车等工具帮住自己达到目标,而统计学中也一样,在对数据的基本特征有所了解,需要对数据进行更为细致和深入的描述性观察分析,这时候就需要绘制统计图来辅助分析,这样就使得数据分析更为深入、细致和全面。
探索性分析项目
描述性统计结果。输出各种描述性统计指标,例如,均值、方差、标准差等。
正态分布检验。通过对数据的进一步探索分析,验证其是否符合正态分布,进而确定能否使用正态分布数据的分析方法进行分析。常用的正态分布验证是Q-Q概率图。
方差齐性检验。通过Levene检验比较各组数据之间的方差是否相等,以此判断数据的离散程度是否存在差异。若Levene检验得到的显著性水平小于0.05,就拒绝方差相同的假设。
寻找数据中的奇异值。在数据整理输入过程中,对出现某些影响分析结果的奇异值进行删除或保留。
探究性分析结果的图形描述
探究性分析增加了图形的方式对数据的分布给予直观呈现。图形包括茎叶图、直方图、箱图和Q-Q概率图。茎叶图:是用以描述连续变量的一种手法,主要包括频率、茎和叶三个部分。其中,茎和叶分布代表数据的整数部分和小数部分。茎代表观测值的十位数,叶对应观测值的个位数。一个个位数代表一个观测值,每一行左边的频率就是该行对应的个案数。每个茎叶图的底部还注明了茎宽和每叶代表的个案数。数据的值即为茎叶组成的数值结合乘以茎宽。茎叶图既保留了数据的频率分布,也保存了原始数据,是探究性分析常用方法之一。
直方图:用于对连续变量数据的观察。它是以区间作为水平轴,以各个区间的频率作为相应条块的高度来绘制出统计图。从直方图上可以直观看出数据的分布状况等。
箱图:是表现五数(最小值、最大值、中位数、第一个四分位数、第三个四分位数)的图形形式,其中矩形为箱图的主题,两个四分位数之差为箱长,也称内四分位限。箱体部分包含全体数据约50%的数值,箱体的上中下三条平行线分别表示75%、50%(中位数)和25%分位数。纵贯箱体中间的竖线称为触须线,触须线上下两端的横线代表该组变量数值的最大值(97.5%)和最小值(2.5%)。箱图在比较两个或多个变量时尤其有用,它还可用于判别极端值的存在。如果箱图中有异常值,用【。】表示,如果有极端异常值,则用【*】表示。
案例分析
现有某校451名学生的体检数据,测量了身高、体重、肺活量、血压、心率等指标。对所有学生的身高数据进行探索性分析,进一步了解该校学生的身高情况。
分析步骤
1、选择菜单【分析】-【描述统计】-【探索】。将变量身高选入因变量列表;将性别选入因子列表;将编号变量选入标注个案。
因变量指待分析的数据变量;
因子列表指分类变量,即按照因子变量对因变量进行分类;
标注个案指对异常值的标注信息;
本案例将身高变量选为因变量,即待分析数据变量;将年龄变量选为因子变量,即按照年龄对身高数据进行分类;标注个案选择编号变量,在统计图上,异常值将标注其编号。
2、统计指标及统计图选择。
为了展示探索性分析的所有功能,我们将所有的统计指标及统计图类型都进行勾选。其它的选项比较简单,这里需要对伸展与级别Levene检验进行说明。
3、点击【继续】,然后点击【确定】,输出结果。
结果解读
1、个案处理摘要;从下表可以知道每个年龄的有效个案数、缺失个案数和总计个案数。
2、描述统计摘要表;由于年龄跨度较大,所以在这里只展示10岁的学生数据。包括了所有的描述性统计指标。
3、M-估计值;
当数据中存在极端值和奇异值时,M估计值是更好的平均值和中位数的替代者,能够更好的反映数据的集中程度。M估计采取的办法是给每个个案数值增加权重,这样能够有效的减少极端值和异常值对平均值和中位数的影响,从而让分析者更好的了解手中的数据。表中有四个M估计值,它们的区别在于权重不同。如果描述统计中,平均值和中位数与M估计表的有很大出入,说明原始数据中存在极端值。
4、百分位数;表中显示每个年龄数据的不同百分位的身高。
5、正态分布检验结果;探索性分析采用了两种正态分布检验方法:K-S检验和S-W检验。
结果展示了每个年龄学生的身高是否服从正态分布。
6、各种统计图形,这里以10岁学生群体的统计图为例。输出结果中包括了直方图、茎叶图、Q-Q图、去势Q-Q图以及箱图。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Python HTTP 请求工具对比:urllib.request 与 requests 的核心差异与选择指南 在 Python 处理 HTTP 请求(如接口调用、数据爬取 ...
2025-09-12解决 pd.read_csv 读取长浮点数据的科学计数法问题 为帮助 Python 数据从业者解决pd.read_csv读取长浮点数据时的科学计数法问题 ...
2025-09-12CDA 数据分析师:业务数据分析步骤的落地者与价值优化者 业务数据分析是企业解决日常运营问题、提升执行效率的核心手段,其价值 ...
2025-09-12用 SQL 验证业务逻辑:从规则拆解到数据把关的实战指南 在业务系统落地过程中,“业务逻辑” 是连接 “需求设计” 与 “用户体验 ...
2025-09-11塔吉特百货孕妇营销案例:数据驱动下的精准零售革命与启示 在零售行业 “流量红利见顶” 的当下,精准营销成为企业突围的核心方 ...
2025-09-11CDA 数据分析师与战略 / 业务数据分析:概念辨析与协同价值 在数据驱动决策的体系中,“战略数据分析”“业务数据分析” 是企业 ...
2025-09-11Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04