
SPSS—方差分析(Analysis of Variance, ANOVA)—多因素方差分析(无重复试验双因素)
当遇到两个因素同时影响结果的情况,需要检验是一个因素起作用,还是两个因素都起作用,或者两个因素的影响都不显著
场景
某公司某种茶饮料的调查分析数据
统计了该茶饮料两种不同的包装(新设计的包装和旧的包装)在三个随机的地点的销售金额,分析销售地点和包装方式对销售金额各有怎样的影响
数学模型
无重复试验双因素的方差分析数学模型
试验区组
假设前提
构建模型
偏差平方和及其分解
检验F统计量
方差分析表
菜单
数据源
grocery_1month.sav
1
2
单变量选择
因变量
要进行分析的目标变量,一般为度量变量,数值为数值型。只能选择一个唯一变量。
固定因子
用来分组,一般是可以人为控制的
随机因子
用来分组,各个水平一般是不可以认为控制的,如体重,身高等
协变量
用于协方差分析
与因变量相关的定量变量,是用来控制其他与因子变量有关且影响方差分析的目标变量的其他干扰因素,类似回归分析中的控制变量
WLS权重
选择加权最小二乘法的权重系数
如果加权变量为0、负数或缺失,则将该个案从分析中排除。已用在模型中的变量不能用于加权变量
模型
全因子
系统默认项,用于建立全模型,分析所有因素的主效应及其交互效应,包括所有因子主效应、所有协变量主效应、所有因子间交互,但不包含协变量交互
设定
表示可以仅指定其中一部分的交互或指定因子协变量交互,必须指定要包含在模型中的所有项
因子与协变量
列出在Univariate过程中选择的所有的固定因素变量(F)、随机因素变量(R)和协变量(C)
构建项
交互: 定义进行选择变量的交互效应的方差分析
主效应:
定义进行选择变量的主效应的方差分析
表示模型中仅考虑各个控制变量的主效应而不考虑变量之间的-交互项
All 2-way - All 5-way:
定义进行所有变量的i阶交互效应的方差分析
模型
选择方差分析的主效应。若同时将因子与协变量选项中的两个变量选入,则将其交互效应强行纳入模型
平方和
定义平方和的分解方法
I 分层平凡和,仅处理主效应
II 处理所有其他效应
III 处理I和II中的所有效应
IV 要考虑所有的二维、三维、四纬的交互效应
在模型中包含截距
如果认为数据回归线可以经过坐标轴原点的话,就可以在模型中不含有截距,但是一般系统默认含有截距项
对比
用于设置比较因素水平间差异的方法
无
不进行因子各水平间的任何比较
因子变量每个水平与总平均值进行对比
简单
对因子变量各个水平与第一个水平和最后一个水平的均值进行对比
差值
表示对因子变量的各个水平都与前一个水平进行做差比较
Helmert
表示对因子变量的各个水平都与后面的水平进行做差比较,当然最后一个水平除外
重复
多项式
对每个水平按因子顺序进行趋势分析
绘制
水平轴
均数轮廓图中的横坐标
单图
用来绘制分离线的
多图
每个水平可用来创建分离图
两两比较
参考单因素方差分析,用于确定哪些均值存在差异
保存
预测值
用于保存模型为每个个案预测的值
未标准化
模型为因变量预测的值
加权
加权未标准化预测值
仅在已经选择了WLS变量的情况下可用
标准误
对于自变量具有相同值的个案所对应的因变量均值标准差的估计
残差
用于保存模型的残差
未标准化
因变量的实际值减去由模型预测的值
加权
在选择了WLS变量时提供加权的未标准化残差
标准化
对残差进行标准化的值
学生化
Student化的残差
删除
表示删除残差
诊断
用于标识自变量的值具有不寻常组合的个案和可能对模型产生很大影响的个案的测量
Cook距离
在特定个案从回归系数的计算中排除的情况下,所有个案的残差变化幅度的测量,较大的Cook距离表名从回归统计量的计算中排除个案后,系统会发生根本变化
杠杆值
未居中的杠杆值,每个观察值对模型拟合的相对影响
系数统计
用于保存模型中的参数估计值的斜方差矩阵
选项
提供一些基于固定效应模型的统计量
显示均值
输出该变量的估算边际均值、标准误等统计量
比较主效应
为模型中的任何主效应提供估计边际均值未修正的成对比较
输出
显著性水平
结果分析
描述性统计量
方差齐性检验
检验的零假设:所有组中因变量的误差方差均相等
可以认为因变量在各个因素水平下的误差方差相等
主体间效应的检验
整体模型的Sig < 0.05,此方差模型是显著的
R方 = 0.138,说明消费额的变异被“gender”,“style”,“gender*style”解释的部分有13.8%
gender(性别)对消费额有显著影响
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10