京公网安备 11010802034615号
经营许可证编号:京B2-20210330
如何使用SPSS进行多元回归分析_数据分析师
在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类回问题为多元回归分析。可以建立因变量y与各自变量xj(j=1,2,3,…,n)之间的多元线性回归模型:
其中:b0是回归常数;bk(k=1,2,3,…,n)是回归参数;e是随机误差。
多元回归在病虫预报中的应用实例:
某地区病虫测报站用相关系数法选取了以下4个预报因子;x1为最多连续10天诱蛾量(头);x2为4月上、中旬百束小谷草把累计落卵量(块);x3为4月中旬降水量(毫米),x4为4月中旬雨日(天);预报一代粘虫幼虫发生量y(头/m2)。分级别数值列成表2-1。
预报量y:每平方米幼虫0~10头为1级,11~20头为2级,21~40头为3级,40头以上为4级。
预报因子:x1诱蛾量0~300头为l级,301~600头为2级,601~1000头为3级,1000头以上为4级;x2卵量0~150块为1级,15l~300块为2级,301~550块为3级,550块以上为4级;x3降水量0~10.0毫米为1级,10.1~13.2毫米为2级,13.3~17.0毫米为3级,17.0毫米以上为4级;x4雨日0~2天为1级,3~4天为2级,5天为3级,6天或6天以上为4级。
表2-1
|
|
x1 |
x2 |
x3 |
x4 |
y |
|||||
|
年 |
蛾量 |
级别 |
卵量 |
级别 |
降水量 |
级别 |
雨日 |
级别 |
幼虫密度 |
级别 |
|
1960 |
1022 |
4 |
112 |
1 |
4.3 |
1 |
2 |
1 |
10 |
1 |
|
1961 |
300 |
1 |
440 |
3 |
0.1 |
1 |
1 |
1 |
4 |
1 |
|
1962 |
699 |
3 |
67 |
1 |
7.5 |
1 |
1 |
1 |
9 |
1 |
|
1963 |
1876 |
4 |
675 |
4 |
17.1 |
4 |
7 |
4 |
55 |
4 |
|
1965 |
43 |
1 |
80 |
1 |
1.9 |
1 |
2 |
1 |
1 |
1 |
|
1966 |
422 |
2 |
20 |
1 |
0 |
1 |
0 |
1 |
3 |
1 |
|
1967 |
806 |
3 |
510 |
3 |
11.8 |
2 |
3 |
2 |
28 |
3 |
|
1976 |
115 |
1 |
240 |
2 |
0.6 |
1 |
2 |
1 |
7 |
1 |
|
1971 |
718 |
3 |
1460 |
4 |
18.4 |
4 |
4 |
2 |
45 |
4 |
|
1972 |
803 |
3 |
630 |
4 |
13.4 |
3 |
3 |
2 |
26 |
3 |
|
1973 |
572 |
2 |
280 |
2 |
13.2 |
2 |
4 |
2 |
16 |
2 |
|
1974 |
264 |
1 |
330 |
3 |
42.2 |
4 |
3 |
2 |
19 |
2 |
|
1975 |
198 |
1 |
165 |
2 |
71.8 |
4 |
5 |
3 |
23 |
3 |
|
1976 |
461 |
2 |
140 |
1 |
7.5 |
1 |
5 |
3 |
28 |
3 |
|
1977 |
769 |
3 |
640 |
4 |
44.7 |
4 |
3 |
2 |
44 |
4 |
|
1978 |
255 |
1 |
65 |
1 |
0 |
1 |
0 |
1 |
11 |
2 |
数据保存在“DATA6-5.SAV”文件中。
1)准备分析数据
在SPSS数据编辑窗口中,创建“年份”、“蛾量”、“卵量”、“降水量”、“雨日”和“幼虫密度”变量,并输入数据。再创建蛾量、卵量、降水量、雨日和幼虫密度的分级变量“x1”、“x2”、“x3”、“x4”和“y”,它们对应的分级数值可以在SPSS数据编辑窗口中通过计算产生。编辑后的数据显示如图2-1。

图2-1
或者打开已存在的数据文件“DATA6-5.SAV”。
2)启动线性回归过程
单击SPSS主菜单的“Analyze”下的“Regression”中“Linear”项,将打开如图2-2所示的线性回归过程窗口。

图2-2 线性回归对话窗口
3) 设置分析变量
设置因变量:用鼠标选中左边变量列表中的“幼虫密度[y]”变量,然后点击“Dependent”栏左边的
向右拉按钮,该变量就移到“Dependent”因变量显示栏里。
设置自变量:将左边变量列表中的“蛾量[x1]”、“卵量[x2]”、“降水量[x3]”、“雨日[x4]”变量,选移到“Independent(S)”自变量显示栏里。
设置控制变量: 本例子中不使用控制变量,所以不选择任何变量。
选择标签变量: 选择“年份”为标签变量。
选择加权变量: 本例子没有加权变量,因此不作任何设置。
4)回归方式
本例子中的4个预报因子变量是经过相关系数法选取出来的,在回归分析时不做筛选。因此在“Method”框中选中“Enter”选项,建立全回归模型。
5)设置输出统计量
单击“Statistics”按钮,将打开如图2-3所示的对话框。该对话框用于设置相关参数。其中各项的意义分别为:

图2-3 “Statistics”对话框
①“Regression Coefficients”回归系数选项:
“Estimates”输出回归系数和相关统计量。
“Confidence interval”回归系数的95%置信区间。
“Covariance matrix”回归系数的方差-协方差矩阵。
本例子选择“Estimates”输出回归系数和相关统计量。
②“Residuals”残差选项:
“Durbin-Watson”Durbin-Watson检验。
“Casewise diagnostic”输出满足选择条件的观测量的相关信息。选择该项,下面两项处于可选状态:
“Outliers outside standard deviations”选择标准化残差的绝对值大于输入值的观测量;
“All cases”选择所有观测量。
本例子都不选。
③ 其它输入选项
“Model fit”输出相关系数、相关系数平方、调整系数、估计标准误、ANOVA表。
“R squared change”输出由于加入和剔除变量而引起的复相关系数平方的变化。
“Descriptives”输出变量矩阵、标准差和相关系数单侧显著性水平矩阵。
“Part and partial correlation”相关系数和偏相关系数。
“Collinearity diagnostics”显示单个变量和共线性分析的公差。
本例子选择“Model fit”项。
6)绘图选项
在主对话框单击“Plots”按钮,将打开如图2-4所示的对话框窗口。该对话框用于设置要绘制的图形的参数。图中的“X”和“Y”框用于选择X轴和Y轴相应的变量。

图2-4“Plots”绘图对话框窗口
左上框中各项的意义分别为:
“Standardized Residual Plots”设置各变量的标准化残差图形输出。其中共包含两个选项:
“Histogram”用直方图显示标准化残差。
“Normal probability plots”比较标准化残差与正态残差的分布示意图。
“Produce all partial plot”偏残差图。对每一个自变量生成其残差对因变量残差的散点图。
本例子不作绘图,不选择。
7) 保存分析数据的选项
在主对话框里单击“Save”按钮,将打开如图2-5所示的对话框。

图2-5 “Save”对话框
①“Predicted Values”预测值栏选项:
Unstandardized 非标准化预测值。就会在当前数据文件中新添加一个以字符“PRE_”开头命名的变量,存放根据回
归模型拟合的预测值。
Standardized 标准化预测值。
Adjusted 调整后预测值。
S.E. of mean predictions 预测值的标准误。
本例选中“Unstandardized”非标准化预测值。
②“Distances”距离栏选项:
Mahalanobis: 距离。
Cook’s”: Cook距离。
Leverage values: 杠杆值。
③“Prediction Intervals”预测区间选项:
Mean: 区间的中心位置。
Individual: 观测量上限和下限的预测区间。在当前数据文件中新添加一个以字符“LICI_”开头命名的变量,存放
预测区间下限值;以字符“UICI_”开头命名的变量,存放预测区间上限值。
Confidence Interval:置信度。
本例不选。
④“Save to New File”保存为新文件:
选中“Coefficient statistics”项将回归系数保存到指定的文件中。本例不选。
⑤ “Export model information to XML file” 导出统计过程中的回归模型信息到指定文件。本例不选。
⑥“Residuals” 保存残差选项:
“Unstandardized”非标准化残差。
“Standardized”标准化残差。
“Studentized”学生氏化残差。
“Deleted”删除残差。
“Studentized deleted”学生氏化删除残差。
本例不选。
⑦“Influence Statistics” 统计量的影响。
“DfBeta(s)”删除一个特定的观测值所引起的回归系数的变化。
“Standardized DfBeta(s)”标准化的DfBeta值。
“DiFit” 删除一个特定的观测值所引起的预测值的变化。
“Standardized DiFit”标准化的DiFit值。
“Covariance ratio”删除一个观测值后的协方差矩隈的行列式和带有全部观测值的协方差矩阵的行列式的比率。
本例子不保存任何分析变量,不选择。
8)其它选项
在主对话框里单击“Options”按钮,将打开如图2-6所示的对话框。

图2-6 “Options”设置对话框
①“Stepping Method Crite
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28