京公网安备 11010802034615号
经营许可证编号:京B2-20210330
SPSS分析技术:典型相关分析;化繁为简,典型相关分析帮助分析者理清思路
之前介绍过的相关分析有两个变量之间的线性相关关系,用的是简单相关系数r;还有复相关系数,用来表示一个变量与多个变量组成的整体之间的线性相关关系;很多人会问,如果想研究两组变量之间的相关关系,该使用什么方法呢?今天介绍的典型相关分析就是用于解决这个问题的分析方法。
在实际生活当中,关于两组变量之间的相关关系研究很多。例如,某个城市的经济发展水平(GDP、货物周转量、生产建设投资等)与居民生活水平(居民人均年收入、居民财产性收入、恩格尔系数等)间的相关关系;大学生毕业时的成绩(各种科目成绩)和入学时成绩的相关关系;公司内不同职位与员工工作满意度之间的相关关系;领导者的领导能力与情绪智力的相关关系等。典型相关分析在实证研究中有广泛的运用,常常被作为结构方程模型研究的基础步骤。
上方左图是典型相关分析的结果展示图,这和右边的拔河图有异曲同工之处。两个环境中的每个参与者(变量)都是决定结果的因子。
典型相关关系
学习过前面介绍的因子分析的朋友应该很容易想到:是否能够从两组变量中提取公因子,然后用公因子之间的线性相关关系表示两组变量之间的相关关系呢?如果能想到这一点,说明已经拥有知识点拓展和触类旁通的数据分析能力。典型相关分析就是借用了主成分分析的分析逻辑,通过原始变量的线性组合,找到一个或几个综合变量来替代原始变量,从而将两组原始变量的相关关系研究转换成少数几对综合变量的相关关系研究。
典型相关分析首先对两组变量进行线性组合,找到一对综合变量,使这对综合变量具有最大相关性;然后再通过线性组合找出第二对综合变量,它们之间的相关关系会小于第一对综合变量;重复以上操作,直到两组变量的数据信息提取完成为止。提取的综合变量被称为典型变量或典则变量,它们之间的相关系数称为典型相关系数。与主成分分析相似,只需提取少数几对综合变量就可以概括两组变量的数据信息。典型相关分析与因子分析虽然都是通过原始变量的线性组合实现数据信息的浓缩,但是二者还是有不同的,不同之处在于变量线性组合的标准不一样。
因子分析的目的是简化分析局面。基于一组变量的相关关系,用少数几个公因子代替整个变量组的信息(数据的变异),实现变量降维,简化数据分析局面。因此,因子分析在做原始变量线性组合时,寻找公因子的标准是数据变异或波动最大的方向。而典型相关分析的目的是研究两组变量之间的相关关系,因此在做原始变量的线性组合时(提取公因子),考虑的重点在于寻找相关关系最强的典型变量对,简化两组变量之间错综复杂的相关关系网。
案例分析
我们国家是个人口大国,最近一次人口普查结果显示我们国家的人口数达到13.3亿人,农村人口数达到50.32%,因此提高农村居民的生活水平一直以来都是国家管理的重要内容。农村居民的收入和支出能够很好地反映农村居民的生活水平。现在有一份数据,收集了全国30个省市自治区直辖市的农村居民收入和支出情况,包括四项收入数据和8项支出数据:分别是劳动收入(X1)、经营收入(X2)、转移收入(X3)、财产收入(X4);食品支出(Y1)、衣着支出(Y2)、居住支出(Y3)、家庭设备和服务支出(Y4)、医疗保健支出(Y5)、交通通讯支出(Y6)、文教娱乐支出(Y7)、其它支出(Y8)。SPSS数据如下图所示:
操作须知
SPSS没有为典型相关分析设置专门的操作菜单,只提供了一份名为Canonical correlation.sps的宏程序文件,这个文件存放在SPSS安装文件夹Samples文件夹内。只需在使用时调用,并输入参数语句即可调用输出结果。
分析步骤
点击菜单【文件】-【新建】-【数据】,跳出语法编辑器窗口,输入以下内容。点击确定,输出结果。
结果解释
1、相关系数矩阵;结果输出了三个相关系数矩阵,分别是第一组变量、第二组变量、第一组与第二组之间的相关系数矩阵。变量线性组合的基础就是相关系数矩阵。从前两个相关系数矩阵可以发现,两组变量内部,变量之间的相关系数都非常大,说明它们反映的收入和支出因素是类似的,所以不能很好的反映影响农民收入和支出水平的整体情况。
2、线性相关系数及显著性检验。本案例中提取了4对典型变量(每组变量提取4个公因子),这四对变量之间的相关系数依次降低,从0.980减少到0.561。显著性检验结果显示只有前面两对典型变量的相关系数有统计学意义。
3、典型变量系数;下面有四个表格,第一行的两个表是第一组变量抽取典型变量的结果,作图使用标准化的原始变量数据,右图直接使用原始变量数据;第二行的两个表格则是第二组变量抽取典型变量的结果。根据这些表格的数据可以写出典型变量的计算公式。
第二步的典型变量相关系数的检验结果显示,只有前面两对典型变量的相关系数有统计学意义,U1与V1的相关系数为0.980,U2与V2的相关系数为0.908,因此下面只写出这两对典型变量由标准化数据组成的计算公式:
可以发现,因为两组变量的系数很多都是负的,所以这两对典型变量的现实含义不好解释,原因就在于前面提到的两组变量内部的相关关系太强,无法表示农村居民收入的综合情况。本案例数据建立的典型相关模型的效果很差,应该重新选择能够充分反映农村居民收入水平的变量。
4、相关系数结果;下图四个表是相关系数表,第一列是本组变量与本组产生的典型变量的相关系数;第二列是本组变量与另一组变量产生的典型变量之间的相关系数。
根据相关系数数据,可以做出两对典型变量的相关系数结构图,由于作图的方式是一样的,因此用第一对典型变量为例进行说明。从结构图同样可以知道,四个收入变量与公因子U1的相关系数都是负数,而8个支出变量与公因子V1的相关系数也都为负数,同样说明了本案例的典型相关模型效果很差,不能用现实含义来解释。
推荐学习书籍
《CDA一级教材》适合CDA一级考生备考,也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校,累计已有10万+在读~

免费加入阅读:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化商业环境中,数据已成为企业优化运营、抢占市场、规避风险的核心资产。但商业数据分析绝非“堆砌数据、生成报表”的简单 ...
2026-01-20定量报告的核心价值是传递数据洞察,但密密麻麻的表格、复杂的计算公式、晦涩的数值罗列,往往让读者望而却步,导致核心信息被淹 ...
2026-01-20在CDA(Certified Data Analyst)数据分析师的工作场景中,“精准分类与回归预测”是高频核心需求——比如预测用户是否流失、判 ...
2026-01-20在建筑工程造价工作中,清单汇总分类是核心环节之一,尤其是针对楼梯、楼梯间这类包含多个分项工程(如混凝土浇筑、钢筋制作、扶 ...
2026-01-19数据清洗是数据分析的“前置必修课”,其核心目标是剔除无效信息、修正错误数据,让原始数据具备准确性、一致性与可用性。在实际 ...
2026-01-19在CDA(Certified Data Analyst)数据分析师的日常工作中,常面临“无标签高维数据难以归类、群体规律模糊”的痛点——比如海量 ...
2026-01-19在数据仓库与数据分析体系中,维度表与事实表是构建结构化数据模型的核心组件,二者如同“骨架”与“血肉”,协同支撑起各类业务 ...
2026-01-16在游戏行业“存量竞争”的当下,玩家留存率直接决定游戏的生命周期与商业价值。一款游戏即便拥有出色的画面与玩法,若无法精准识 ...
2026-01-16为配合CDA考试中心的 2025 版 CDA Level III 认证新大纲落地,CDA 网校正式推出新大纲更新后的第一套官方模拟题。该模拟题严格遵 ...
2026-01-16在数据驱动决策的时代,数据分析已成为企业运营、产品优化、业务增长的核心工具。但实际工作中,很多数据分析项目看似流程完整, ...
2026-01-15在CDA(Certified Data Analyst)数据分析师的日常工作中,“高维数据处理”是高频痛点——比如用户画像包含“浏览次数、停留时 ...
2026-01-15在教育测量与评价领域,百分制考试成绩的分布规律是评估教学效果、优化命题设计的核心依据,而正态分布则是其中最具代表性的分布 ...
2026-01-15在用户从“接触产品”到“完成核心目标”的全链路中,流失是必然存在的——电商用户可能“浏览商品却未下单”,APP新用户可能“ ...
2026-01-14在产品增长的核心指标体系中,次日留存率是当之无愧的“入门级关键指标”——它直接反映用户对产品的首次体验反馈,是判断产品是 ...
2026-01-14在CDA(Certified Data Analyst)数据分析师的业务实操中,“分类预测”是高频核心需求——比如“预测用户是否会购买商品”“判 ...
2026-01-14在数字化时代,用户的每一次操作——无论是电商平台的“浏览-加购-下单”、APP的“登录-点击-留存”,还是金融产品的“注册-实名 ...
2026-01-13在数据驱动决策的时代,“数据质量决定分析价值”已成为行业共识。数据库、日志系统、第三方平台等渠道采集的原始数据,往往存在 ...
2026-01-13在CDA(Certified Data Analyst)数据分析师的核心能力体系中,“通过数据建立模型、实现预测与归因”是进阶关键——比如“预测 ...
2026-01-13在企业数字化转型过程中,业务模型与数据模型是两大核心支撑体系:业务模型承载“业务应该如何运转”的逻辑,数据模型解决“数据 ...
2026-01-12当前手游市场进入存量竞争时代,“拉新难、留存更难”成为行业普遍痛点。对于手游产品而言,用户留存率不仅直接决定产品的生命周 ...
2026-01-12