用因子分析结果进行聚类分析-CDA数据分析师官网

热线电话：13121318867

用因子分析结果进行聚类分析

2021-08-05

用因子分析结果进行聚类分析

得到因子得分并不是最终的结果，降维是为了使我们的思路更加集中，但降维结束后得到的却未必是我们所期望的。为了更好的加以分析，我们可以在降维因子分析的基础上对得到的潜在因子进行聚类或者计算出综合因子得分进行排序。综合因子得分的计算前面我已经讨论过了，卢老师的书里介绍了因子分析之后进行聚类分析，放在这里学习学习。

【案例】：美国洛杉矶12个地区的调查数据（人口、校龄、总雇员、房价、服务），该数据可到经管之家论坛spss版块下载。

【案例说明】：12个地区的5个调查指标数据经过因子分析处理后，找到两个潜在的因子：人口因子和福利因子。并且spss自动保存了12个地区的因子得分。这个案例的目的在于评价12个地区经济情况。我们现在走一条曲线救国的思路：利用人口因子和福利因子两个变量进行聚类，看看这12个地区有哪些是相似的（同一类），这些相似的地区有哪些特征，从而集中评价属于同一类的某几个或一个地区。

一、操作：

（1）因子1，因子2为参与聚类的变量，地区编号为标示。

（2）盲聚类，先给定范围2-4类，然后对2、3、4进行比较，最终确定聚为几类。

（3）个人较喜欢输出树状图，讨厌冰柱图。要求输出聚类的树状图。采用欧氏距离平方聚类。

（4）不需要进行标准化处理，因为两个因子本身就是无量纲变量。

二、重要结果（对比）：

（1）从聚类分析输出结果很难看出各地区在经济特性方面的区别。

（2）亮点：因子得分-类别散点图，可视化的效果。

上图显示，2、3、7为第二类，处在人口因子和福利因子都较低的左角，可以认为从5个经济指标来看均较差的地区；1、4、5为第一类，人口因子（人口数和就业人数）得分较低，福利因子较高，即人口和就业者较少，但福利条件去很不错的地区群（这可是梦寐以求的好地方啊！）；6、8、9、11、12为第三类人口因子较高，福利因子较低，人口多，就业者多，比如hn，人口第一大省，但整体经济实力较东部地区差，福利跟不上。

做法：因子得分2为纵轴、因子得分1为横轴（谁横谁纵没有定论），用地区编号标识地区，用聚类得到的各地区类别号分组。（依次做分为2类的、3类的、4类的散点图进行比较）。

三、讨论：

就此案例而言，最终聚为几类合适？我个人的思路：从上面的散点图可以看出，编号为10的这个地区，偏离1、5、4地区较远，聚类过程显示这四个地区为同一类。鉴于1、5、4更集中，10地区较远，用异常值的思想来讲，10地区为异常值，单独放一边讨论，视为特例对待。其他11个地区分为3类。即最终聚为4类（或3类+1特例）。

从这个案例可以看出，我们很有必要在spss既得结果中提取其他可视化图形，比如上面这个因子得分散点图，使分析效果更加显著。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；