
数据分析技术:聚类分析;可怕的不是阶层固化,而是因此放弃了努力
划分类别、等级和阶层的行为自发或不自发的存在于社会生活的各个角落。例如,可以根据家庭年收入情况将所有家庭划分为低收入到高收入的不同阶层;根据人们的工作性质,也可以将人们划分不同阶层;根据出生地和生活习惯,同样可以对人群进行分类。对事物分门别类依据的是不同事物身上共同的标签。
分阶层、分等级、分类别从来都不是一个能够被简单定义好坏的行为。中华几千年的文明历史,从奴隶社会、封建社会,再跨越进入社会主义社会的初级阶段,没有那种社会形态只存在一种阶层,一种人群。在不同的阶层和人群间,也必然存在协作、欺压甚至剥削等不同的相处模式,这是由不同群体身上的标签决定的,这是分类残酷的一面。对于数据分析者和商业运营者来说,不同类别事物身上的特有标签是他们需要充分利用的信息,例如,年轻人喜欢闹腾消遣娱乐方式;女性消费者是化妆品的主要购买和使用者;老年社会的来临,意味着养老机构存在极大的需求缺口等等,这是分类信息带给商业运营者制定下一步发展策略的方向。
上面列举的例子都是通过一个指标、特征或标签就对所有的事物进行分类,这样的分类情况是非常简单和明确的。然而,如果分类需要考虑的标签是多个,事物在这些标签上的表现有好有坏,那么就需要用到聚类分析来达到我们的需求了。
聚类分析原理
在介绍聚类分析原理前,需要强调一个事实。同其它统计分析方法不同,聚类分析是一种探索性的分析方法,也就是说不用也没有办法对聚类分析的结果进行“是否正确”的检验,只能依据聚类结果在具体问题中的“有用性”来判断聚类效果的好坏,没有正确或错误之分。
聚类分析的实质就是按照事物之间距离的远近进行分类,其分析结果使同类别事物的距离(差异)尽可能小,不同类别的距离(差异)尽可能大。根据聚类分析的逻辑,以下几个问题是需要大家清楚理解的。
距离的定义
事物身上的指标数据(标签数据)类型可以分成两类:分类数据(定类或定序)以及连续型数据(定距和定比),这两类数据在聚类分析时,常用的距离测量方式是完全不同的,连续型数据一般使用欧氏平方距离,而分类数据使用的则是卡方相关性。对于连续型数据的欧式距离或欧式平方距离,可以用下面的公式表示,是非常好理解的:
基于不同数据类型,定义距离的方式不同,因此传统聚类方法只能使用单一种类的指标数据进行聚类分析,如果数据中同时含有两类数据,那么只能选取其中一种进行分析。令人高兴的是,随着聚类分析方法的发展,一些智能聚类方法已经可以很好的同时分析这两种变量,两步聚类就是最常用的只能聚类方法。
通过上面介绍的欧式距离公式,我们会发现一个很明显的缺陷,那就是不同指标数据的单位或数量级相差很大,那么数量级大的指标数据会对欧式距离产生更大的影响。例如,x的数量级如果是万,而y数量级仅为十,那么y变量对欧式距离结果的影响相对于x来说就显得微不足道了。解决这个缺陷最常用的办法就是数据标准化,使得不同数量级的数据回到同一起跑线。常用的标准化方式就是把数据转化成标准化分数,当然也可以根据实际情况将不同数量级的数据变换成同一个数量级进行比较。
聚类方法
聚类分析经过多年的发展,已经逐渐形成常用的三种聚类方法:层次聚类法、K-Mean聚类法和二阶聚类法。下面对这三种聚类方法的聚类逻辑进行介绍,后面会用三篇推送具体介绍它们的原理、SPSS软件实现和生活案例应用。
层次聚类法
层次聚类法是传统的聚类方法,它首先需要根据指标数据类型确定距离的基本定义和计算方式,随后按照距离的远近,将所有的事物(个案)一步一步的归成一类。这样聚类的结果显然存在嵌套,或者说不同类别间会有层次关系,因此被称为层次聚类法。层次聚类可用一张二维空间图来表示,称为树状图。
K-均值聚类
层次聚类的分析过程是非常细致的,需要计算所有事物(个案)两两之间的距离,所以聚类的效率不高。K-均值聚类可以在一定程度上解决这个问题。K-均值聚类在聚类之前就确定好了最终的类别数和类别坐标,整个分析过程使用迭代的方式进行。通过不断的迭代把事物(个案)在不同类别之间移动,直到找到距离最短的类别,然后将该事物归于此类。整个计算过程中不需要存储基本数据,因此不会出现嵌套结果,计算速度也非常快。
二阶聚类
随着数据收集和存储设备的发展,海量数据的聚类分析已经称为迫切的需求,而上面介绍的两种聚类方法在速度和效率上还不能满足要求。首先是面对海量数据,过高的计算量会使上面两种方法不具实用价值;其次上面两种聚类方法不能处理复杂指标数据同时存在的情况,特别是连续型和离散型数据混合出现的情况。二阶聚类能够解决上面两种聚类方法不能处理的复杂情况。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-06-052025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27