京公网安备 11010802034615号
经营许可证编号:京B2-20210330
凝聚层次聚类说明
层次聚类可以分成凝聚(agglomerative,自底向上)和分裂(divisive,自顶向下)两种方法来构建聚类层次,但不管采用那种算法,算法都需要距离的相似性度量来判断对数据究竟是采取合并还是分裂处理。
凝聚层次聚类操作
采用层次聚类,将客户数据集分成不同的组,从github上下载数据:
https://github.com/ywchiu/ml_R_cookbook/tree/master/CH9下载
customer.csv文件
customer = read.csv("d:/R-TT/example/customer.csv")
head(customer,10)
ID Visit.Time Average.Expense Sex Age
1 1 3 5.7 0 10
2 2 5 14.5 0 27
3 3 16 33.5 0 32
4 4 5 15.9 0 30
5 5 16 24.9 0 23
6 6 3 12.0 0 15
7 7 12 28.5 0 33
8 8 14 18.8 0 27
9 9 6 23.8 0 16
10 10 3 5.3 0 11
检查数据集结构:
str(customer)
'data.frame': 60 obs. of 5 variables:
$ ID : int 1 2 3 4 5 6 7 8 9 10 ...
$ Visit.Time : int 3 5 16 5 16 3 12 14 6 3 ...
$ Average.Expense: num 5.7 14.5 33.5 15.9 24.9 12 28.5 18.8 23.8 5.3 ...
$ Sex : int 0 0 0 0 0 0 0 0 0 0 ...
$ Age : int 10 27 32 30 23 15 33 27 16 11 ...
对客户数据进行归一化处理:
数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种常用的归一化方法:
一、min-max标准化(Min-Max Normalization)
也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。转换函数如下:

其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。
二、Z-score标准化方法
这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,转化函数为:

其中为所有样本数据的均值,为所有样本数据的标准差。
此处采用方法二
customer = scale(customer[,-1])
customer
Visit.Time Average.Expense Sex Age
[1,] -1.20219054 -1.35237652 -1.4566845 -1.23134396
[2,] -0.75693479 -0.30460718 -1.4566845 0.59951732
[3,] 1.69197187 1.95762206 -1.4566845 1.13800594
[4,] -0.75693479 -0.13791661 -1.4566845 0.92261049
[5,] 1.69197187 0.93366567 -1.4566845 0.16872643
[6,] -1.20219054 -0.60226893 -1.4566845 -0.69285535
[7,] 0.80146036 1.36229858 -1.4566845 1.24570366
[8,] 1.24671612 0.20737101 -1.4566845 0.59951732
[9,] -0.53430691 0.80269450 -1.4566845 -0.58515763
[10,] -1.20219054 -1.40000240 -1.4566845 -1.12364624
使用自底向上的聚类方法处理数据集:
hc = hclust(dist(customer,method = "euclidean"),method = "ward.D2")
> hc
Call:
hclust(d = dist(customer, method = "euclidean"), method = "ward.D2")
Cluster method : ward.D2
Distance : euclidean
Number of objects: 60
最后,调用plot函数绘制聚类树图
plot(hc,hang = -0.01,cex =0.7)

使用离差平方和绘制聚类树图
还可以使用最短距离法(single)来生成层次聚类并比较以下两者生成的聚类树图的差异:
hc2 = hclust(dist(customer),method = "single")
plot(hc2,hang = -0.01,cex = 0.7)

使用最短距离法绘制聚类树图
凝聚层次聚类原理
层次聚类是一种通过迭代来尝试建立层次聚类的方法,通常可以采用以下两种方式完成:
凝聚层次聚类
这是一个自底向上的聚类方法。算法开始时,每个观测样例都被划分到单独的簇中,算法计算得出每个簇之间的相似度(距离),并将两个相似度最高的簇合成一个簇,然后反复迭代,直到所有的数据都被划分到一个簇中。
分裂层次聚类
这是一种自顶向下的聚类算法,算法开始时,每个观测样例都被划分同一个簇中,然后算法开始将簇分裂成两个相异度最大的小簇,并反复迭代,直到每个观测值属于单独一个簇。
在执行层次聚类操作之前,我们需要确定两个簇之间的相似度到底有多大,通常我们会使用一些距离计算公式:
最短距离法(single linkage),计算每个簇之间的最短距离:
dist(c1,c2) = min dist(a,b)
最长距离法(complete linkage),计算每个簇中两点之间的最长距离:
dist(c1,c2) = max dist(a,b)
平均距离法(average linkage),计算每个簇中两点之间的平均距离:
最小方差法(ward),计算簇中每个点到合并后的簇中心的距离差的平方和。
调用plot函数绘制聚类图,样例的hang值小于0,因此聚类树将从底部显示标签,并使用cex将坐标轴上的标签字体大小缩小为正常的70%,此外,为了比较最小方差法和最短距离法在层次聚类上的差异,我们还绘制了使用最短距离法得到的聚类树图。
分裂层次聚类
调用diana函数执行分裂层次聚类
library(cluster)
dv = diana(customer,metric = "euclidean")
调用summary函数输出模型特征信
summary(dv)
如果想构建水平聚类树
library(magrittr)
dend = customer %>% dist %>% hclust %>% as.dendrogram
dend %>% plot(horiz = TRUE,main = "Horizontal Dendrogram")

水平聚类树
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、机器学习的实操场景中,聚类分析与主成分分析(PCA)是两种高频使用的统计与数据处理方法。二者常被用于数据预处理 ...
2026-02-24在聚类分析的实操场景中,K-Means算法因其简单高效、易落地的特点,成为处理无监督分类问题的首选工具——无论是用户画像分层、 ...
2026-02-24数字化浪潮下,数据已成为企业核心竞争力,“用数据说话、用数据决策”成为企业发展的核心逻辑。CDA(Certified Data Analyst) ...
2026-02-24CDA一级知识点汇总手册 第五章 业务数据的特征、处理与透视分析考点52:业务数据分析基础考点53:输入和资源需求考点54:业务数 ...
2026-02-23CDA一级知识点汇总手册 第四章 战略与业务数据分析考点43:战略数据分析基础考点44:表格结构数据的使用考点45:输入数据和资源 ...
2026-02-22CDA一级知识点汇总手册 第三章 商业数据分析框架考点27:商业数据分析体系的核心逻辑——BSC五视角框架考点28:战略视角考点29: ...
2026-02-20CDA一级知识点汇总手册 第二章 数据分析方法考点7:基础范式的核心逻辑(本体论与流程化)考点8:分类分析(本体论核心应用)考 ...
2026-02-18第一章:数据分析思维考点1:UVCA时代的特点考点2:数据分析背后的逻辑思维方法论考点3:流程化企业的数据分析需求考点4:企业数 ...
2026-02-16在数据分析、业务决策、科学研究等领域,统计模型是连接原始数据与业务价值的核心工具——它通过对数据的规律提炼、变量关联分析 ...
2026-02-14在SQL查询实操中,SELECT * 与 SELECT 字段1, 字段2,...(指定个别字段)是最常用的两种查询方式。很多开发者在日常开发中,为了 ...
2026-02-14对CDA(Certified Data Analyst)数据分析师而言,数据分析的核心不是孤立解读单个指标数值,而是构建一套科学、完整、贴合业务 ...
2026-02-14在Power BI实操中,函数是实现数据清洗、建模计算、可视化呈现的核心工具——无论是简单的数据筛选、异常值处理,还是复杂的度量 ...
2026-02-13在互联网运营、产品迭代、用户增长等工作中,“留存率”是衡量产品核心价值、用户粘性的核心指标——而次日留存率,作为留存率体 ...
2026-02-13对CDA(Certified Data Analyst)数据分析师而言,指标是贯穿工作全流程的核心载体,更是连接原始数据与业务洞察的关键桥梁。CDA ...
2026-02-13在机器学习建模实操中,“特征选择”是提升模型性能、简化模型复杂度、解读数据逻辑的核心步骤——而随机森林(Random Forest) ...
2026-02-12在MySQL数据查询实操中,按日期分组统计是高频需求——比如统计每日用户登录量、每日订单量、每日销售额,需要按日期分组展示, ...
2026-02-12对CDA(Certified Data Analyst)数据分析师而言,描述性统计是贯穿实操全流程的核心基础,更是从“原始数据”到“初步洞察”的 ...
2026-02-12备考CDA的小伙伴,专属宠粉福利来啦! 不用拼运气抽奖,不用复杂操作,只要转发CDA真题海报到朋友圈集赞,就能免费抱走实用好礼 ...
2026-02-11在数据科学、机器学习实操中,Anaconda是必备工具——它集成了Python解释器、conda包管理器,能快速搭建独立的虚拟环境,便捷安 ...
2026-02-11在Tableau数据可视化实操中,多表连接是高频操作——无论是将“产品表”与“销量表”连接分析产品销量,还是将“用户表”与“消 ...
2026-02-11