聚类算法之K均值 -CDA数据分析师官网

热线电话：13121318867

聚类算法之K均值

2016-01-08

聚类算法之K均值

有时候，我们只有训练样本的特征，而对其类型一无所知。这种情况，我们只能让算法尝试在训练数据中寻找其内部的结构，试图将其类别挖掘出来。这种方式叫做无监督学习。由于这种方式通常是将样本中相似的样本聚集在一起，所以又叫聚类算法。本文，中颢润将介绍一种最常用的聚类算法：K均值聚类算法（K-Means）。

1、K均值聚类

K-Means算法思想简单，效果却很好，是最有名的聚类算法。聚类算法的步骤如下：

a：初始化K个样本作为初始聚类中心；

b：计算每个样本点到K个中心的距离，选择最近的中心作为其分类，直到所有样本点分类完毕；

c：分别计算K个类中所有样本的质心，作为新的中心点，完成一轮迭代。

通常的迭代结束条件为新的质心与之前的质心偏移值小于一个给定阈值。

下面给一个简单的例子来加深理解。如下图有4个样本点，坐标分别为A(-1,-1),B(1,-1),C(-1,1),D(1,1)。现在要将他们聚成2类，指定A、B作为初始聚类中心（聚类中心A0,B0），指定阈值0.1。K-Means迭代过程如下：

step 1.1：计算各样本距离聚类中心的距离：

样本A：d(A,A0) = 0;d(A,B0) = 2;因此样本A属于A0所在类；

样本B：d(B,A0) = 2;d(B,B0) = 0;因此样本B属于B0所在类；

样本C：d(C,A0) = 2;d(C,B0) = 2.8;;因此样本C属于A0所在类；

样本C：d(D,A0) =2.8; d(D,B0) = 2;;因此样本C属于B0所在类；

step 1.2：全部样本分类完毕，现在计算A0类（包含样本AC）和B0类（包含样本BD）的新的聚类中心：

A1 =(-1, 0); B1 = (1,0);

step 1.3：计算聚类中心的偏移值是否满足终止条件：

|A1-A0|= |(-1,0)-(-1,-1) | = |(0,1)| = 1 >0.1，因此继续迭代。

step 2.1：计算各样本距离聚类中心的距离：

样本A：d(A,A1) = 1;d(A,B1) = 2.2;因此样本A属于A1所在类；

样本B：d(B,A1) =2.2; d(B,B1) = 1;因此样本B属于B1所在类；

样本C：d(C,A1) = 1;d(C,B1) = 2.2;;因此样本C属于A1所在类；

样本D：d(D,A1) =2.2; d(D,B1) = 1;;因此样本C属于B1所在类；

step 2.2：全部样本分类完毕，现在计算A1类（包含样本AC）和B1类（包含样本BD）的新的聚类中心：

A2 =(-1, 0); B2 = (1,0);

step 2.3：计算聚类中心的偏移值是否满足终止条件：

|A2-A1|= |B2-B1| = 0 <0.1，因此迭代终止。

2、测试数据

下面这个测试数据有点类似SNS中的好友关系，假设是10个来自2个不同的圈子的同学的SNS聊天记录。显然，同一个圈子内的同学会有更密切的关系和互动。

数据如下所示，每一行代表一个好友关系。如第一行表示同学0与同学1的亲密程度为9（越高表示联系越密切）。

显然，这个数据中并没有告知我们这10个同学分别属于哪个圈子。因此我们的目标是使用K-Means聚类算法，将他们聚成2类。

[plain]view plaincopy

0 1 9

0 2 5

0 3 6

0 4 3

1 2 8

......

这个例子设计的很简单。我们使用上一篇文章中提到的关系矩阵，将其可视化出来，会看到如下结果：

这是个上三角矩阵，因为这个数据中认为好友关系是对称的。上图其实很快能发现，0,1,2,3,4用户紧密联系在一起，而5,6,7,8,9组成了另外一个圈子。

下面我们看看K-Means算法能否找出这个答案。

3、代码与分析

K-Means算法的Python代码如下：

[python]view plaincopy

# -*-coding: utf-8 -*-

frommatplotlib import pyplot

importscipy as sp

importnumpy as np

fromsklearn import svm

importmatplotlib.pyplot as plt

fromsklearn.cluster import KMeans

fromscipy import sparse

#数据读入

data =np.loadtxt('2.txt')

x_p =data[:, :2] # 取前2列

y_p =data[:, 2] # 取前2列

x =(sparse.csc_matrix((data[:,2], x_p.T)).astype(float))[:, :].todense()

nUser =x.shape[0]

#可视化矩阵

pyplot.imshow(x,interpolation='nearest')

pyplot.xlabel('用户')

pyplot.ylabel('用户')

pyplot.xticks(range(nUser))

pyplot.yticks(range(nUser))

pyplot.show()

#使用默认的K-Means算法

num_clusters= 2

clf =KMeans(n_clusters=num_clusters, n_init=1, verbose=1)

clf.fit(x)

print(clf.labels_)

#指定用户0与用户5作为初始化聚类中心

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

matplotlib numpy 无监督学习无监督 python 特征

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

聚类算法之K均值

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】OSM指标体系：自上而下拆解逻辑、搭建流 ...

【CDA干货】选择统计方法前最重要的核心工作：避免9 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载