热线电话：13121318867

首页大数据时代【CDA干货】K-Means 聚类：无监督学习中数据分群的核心算法

【CDA干货】K-Means 聚类：无监督学习中数据分群的核心算法

2025-09-03

K-Means 聚类：无监督学习中数据分群的核心算法

在数据分析领域，当我们面对海量无标签数据（如用户行为记录、商品属性数据、图像像素信息）时，如何快速发现数据内在的分组规律？K-Means 聚类算法正是解决这一问题的 “利器”。作为无监督学习中最经典、应用最广泛的聚类方法，它通过 “划分簇群” 的核心逻辑，将相似数据归为一类、差异数据分属不同类，为后续的特征分析、决策制定提供基础支撑。从电商平台的客户分群到医学影像的细胞分割，K-Means 以其简单高效的特性，成为数据挖掘工程师的必备工具。

一、核心概念：理解 K-Means 的 “语言体系”

要掌握 K-Means，需先明确三个关键概念 ——簇（Cluster）、质心（Centroid） 与距离度量，它们共同构成了算法的基础框架。

1. 簇：数据的 “自然分组”

簇是 K-Means 的最终输出，指 “具有相似特征的数据样本集合”。例如，电商平台的用户数据中，“高消费频次、高客单价” 的用户会形成一个簇，“低消费频次、低客单价” 的用户会形成另一个簇；图像像素数据中，“亮度高、饱和度低” 的像素会聚集为 “背景簇”，“亮度中等、饱和度高” 的像素会聚集为 “目标物体簇”。簇的本质是 “数据内在相似性的外在体现”，而 K-Means 的核心目标就是找到这些 “自然分组”。

2. 质心：簇的 “几何中心”

质心是每个簇的 “代表性样本”，其数学定义为 “簇内所有样本特征的平均值”。对于包含个样本、每个样本有个特征的簇，若样本特征向量为（每个），则该簇的质心计算公式为：

例如，对 “消费频次（次 / 月）” 和 “客单价（元）” 两个特征的用户簇，若簇内有 3 个用户：(10, 500)、(12, 600)、(8, 450)，则质心为，这个点就是该簇用户的 “平均特征代表”。

3. 距离度量：判断 “相似性” 的标准

K-Means 通过 “计算样本与质心的距离” 判断样本归属，距离越近，说明样本与该簇的相似性越高。最常用的距离度量是欧氏距离（适用于连续型特征，如身高、消费金额），对于两个维特征向量和，欧氏距离的计算公式为：

此外，针对稀疏数据（如文本的词频向量）会使用 “曼哈顿距离”，针对高维数据（如图像特征）会使用 “余弦相似度”，但欧氏距离因计算简单、直观，仍是 K-Means 的默认选择。

二、算法步骤：K-Means 的 “工作流程”

K-Means 的核心逻辑是 “迭代优化”—— 通过不断调整质心位置，最小化簇内样本的 “总距离误差”（即簇内平方和，SSE）。其标准步骤可拆解为 5 步，每一步都有明确的目标与操作：

步骤 1：确定簇数（核心输入参数）

是用户需提前指定的参数，代表 “希望将数据划分为多少个簇”。例如，电商平台若想将客户分为 “高价值、中等价值、低价值” 三类，则；图像分割若想区分 “背景、目标 1、目标 2”，则。的选择直接影响聚类结果，是 K-Means 的关键难点（后续会详细说明如何合理选择）。

步骤 2：初始化个质心

从所有样本中随机选择个 “初始质心”—— 这是算法的起点，但需注意：初始质心不能重复，且应尽量分散（若初始质心过于集中，易导致聚类结果陷入 “局部最优”）。

示例：对包含 100 个用户的数据集（特征为 “消费频次、客单价”），若，则随机挑选 3 个用户的特征向量作为初始质心，如、、。

步骤 3：分配样本到最近的簇

对每个样本，计算其与个质心的距离（如欧氏距离），将样本分配到 “距离最近的质心所在的簇”。

示例：某用户特征为 (12, 650)，计算其与 3 个初始质心的距离：

与的距离：
与的距离：
与的距离：

因与距离最近，该用户被分配到所在的簇（暂称为 “中等消费簇”）。

重复此操作，直到所有样本都被分配到对应的簇，形成个临时簇群。

步骤 4：更新簇的质心

对步骤 3 形成的每个簇，重新计算其质心（即簇内所有样本特征的平均值），用新质心替代旧质心。

示例：若 “中等消费簇” 包含 5 个用户，特征分别为 (10, 500)、(12, 600)、(8, 450)、(15, 700)、(12, 650)，则新质心为：

新质心更能代表当前簇的 “平均特征”，为下一轮迭代提供更准确的参考。

步骤 5：判断迭代终止条件

重复步骤 3（分配样本）和步骤 4（更新质心），直到满足以下任一条件：

质心稳定：两次迭代中，所有质心的位置变化小于预设阈值（如 0.001），说明簇的结构已稳定；
误差收敛：簇内平方和（SSE，即所有样本到其所属簇质心的距离平方和）不再显著下降；
迭代次数上限：达到预设的最大迭代次数（如 100 次），避免算法陷入无限循环。

当满足终止条件时，输出最终的个簇及对应的质心，聚类过程完成。

三、关键问题与解决方案：让 K-Means 更 “靠谱”

K-Means 虽简单高效，但存在两个核心痛点：K 值如何选、初始质心如何优化。若不解决这些问题，聚类结果可能完全偏离数据的真实规律。

1. K 值选择：找到 “最优簇数”

的选择无固定标准，但可通过两种常用方法辅助判断：

（1）肘部法则（Elbow Method）

核心逻辑：计算不同值对应的 “簇内平方和（SSE）”，绘制与 SSE 的关系曲线 —— 随着增大，SSE 会逐渐下降（因为簇内样本越来越相似）；当达到某个值后，SSE 的下降幅度会突然变缓，形成 “肘部”（曲线的拐点），这个 “肘部” 对应的就是最优值。

示例：对客户数据聚类时，时 SSE=10000，时 SSE=5000（下降 50%），时 SSE=2000（下降 60%），时 SSE=1800（仅下降 10%），时 SSE=1700（下降 5%）—— 此时是 “肘部”，对应最优簇数。

（2）轮廓系数（Silhouette Coefficient）

核心逻辑：对每个样本，计算 “簇内相似度”（样本与簇内其他样本的平均距离，记为）和 “簇间不相似度”（样本与最近其他簇的平均距离，记为），单个样本的轮廓系数为；所有样本的轮廓系数平均值即为整体轮廓系数，取值范围为—— 系数越接近 1，说明聚类效果越好（样本在簇内越相似，与其他簇越差异）。

通过计算不同值的轮廓系数，选择系数最大的作为最优值，适用于对聚类效果要求较高的场景。

2. 初始质心优化：避免 “局部最优”

标准 K-Means 的初始质心随机选择，易导致结果陷入 “局部最优”（如初始质心集中在数据的某一区域，聚类后簇的分布不均衡）。解决方法是使用K-Means++ 算法，其优化逻辑如下：

从所有样本中随机选择 1 个样本作为第一个初始质心；
对剩余每个样本，计算其与已选质心的 “最小距离”，距离越大的样本，被选为下一个质心的概率越高；
重复步骤 2，直到选够个质心；
后续步骤与标准 K-Means 一致。

K-Means++ 通过让初始质心尽量分散，大幅降低了陷入局部最优的概率，是工业界常用的优化方案（多数工具库如 Scikit-Learn 的 K-Means 默认采用此方法）。

四、典型应用场景：K-Means 的 “用武之地”

K-Means 的应用覆盖多个领域，核心是 “无标签数据的分群与规律挖掘”：

1. 客户分群：精准营销的基础

电商、金融等行业可通过 K-Means 对客户聚类，例如：

特征：消费频次、客单价、复购率、浏览时长；
簇群：高价值客户（高频次、高客单价、高复购）、潜力客户（中频次、中客单价、低复购）、流失风险客户（低频次、低客单价、零复购）；
应用：对高价值客户推送专属权益，对潜力客户发送满减券，对流失风险客户触发召回短信，提升营销效率。

2. 图像分割：简化图像分析

在计算机视觉中，K-Means 可将图像像素按 “颜色特征（RGB 值）” 聚类，实现图像分割：

例如，对卫星遥感图像，将像素分为 “植被（绿色系）、水体（蓝色系）、建筑（灰色系）”3 个簇，快速提取土地利用信息；
对医学影像（如 CT 图），将像素分为 “正常组织、病变组织、背景”，辅助医生定位病灶。

3. 文本聚类：挖掘主题关联

对大量无标签文本（如新闻、用户评论），先将文本转化为 “词频 - 逆文档频率（TF-IDF）” 特征向量，再用 K-Means 聚类：

例如，对新闻文本聚类，可自动形成 “体育新闻簇、财经新闻簇、科技新闻簇”；
对电商用户评论聚类，可区分 “好评簇（提及‘质量好、物流快’）、差评簇（提及‘质量差、客服差’）”，快速分析产品口碑。

4. 异常检测：识别 “不合群” 数据

正常数据会聚集在某个簇内，而异常数据因特征差异大，会远离所有簇或形成独立的小簇：

例如，金融交易数据中，正常交易形成 “小额高频簇、大额低频簇”，而 “大额高频、跨地域交易” 可能是异常簇，对应盗刷行为；
工业设备传感器数据中，正常数据形成 “稳定运行簇”，异常数据（如温度骤升、振动加剧）形成独立小簇，可预警设备故障。

五、算法优缺点：理性看待 K-Means

优点：

简单高效：算法逻辑清晰，计算复杂度低（时间复杂度为，为样本数，为簇数，为迭代次数），适用于百万级样本的大规模数据；
易实现与解释：多数机器学习工具库（如 Scikit-Learn、TensorFlow）都内置 K-Means 接口，且聚类结果（簇、质心）直观易懂，便于业务落地；
对连续型特征友好：欧氏距离对连续型特征的相似度衡量准确，适用于多数业务场景（如用户行为、商品属性）。

缺点：

需提前指定 K 值：无法自动判断最优簇数，依赖人工经验或辅助方法；
对初始质心敏感：标准 K-Means 易陷入局部最优，需通过 K-Means++ 优化；
对非球形簇不友好：K-Means 假设簇是 “球形分布”（基于欧氏距离），若数据簇为 “长条型”“环形”，聚类效果会大幅下降（需改用 DBSCAN 等算法）；
对异常值敏感：异常值的特征极端，会严重拉偏质心位置（需提前通过箱线图、Z-score 等方法剔除异常值）。