CDA 三级《敏捷数据挖掘》教材知识体系全面解读-CDA数据分析师官网

热线电话：13121318867

CDA 三级《敏捷数据挖掘》教材知识体系全面解读

2026-06-12

CDA三级认证是三个级别中的塔尖，全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材，不再局限于“如何做分析”，而是回答一个更本质的问题：在企业真实场景中，如何系统性地构建、部署、管理和迭代数据挖掘模型？

全书分为理论篇、技术篇、管理篇三大部分，共9章，构建了一条从基础理论到算法实战，再到生产级落地的完整进阶路径。

一、全书整体脉络：三层跃迁，从“懂算法”到“管模型”

┌─────────────────────────────────────────────────────────────────────────┐
│                       《敏捷数据挖掘》完整知识地图                         │
├──────────────────┬──────────────────────────────┬─────────────────────┤
│    理论篇        │          技术篇                │       管理篇         │
│   （第1章）      │        （第2-7章）             │     （第8-9章）      │
│   “立地基”      │        “精技艺”                │      “建体系”        │
├──────────────────┼──────────────────────────────┼─────────────────────┤
│ 数据分析层级     │ 第2章 决策类模型                │ 第8章 MLOps          │
│ 数据挖掘方法论   │ 回归·聚类·关联规则              │ 版本·测试·持续部署    │
│ CRISP-DM/SEMMA  │        ↓                      │ 持续监控·自动化       │
│ 核心思维         │ 第3章 识别类模型                │        ↓            │
│ 算法建模四要素   │ 决策树·集成·SVM·神经网络·异常检测│ 第9章 模型生命周期管理 │
│ 模型分类与评估   │        ↓                      │ 开发→上线→退役        │
│                  │ 第4章 优化分析类模型            │ 模型管理·服务·权限    │
│                  │ 时间序列·运筹优化·流程挖掘      │                     │
│                  │        ↓                      │                     │
│                  │ 第5章 参数调优                 │                     │
│                  │ 网格/随机/并行搜索             │                     │
│                  │        ↓                      │                     │
│                  │ 第6章 特征工程                 │                     │
│                  │ 构造·选择·转换                │                     │
│                  │        ↓                      │                     │
│                  │ 第7章 类别不平衡              │                     │
│                  │ 过采样·欠采样·合成·惩罚        │                     │
└──────────────────┴──────────────────────────────┴─────────────────────┘

理论篇（第1章）：建立数据挖掘的世界观和方法论基础，理解算法背后的共性与评估逻辑。
技术篇（第2-7章）：按场景组织算法，从决策类→识别类→优化分析类，并辅以调优、特征工程、不平衡处理三大支撑技术。
管理篇（第8-9章）：跃升到工程与组织层面，解决“模型如何在生产环境中持续创造价值”的问题。

二、理论篇（第1章）：数据挖掘的“第一性原理”

本章是全书的基石，它不教具体算法，而是回答：数据挖掘到底是什么？怎么做？如何判断做得好不好？

1.1 企业中数据分析的层级

从低到高，数据分析在企业中通常分为四个层级：

描述性分析：发生了什么？（报表、仪表盘）
诊断性分析：为什么会发生？（下钻、根因）
预测性分析：将会发生什么？（回归、时序）
指导性分析：我们该怎么做？（优化、模拟）

数据挖掘主要覆盖后两个层级，尤其是预测性和指导性分析。

1.2 数据分析的过程

引出经典的数据分析通用流程，为后续方法论铺垫。

1.3 数据挖掘方法论

介绍两大行业标准：

CRISP-DM：跨行业数据挖掘标准流程，包含6个阶段：业务理解 → 数据理解 → 数据准备 → 建模 → 评估 → 部署。强调循环迭代，是工业界事实标准。
SEMMA：SAS公司提出的方法论，包含5个步骤：Sample（抽样）→ Explore（探索）→ Modify（修改）→ Model（建模）→ Assess（评估）。

两者本质相通，CRISP-DM更强调业务理解和部署，SEMMA更偏技术步骤。

1.4 数据挖掘的核心思维

包括但不限于：

没有免费午餐定理：不存在一个永远最好的算法，需要根据问题选择。
奥卡姆剃刀：如无必要，勿增实体——简单模型优先。
集成学习思想：多个弱模型组合成强模型（后文决策树集成会体现）。
偏差-方差权衡：复杂模型低偏差高方差，简单模型高偏差低方差。

1.5 算法建模的4个要素

这是本章的核心亮点，它将所有机器学习算法抽象为四个可拆解的组件：

要素	含义	示例
目标函数	模型优化的目标，定义什么是“好”	最小化均方误差（回归）、最大化似然（分类）、最大化类间距离（SVM）
学习策略	从数据中学习的方式	批量学习、在线学习、主动学习
寻优方法	求解目标函数的数学方法	梯度下降、牛顿法、坐标下降、SMO
评估方法	判断模型泛化能力的标准	交叉验证、留出法、自助法

理解这四个要素，就能看懂任何一个算法的设计思路。

1.6 算法模型分类介绍

预测性——有监督学习：有标签数据，包括回归（预测连续值）和分类（预测离散类别）。
描述性——无监督学习：无标签数据，包括聚类、关联规则、降维。

1.7 数据挖掘落地场景框架

将算法与业务场景对应，后文第2-4章就是按场景展开的。

1.8 数据挖掘建模模型的评估

详细讲解分类、回归、聚类各自的评估指标：

分类：准确率、精确率、召回率、F1、ROC-AUC、KS、混淆矩阵
回归：MSE、RMSE、MAE、R²、调整R²
聚类：轮廓系数、CH指数、DBI指数


本章价值：学完本章，你将对数据挖掘形成一个完整的认知框架，后续每一章的新算法，都可以用“四要素+方法论+评估”这个框架去理解和记忆。
”

三、技术篇（第2-7章）：场景驱动的算法实战与进阶技术

技术篇按业务场景组织算法，并额外增加三个支撑性技术章节（参数调优、特征工程、类别不平衡），形成“场景算法 + 通用技术”的双轮驱动。

第2章决策类模型：帮助企业“做决定”

本章覆盖四种典型的决策场景：

2.1 客户价值预测 → 线性回归及正则化

从简单线性回归到多元线性回归，再到变量筛选（逐步回归、AIC/BIC）
模型假设检验（线性、独立、正态、等方差）、残差分析、强影响点分析（Cook距离）
正则化：岭回归（L2）和Lasso回归（L1），解决过拟合和特征选择问题
完整案例：预测客户未来消费金额

2.2 营销响应预测 → 逻辑回归

逻辑回归与线性回归的区别（链接函数：logit）
分类变量的处理（WoE转换、哑编码）
模型评估（混淆矩阵、ROC、KS、提升图）
案例：预测客户是否会响应营销活动

2.3 细分画像 → 聚类算法

K-means聚类（迭代优化、手肘法选K）
基于密度的聚类（DBSCAN），可发现任意形状的簇并识别噪声

2.4 交叉销售 → 关联规则与序列模式

关联规则（Apriori算法）：支持度、置信度、提升度，发现“买了A也买B”
序列模式：考虑时间顺序的关联，如“先买手机，两周后买手机壳”


本章逻辑：从连续值预测（回归）→ 二分类预测（逻辑回归）→ 无监督分群（聚类）→ 购物篮分析（关联规则），覆盖了企业最常见的决策需求。
”

第3章识别类模型：帮助企业“辨真假”

本章聚焦于分类和异常检测，算法密度最高。

3.1 申请反欺诈：多种分类模型

决策树：ID3、C4.5、CART，可解释性强，但容易过拟合
集成算法：随机森林（Bagging）、XGBoost/LightGBM（Boosting），是目前工业界的主流
K近邻算法（KNN）：基于距离的懒惰学习，简单但计算量大
朴素贝叶斯：基于条件独立假设，适合高维数据
支持向量机（SVM）：寻找最大间隔超平面，可处理非线性（核技巧）
神经网络：从感知机到多层网络，为深度学习打基础

3.2 违规行为识别：异常检测

孤立森林：基于隔离异常点的思想，效率高，适合高维数据
局部异常因子（LOF）：基于密度的异常检测，识别局部离群点


本章亮点：覆盖了传统机器学习几乎所有主流分类算法，并给出了“反欺诈”和“异常检测”两个典型应用场景。
”

第4章优化分析类模型：从“预测”到“决策”

本章突破了传统的预测建模，进入指导性分析和运筹优化领域。

4.1 预测技术

ARIMA：基于时间序列自回归移动平均的动力模型，适合平稳序列预测
LSTM：长短期记忆网络，深度学习处理时序数据，可捕捉长期依赖

4.2 运筹优化

线性规划（单纯形法）、整数规划（分支定界）、非线性规划
与数据挖掘结合：用预测结果作为优化模型的输入（如预测销量后优化库存）

4.3 流程挖掘（本书亮点）

从事件日志中发现业务流程的真实执行路径
流程发现：自动生成流程图（如Alpha算法）
流程监控：实时跟踪流程状态
流程遵循：检查实际流程是否符合规范（合规性检查）
Python案例：使用PM4PY库进行流程挖掘


本章意义：让数据分析师具备“给出最优解”的能力，而不仅仅是“给出预测值”。
”

第5章预测类模型的参数调优

本章回到建模的核心工程问题：如何让模型发挥最佳性能？

5.1 模型参数优化的方法

网格搜索：穷举参数组合，保证找到最优但耗时
随机搜索：随机采样，效率更高，适合高维参数空间
其他搜索方法：贝叶斯优化、遗传算法

5.2 选择最佳模型算法的方法：模型比较的统计检验（如Friedman检验）

5.3 将数据预处理加入模型选择：使用Pipeline统一调优

5.4 并行化加速模型的选择：多核/分布式计算加速网格/随机搜索

5.5 建模门槛值优化的方法：针对分类问题，通过调整决策阈值（如从0.5改为0.3）来优化特定指标（如提升召回率）


本章是“模型工程师”的必修课，强调自动化调参和效率。
”

第6章特征工程

特征工程是数据挖掘中“良心活”，往往决定模型的上限。

6.1 特征工程概述：特征决定模型性能的上限，算法只是逼近这个上限。

6.2 数据预处理（三级视角的快速回顾）：

错误值处理、异常值处理（IQR、Z-score）
缺失值填补（均值、中位数、KNN、多重插补）
二值化、离散化（分箱）、哑编码（One-Hot）
标准化（Z-score）、规范化（Min-Max）

6.3 特征构造：创造新特征，如交叉特征、聚合特征、多项式特征、时间特征（星期几、是否节假日）

6.4 特征选择（三种主流方法）：

过滤式：根据统计指标筛选（方差、相关系数、卡方检验、互信息）
包裹式：使用模型性能评估特征子集（递归特征消除RFE）
嵌入式：在模型训练过程中自动选择特征（Lasso回归的特征系数、树模型的特征重要性）

6.5 特征转换：

线性特征转换：PCA、因子分析（降维）
非线性特征转换：核方法、自编码器（深度学习）


本章是三级教材中实操性最强的章节之一，提供了从原始数据到模型输入的一整套特征加工流水线。
”

第7章类别不平衡问题

在实际业务中（如欺诈检测、疾病筛查），正负样本比例往往严重失衡。

7.1 不平衡数据概述：如99%正常，1%欺诈。

7.2 传统学习方法在不平衡数据中的局限性：模型会偏向多数类，忽略少数类。

7.3 类别不平衡所造成的问题：高准确率但无意义（全预测为正常，准确率99%）。

7.4 类别不平衡问题的处理方法：

过采样与欠采样技术：随机过采样（复制少数类）、随机欠采样（删除多数类）
数据合成：SMOTE（合成少数类过采样技术），在少数类样本之间插值生成新样本
模型惩罚技术：对少数类分错给予更高代价（代价敏感学习）


本章专门解决“罕见事件预测”难题，是反欺诈、故障预测等领域的核心技巧。
”

四、管理篇（第8-9章）：从模型到生产，从个人到团队

管理篇是三级教材区别于初级、二级的核心升级。它不再关注“怎么建模型”，而是关注“建好的模型如何持续产生价值”。

第8章机器学习研发运营一体化（MLOps）

MLOps是DevOps思想在机器学习领域的延伸，解决模型从开发到生产的“最后一公里”。

8.1 MLOps的背景：为什么需要MLOps？模型上线后性能会衰退（数据漂移、概念漂移），需要持续监控和更新。

8.2 MLOps的机器学习建模工作流程：

数据工程：数据版本管理、数据验证、特征存储（Feature Store）
模型工程：模型版本管理、实验跟踪、模型注册
模型部署：在线API、批处理、边缘部署

8.3 MLOps的设计框架：

版本管理：数据、代码、模型、配置全部版本化（如DVC、MLflow）
测试：数据验证测试、模型单元测试、集成测试
模型持续部署：蓝绿部署、金丝雀发布
模型持续监控：监控模型预测分布、特征漂移、性能指标（实时告警）
自动化：CI/CD for ML，自动触发重训练和部署流水线


本章让数据分析师具备“工程化思维”，能够将模型嵌入企业生产系统并长期维护。
”

第9章模型生命周期管理

从业务视角管理模型的整个生命周期。

9.1 模型生命周期概念：

模型开发：从需求分析到模型训练、验证、审批
模型上线：部署到生产环境，切换流量
模型退役：当模型性能严重下降或业务变更时，安全下线

9.2 模型管理：

外部和本地模型导入：支持不同框架训练的模型统一管理
模型的预测和检验：A/B测试、冠军/挑战者模型
模型的监控和迭代：定期评估、自动重训练、版本更新

9.3 模型服务：

实时服务：毫秒级响应，如在线推荐、反欺诈
批量服务：夜间批量跑分，如信用评分、客户分群
准实时服务：秒级到分钟级，介于两者之间

9.4 工作流管理：编排数据、特征、模型训练、部署、监控的全流程DAG（如Airflow、Kubeflow）

9.5 权限管理：谁可以访问哪些模型、数据、服务，满足企业安全和合规要求。


本章为有志成为数据科学家、算法团队负责人或首席数据官的读者，提供了完整的管理框架。
”

五、学习路径建议

根据你的职业目标和当前水平，可以选择不同的学习路径：

学习路径	重点章节	适合人群
算法快速扫描	第2章 + 第3章	希望快速了解主流机器学习算法的从业者
建模竞赛/实战	第5章 + 第6章 + 第7章	准备参加数据竞赛或提升建模精度的数据分析师
工业级部署	第4章（流程挖掘）+ 第8章（MLOps）+ 第9章	需要将模型部署到生产环境的工程师/架构师
管理/负责人路线	第8章 + 第9章 + 第1章方法论	数据团队负责人、首席数据官候选人
系统完整学习	第1→2→3→6→5→7→4→8→9 按顺序	全面掌握数据挖掘从理论到生产的所有环节