【CDA干货】机器学习分类模型：从原理到实战的完整指南-CDA数据分析师官网

热线电话：13121318867

【CDA干货】机器学习分类模型：从原理到实战的完整指南

2025-11-06

在机器学习领域，“分类模型” 是解决 “类别预测” 问题的核心工具 —— 从 “垃圾邮件识别（是 / 否）” 到 “疾病诊断（良性 / 恶性）”，从 “客户流失预测（流失 / 留存）” 到 “图像分类（猫 / 狗 / 汽车）”，分类模型贯穿金融、医疗、互联网等所有行业。不同于回归模型预测 “连续数值”（如房价、销售额），分类模型专注于预测 “离散类别”，其核心是通过学习数据特征与类别标签的关联，输出样本属于某一类别的概率或确定类别。

本文将从分类模型的基础定义出发，详解 6 种核心模型的原理与适用场景，提供 “数据处理→模型训练→评估优化” 的实战流程，结合真实案例给出可落地的解决方案，帮助读者从 “理解概念” 到 “独立应用”。

一、基础认知：什么是分类模型？核心价值与分类

在深入技术细节前，需先明确分类模型的本质、核心价值与常见类型，建立基础认知框架。

1. 分类模型的定义：预测 “类别” 而非 “数值”

分类模型是一种监督学习模型（需用带类别标签的训练数据学习），输入为 “样本特征”（如用户的消费频率、年龄），输出为 “样本所属类别” 或 “属于某类别的概率”。例如：

输入：某封邮件的 “关键词频率（如‘免费’‘中奖’出现次数）、发送 IP、附件数量”；
输出：“垃圾邮件”（类别）或 “属于垃圾邮件的概率 = 92%”。

其核心逻辑是：通过训练数据学习 “特征→类别” 的映射规律，对新样本按规律判断类别。

2. 分类模型的核心价值：解决 “判断型” 业务问题

分类模型的商业价值体现在 “用数据替代人工判断，提升效率与准确性”，典型应用场景：

行业	应用场景	分类目标（输出类别）
金融	信用评分	合格客户 / 风险客户
医疗	疾病诊断	良性 / 恶性、患病 / 未患病
互联网	客户流失预测	流失客户 / 留存客户
电商	商品推荐精准度优化	感兴趣 / 不感兴趣（用户对商品的态度）
安防	人脸识别	授权人员 / 陌生人

3. 分类模型的两大类型

按 “输出类别数量”，分类模型可分为两类，适用场景与评估指标略有差异：

二分类（Binary Classification）：输出仅两个类别（通常标记为 0 和 1），如 “垃圾邮件 = 1，正常邮件 = 0”“流失客户 = 1，留存客户 = 0”，是最常见的分类场景；
多分类（Multi-Class Classification）：输出三个及以上类别，如 “手写数字识别（0-9 共 10 类）”“新闻分类（体育 / 财经 / 科技 / 娱乐 4 类）”，需特殊处理类别间的竞争关系（如 Softmax 输出概率和为 1）。

二、6 种核心分类模型：原理、场景与优缺点对比

不同分类模型的 “复杂度、解释性、抗过拟合能力” 差异显著，需根据业务场景选择。以下按 “从简单到复杂” 顺序，拆解最常用的 6 种模型：

1. 逻辑回归（Logistic Regression）：最简单的线性分类模型

核心原理：虽名为 “回归”，实则是分类模型 —— 通过 “Sigmoid 函数” 将线性回归的连续输出（(-∞,+∞)）映射到 [0,1] 区间，输出 “样本属于正类（1）的概率”，概率≥0.5 判为 1，否则为 0。

Sigmoid 函数公式：，其中（为特征权重，为偏置）。
核心优势：
- 解释性极强：特征权重可直接解读 “某特征对类别的影响方向与强度”（如 “消费频率权重 = 0.8，说明消费频率越高，流失概率越低”）；
- 训练速度快、占用内存少，适合小样本、高维数据（如文本分类的词向量特征）；
- 输出概率值，可用于 “风险评分”（如信用评分卡）。
核心劣势：
- 仅能捕捉 “线性关联”，无法处理特征间的非线性关系（如 “年龄与消费能力的倒 U 型关系”）；
- 对异常值敏感，需提前处理。
适用场景：需解释性的场景（如金融信用评分、医疗诊断报告）、小样本基线模型、高维数据分类（如文本垃圾邮件识别）。
Python 代码示例（scikit-learn）：

from sklearn.linear_model import LogisticRegression

from sklearn.model_selection import train_test_split

from sklearn.metrics import accuracy_score

# 1. 数据准备（X：特征，y：二分类标签0/1）

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 2. 初始化并训练模型（penalty=L2正则化防过拟合）

lr_model = LogisticRegression(penalty='l2', C=1.0, max_iter=1000)

lr_model.fit(X_train, y_train)

# 3. 预测（输出类别与概率）

y_pred = lr_model.predict(X_test)  # 类别预测

y_pred_proba = lr_model.predict_proba(X_test)[:, 1]  # 正类（1）的概率

# 4. 评估

print(f"逻辑回归准确率：{accuracy_score(y_test, y_pred):.4f}")

print(f"特征权重（前5个）：{lr_model.coef_[0][:5]}")  # 解读特征影响

2. 决策树（Decision Tree）：最直观的非线性分类模型

核心原理：模拟人类 “逐步决策” 过程 —— 以 “特征” 为节点（如 “年龄≤30 岁？”“消费频率≥5 次 / 月？”），以 “类别” 为叶子，通过 “信息增益（ID3）” 或 “基尼系数（CART）” 选择最优分裂特征，构建树状结构，新样本按路径落到叶子节点即确定类别。
核心优势：
- 完全可解释：决策路径清晰（如 “年龄≤30 岁且消费频率≥5 次→留存客户”），适合业务方理解；
- 无需特征预处理（如标准化、编码），可直接处理数值型与分类型特征；
- 能捕捉非线性关系（如 “年龄＜25 岁或＞50 岁，流失概率高”）。
核心劣势：
- 容易过拟合（树深度过深，记住训练数据噪声）；
- 对训练数据敏感（微小数据变化可能导致树结构巨变）；
- 多分类场景下精度较低。
适用场景：业务解释优先的场景（如零售客户分层）、特征类型复杂（混合数值与分类）、中小样本非线性分类。
关键优化：通过 “剪枝”（预剪枝：限制树深度；后剪枝：删除冗余分支）、“设置最小样本分裂数”（如 min_samples_split=5）防止过拟合。

3. 随机森林（Random Forest）：最稳健的集成分类模型

核心原理：基于 “集成学习” 思想 —— 构建多个独立的决策树（通常 100-1000 棵），每棵树用 “ Bootstrap 抽样”（有放回采样）的训练数据训练，分裂时仅随机选择部分特征，最终通过 “投票”（二分类：多数树预测的类别；多分类：概率最高的类别）确定结果。
核心优势：
- 抗过拟合能力强：多棵树 “投票” 抵消单棵树的噪声，泛化能力远超单决策树；
- 对异常值不敏感，适合处理高维、复杂数据；
- 可输出 “特征重要性”，辅助特征筛选（如 “消费频率重要性 = 0.3，年龄重要性 = 0.2”）。
核心劣势：
- 模型复杂，训练时间长（比单决策树慢 10-100 倍）；
- 解释性差（无法追溯单样本的决策路径）。
适用场景：精度优先、无需强解释性的场景（如互联网客户流失预测、电商商品分类）、大数据集非线性分类、特征重要性分析。
Python 代码示例：

from sklearn.ensemble import RandomForestClassifier

import matplotlib.pyplot as plt

# 1. 训练随机森林模型

rf_model = RandomForestClassifier(n_estimators=200, max_depth=10, random_state=42)

rf_model.fit(X_train, y_train)

# 2. 预测与评估

y_pred_rf = rf_model.predict(X_test)

print(f"随机森林准确率：{accuracy_score(y_test, y_pred_rf):.4f}")

# 3. 输出特征重要性并可视化

feature_importance = rf_model.feature_importances_

feature_names = X.columns

plt.barh(feature_names, feature_importance)

plt.xlabel("特征重要性")

plt.title("随机森林特征重要性排序")

plt.show()

4. 支持向量机（SVM）：高维小样本的最优选择

核心原理：在 “特征空间” 中找到 “最优超平面”，使超平面到两类样本的 “间隔最大”（间隔 = 超平面到最近样本的距离），新样本按 “位于超平面哪一侧” 确定类别；通过 “核函数”（如 RBF、多项式）将低维非线性数据映射到高维，实现非线性分类。
核心优势：
- 高维小样本场景下精度极高（如文本分类、基因数据分类）；
- 泛化能力强，通过 “软间隔”（允许少量样本在间隔内）平衡过拟合与欠拟合；
- 对噪声不敏感。
核心劣势：
- 大数据集（样本量＞10 万）训练速度极慢；
- 多分类场景实现复杂（需拆解为多个二分类）；
- 核函数与参数选择依赖经验，调参难度大。
适用场景：高维小样本分类（如文本情感分析、图像识别的特征分类）、非线性但样本量不大的场景。

5. 朴素贝叶斯（Naive Bayes）：最快的文本分类模型

核心原理：基于 “贝叶斯定理” 与 “特征条件独立假设”—— 假设样本的所有特征相互独立，通过训练数据计算 “类别先验概率”（如 “垃圾邮件占比 30%”）与 “特征条件概率”（如 “垃圾邮件中‘免费’出现的概率 80%”），再用贝叶斯公式计算 “后验概率”（样本属于某类的概率）。
核心优势：
- 训练与预测速度极快（仅需统计概率，无需迭代优化）；
- 内存占用少，适合超大数据集（如全网文本分类）；
- 对缺失数据不敏感。
核心劣势：
- “特征独立假设” 在现实中难成立（如 “‘免费’与‘中奖’在垃圾邮件中高度相关”），可能降低精度；
- 对特征分布敏感（如假设特征服从正态分布的 GaussianNB）。
适用场景：超大数据集的快速分类（如新闻分类、垃圾邮件过滤）、实时预测场景（如推荐系统的兴趣判断）、作为基线模型快速验证思路。

6. 神经网络（Neural Network）：复杂场景的终极方案

核心原理：模拟人脑神经元结构 —— 由 “输入层（特征）、隐藏层（非线性变换）、输出层（类别概率）” 组成，通过激活函数（如 ReLU、Softmax）实现非线性映射，用反向传播优化权重，学习特征到类别的复杂关联；深度学习（如 CNN、Transformer）是深层神经网络，适合图像、文本等复杂数据。
核心优势：
- 可拟合任意复杂的非线性关系，精度极高（如图像分类、自然语言处理）；
- 端到端学习（无需手动特征工程，可自动提取高级特征）；
- 支持大规模并行计算，适合大数据集。
核心劣势：
- 训练成本高（需大量数据、GPU 资源，训练时间长）；
- 完全 “黑箱”，无法解释决策逻辑（如无法说明 “为什么判定为癌症”）；
- 容易过拟合，需复杂正则化（如 Dropout、BatchNorm）。
适用场景：复杂数据分类（如图像识别、语音识别、多模态数据）、大数据 + 高算力场景、精度要求极高且无需解释性的场景（如自动驾驶的目标检测）。

6 种模型的核心对比表

模型	复杂度	解释性	抗过拟合	训练速度	适用场景
逻辑回归	低	极强	中	极快	信用评分、基线模型、高维小样本
决策树	中	强	弱	快	业务解释优先、特征复杂的中小样本
随机森林	高	中	强	中	精度优先、复杂数据、特征重要性分析
SVM	中	弱	强	慢（大数据）	高维小样本、非线性分类
朴素贝叶斯	低	中	中	极快	超大数据、文本分类、实时预测
神经网络	极高	无	中（需优化）	慢（需 GPU）	图像 / 文本等复杂数据、高精度需求

三、分类模型实战：客户流失预测全流程（附代码）

以 “某互联网服务平台客户流失预测” 为例，完整演示 “数据准备→模型训练→评估优化→部署建议” 的全流程，使用 Python 的 scikit-learn 实现，读者可直接复用。

1. 场景与数据准备

业务目标：预测未来 1 个月客户是否流失（二分类：流失 = 1，留存 = 0），辅助制定挽留策略；
数据来源：平台 CRM 系统，核心特征（共 12 个）：
- 数值特征：年龄、月消费金额、近 3 个月登录次数、近 3 个月消费频次；
- 分类特征：会员等级（普通 / 白银 / 黄金）、付费方式（月付 / 季付 / 年付）、是否投诉过（是 / 否）；
数据规模：10000 条客户记录，其中流失客户 2000 条（不平衡数据，流失率 20%）。

数据预处理（关键步骤）：

import pandas as pd

import numpy as np

from sklearn.preprocessing import StandardScaler, OneHotEncoder

from sklearn.compose import ColumnTransformer

from sklearn.pipeline import Pipeline

# 1. 加载数据

df = pd.read_csv("customer_churn.csv")

X = df.drop("churn", axis=1)  # 特征

y = df["churn"]  # 标签（0=留存，1=流失）

# 2. 划分训练集/测试集（时间序列需按时间划分，避免数据泄露）

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# 3. 特征预处理（数值特征标准化，分类特征独热编码）

# 定义特征类型

numeric_features = ["age", "monthly_spend", "login_count", "consume_freq"]

categorical_features = ["member_level", "payment_method", "has_complained"]

# 预处理流水线

preprocessor = ColumnTransformer(

   transformers=[

       ("num", StandardScaler(), numeric_features),  # 数值特征标准化（消除量纲）

       ("cat", OneHotEncoder(drop="first"), categorical_features)  # 分类特征独热编码（避免多重共线性）

   ])

2. 模型训练：从基线到优化

步骤 1：用逻辑回归建立基线模型（快速验证思路）

# 构建流水线（预处理+模型）

lr_pipeline = Pipeline(steps=[

   ("preprocessor", preprocessor),

   ("classifier", LogisticRegression(class_weight="balanced", max_iter=1000))  # class_weight平衡不平衡数据

])

# 训练与评估

lr_pipeline.fit(X_train, y_train)

y_pred_lr = lr_pipeline.predict(X_test)

y_pred_proba_lr = lr_pipeline.predict_proba(X_test)[:, 1]

# 评估指标（不平衡数据需看精确率、召回率，而非仅准确率）

from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score

print("逻辑回归基线模型评估：")

print(classification_report(y_test, y_pred_lr))

print(f"ROC-AUC：{roc_auc_score(y_test, y_pred_proba_lr):.4f}")

print("混淆矩阵：")

print(confusion_matrix(y_test, y_pred_lr))

# 基线结果：召回率=0.72（能识别72%的流失客户），ROC-AUC=0.78

步骤 2：用随机森林优化模型（提升精度）

# 随机森林流水线

rf_pipeline = Pipeline(steps=[

   ("preprocessor", preprocessor),

   ("classifier", RandomForestClassifier(

       n_estimators=200,

       max_depth=12,

       class_weight="balanced",

       random_state=42

   ))

])

# 训练与评估

rf_pipeline.fit(X_train, y_train)

y_pred_rf = rf_pipeline.predict(X_test)

y_pred_proba_rf = rf_pipeline.predict_proba(X_test)[:, 1]

print("随机森林优化模型评估：")

print(classification_report(y_test, y_pred_rf))

print(f"ROC-AUC：{roc_auc_score(y_test, y_pred_proba_rf):.4f}")

# 优化结果：召回率=0.81，ROC-AUC=0.85，精度显著提升

步骤 3：模型调参（网格搜索优化参数）

from sklearn.model_selection import GridSearchCV

# 定义参数网格

param_grid = {

   "classifier__n_estimators": [150, 200, 250],

   "classifier__max_depth": [10, 12, 15],

   "classifier__min_samples_split": [2, 5, 10]

}

# 网格搜索（5折交叉验证）

grid_search = GridSearchCV(

   rf_pipeline,

   param_grid,

   cv=5,

   scoring="roc_auc",  # 用AUC作为评分指标（适合不平衡数据）

   n_jobs=-1  # 并行计算

)

grid_search.fit(X_train, y_train)

best_rf = grid_search.best_estimator_

print(f"最优参数：{grid_search.best_params_}")

print(f"最优交叉验证AUC：{grid_search.best_score_:.4f}")

# 测试集最终评估

y_pred_best = best_rf.predict(X_test)

y_pred_proba_best = best_rf.predict_proba(X_test)[:, 1]

print(f"最终模型测试集AUC：{roc_auc_score(y_test, y_pred_proba_best):.4f}")

# 最终结果：AUC=0.87，召回率=0.83，满足业务需求

3. 模型评估：不止于准确率

分类模型的评估需结合业务目标选择指标，尤其是不平衡数据（如流失率 20%），准确率会误导判断（即使全预测为留存，准确率也有 80%），需重点关注以下指标：

指标	计算公式	业务意义	适用场景
精确率（Precision）	TP/(TP+FP)	预测为流失的客户中，实际流失的比例（避免误挽留浪费成本）	精准营销、成本敏感场景
召回率（Recall）	TP/(TP+FN)	实际流失的客户中，被预测到的比例（避免遗漏高价值流失客户）	风险控制、高价值客户挽留
F1 分数	2×Precision×Recall/(Precision+Recall)	精确率与召回率的调和平均，平衡两者	无明显偏向的场景
ROC-AUC	ROC 曲线下面积（0.5-1.0）	模型区分正负类的能力，越接近 1 越好	所有分类场景，尤其不平衡数据

本案例选择 “召回率” 为核心指标：因遗漏高价值流失客户的损失（如年消费 1 万元的客户流失）远大于误挽留的成本（如发放 100 元优惠券），需优先保证 “尽可能识别出所有可能流失的客户”。

4. 模型部署与业务落地

模型训练完成后，需转化为业务行动：

输出流失概率：对所有客户输出 “未来 1 个月流失概率”，按概率分 3 级：
- 高风险（概率≥70%）：专属客服 1 对 1 回访 + 200 元满减券；
- 中风险（30%≤概率＜70%）：推送个性化权益（如会员延期）；
- 低风险（概率＜30%）：常规运营（新品通知）；
实时预测接口：将模型封装为 API（用 Flask/FastAPI），集成到 CRM 系统，客户行为更新时实时更新流失概率；
效果监控：每周跟踪 “挽留成功率”“流失率变化”，若召回率下降至 80% 以下，重新训练模型（如引入新特征 “最近一次客服交互时间”）。

四、常见误区与避坑指南

分类模型应用中，初学者常因忽视数据特性或模型原理陷入误区，需重点规避：

1. 误区 1：盲目追求复杂模型，忽视基线

错误做法：直接用神经网络或深度学习，跳过逻辑回归、决策树等简单模型；
后果：训练成本高、调参难度大，且可能因数据量不足导致过拟合；
正确做法：先建简单基线模型（如逻辑回归），评估 baseline 性能后，再用复杂模型（如随机森林）优化，对比提升幅度，避免 “过度设计”。

2. 误区 2：不处理数据不平衡，直接训练

错误做法：对流失率 20% 的不平衡数据，不做处理直接训练；
后果：模型倾向于预测多数类（留存），召回率极低（如仅识别 30% 的流失客户）；
解决方案：
- 过采样（SMOTE）：生成少数类（流失）的合成样本，平衡数据；
- 欠采样：减少多数类（留存）样本，需注意保留代表性；
- 类别权重（class_weight="balanced"）：让模型对少数类样本赋予更高权重。

3. 误区 3：忽视特征工程，直接用原始数据

错误做法：数值特征不标准化（如年龄 “20-80 岁” 与消费金额 “100-10000 元”）、分类特征不编码（如会员等级 “普通 / 黄金” 直接作为数值输入）；
后果：模型受量纲影响（如逻辑回归权重偏向消费金额）、无法捕捉分类特征的关联；
解决方案：
- 数值特征：标准化（StandardScaler）或归一化（MinMaxScaler）；
- 分类特征：独热编码（OneHotEncoder，适合低基数）或标签编码（LabelEncoder，适合高基数）。

4. 误区 4：过拟合后才调参，忽视预防

错误做法：训练集准确率 95%，测试集准确率 70%（过拟合），才开始优化；
后果：浪费训练时间，且难以判断是数据问题还是模型问题；
预防方案：
- 训练中用 “验证集” 监控性能，若验证集准确率下降，及时停止训练（早停）；
- 模型层面：决策树剪枝、随机森林限制深度、逻辑回归加正则化；
- 数据层面：增加数据量、特征筛选（删除冗余特征）。

五、总结：分类模型选择的核心逻辑

选择分类模型时，无需追求 “最复杂” 或 “最先进”，而应遵循 “业务适配” 原则，核心决策流程如下：

明确业务目标：是否需要解释性（是→逻辑回归 / 决策树，否→随机森林 / 神经网络）、核心评估指标（精确率 / 召回率 / AUC）；
分析数据特性：

数据规模：小样本（＜1 万）→逻辑回归 / SVM，大样本（＞10 万）→随机森林 / 神经网络；
特征维度：高维（＞1000）→逻辑回归 / SVM / 朴素贝叶斯，低维→决策树 / 随机森林；
数据平衡性：平衡→任意模型，不平衡→用 class_weight 或采样；

快速验证基线：先用简单模型（逻辑回归）建立基线，再用复杂模型优化，对比提升幅度；
持续迭代优化：部署后监控效果，根据新数据（如新增特征、业务变化）重新训练模型。

最终，分类模型的价值不在于 “技术复杂度”，而在于 “解决业务问题的能力”—— 即使是简单的逻辑回归，若能精准识别流失客户、降低业务损失，就是 “好模型”。对初学者而言，从逻辑回归、随机森林入手，掌握 “数据预处理→训练→评估” 的全流程，再逐步探索神经网络等复杂模型，是更高效的学习路径。

免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

特征逻辑回归随机森林过拟合 AUC 召回率精度决策树

上一篇【CDA干货】交叉频数分布：分类变量的关联放大镜，数据分析的基础核心工具

下一篇CDA数据分析师项目

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

【CDA干货】机器学习分类模型：从原理到实战的完整指南

一、基础认知：什么是分类模型？核心价值与分类

1. 分类模型的定义：预测 “类别” 而非 “数值”

2. 分类模型的核心价值：解决 “判断型” 业务问题

3. 分类模型的两大类型

二、6 种核心分类模型：原理、场景与优缺点对比

1. 逻辑回归（Logistic Regression）：最简单的线性分类模型

2. 决策树（Decision Tree）：最直观的非线性分类模型

3. 随机森林（Random Forest）：最稳健的集成分类模型

4. 支持向量机（SVM）：高维小样本的最优选择

5. 朴素贝叶斯（Naive Bayes）：最快的文本分类模型

6. 神经网络（Neural Network）：复杂场景的终极方案

6 种模型的核心对比表

三、分类模型实战：客户流失预测全流程（附代码）

1. 场景与数据准备

数据预处理（关键步骤）：

2. 模型训练：从基线到优化

步骤 1：用逻辑回归建立基线模型（快速验证思路）

步骤 2：用随机森林优化模型（提升精度）

步骤 3：模型调参（网格搜索优化参数）

3. 模型评估：不止于准确率

4. 模型部署与业务落地

四、常见误区与避坑指南

1. 误区 1：盲目追求复杂模型，忽视基线

2. 误区 2：不处理数据不平衡，直接训练

3. 误区 3：忽视特征工程，直接用原始数据

4. 误区 4：过拟合后才调参，忽视预防

五、总结：分类模型选择的核心逻辑

推荐学习书籍 《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~ !

免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】机器学习分类模型：从原理到实战的完整 ...

【CDA干货】交叉频数分布：分类变量的关联放大镜， ...

CDA 数据分析师：决策树分析实战指南 —— 可解释性 ...

【CDA干货】卡方检验 P 值与 OR 值：从关联判断到强 ...

【CDA干货】CDA 数据分析实战：三大行业真实案例的 ...

电子版《CDA教材》（一级）获取入口

电子版《CDA教材》（一级）获取入口

CDA系列丛书-《用商业案例学R语言数据挖掘》 ...

【CDA干货】数据挖掘核心步骤与实战：以零售企业客 ...

【CDA干货】DDPM 模型 loss 多少合适？从原理到实操 ...

CDA 数据分析师：聚类分析实战指南 —— 无监督分组 ...

【CDA干货】从啤酒与尿布到精准预测：关联规则的商 ...

【CDA干货】《stats.ttest\_rel 与 Wilcoxon 对比决 ...

CDA 数据分析师：因子分析实战指南 —— 高维数据的 ...

【CDA干货】MySQL 按顺序计数：缺失数据补全与占位 ...

【CDA干货】Tableau 累计百分比计算：从基础操作到 ...

CDA 数据分析师：逻辑回归实战指南 —— 二分类预测 ...

【CDA干货】MySQL 频繁写入同一表：影响分析与优化 ...

【CDA干货】班级规模与平均成绩：相关系数计算全流 ...

CDA 数据分析师：相关系数实战指南 —— 破解变量关 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

推荐学习书籍《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~ !