热线电话:13121318867

登录
首页大数据时代从零基础到数据科学家:CDA三本官方教材全解读
从零基础到数据科学家:CDA三本官方教材全解读
2026-06-09
收藏

数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数据科学家的完整成长之路。本文深度拆解每一本书的内容、章节逻辑与核心价值。


CDA认证体系速览

等级 面向范围 岗位去向
Level I 人人皆需的职场数据思维与通用数据技能
• 零基础就业转行者、应届毕业生
• 产品、运营、营销等业务岗与研发、技术岗在职者
• 企业创始人、经理人、管理咨询类岗位从业者
商业(业务)分析师、初级数据分析师、(数据)产品运营、(数字)市场营销、数据专员等
Level II 企业数字化发展中必备的数据分析流程与技能
• 产品、运营、营销等业务部门与研发、中台、技术类部门数据分析相关岗位在职者
• 数字化转型企业创始人与数字化流程中相关负责人
数据分析师、(数据)产品运营经理、(数字)营销经理、风控建模分析师、量化策略分析师、数据治理(质量)等
Level III 企业数字化发展中必备的高级数据分析方法与技术
• 业务岗与技术岗从事数据分析、数据挖掘机器学习等技术在职提升者
• 从事算法科学、深度学习等工作的科研人员、分析师与工程师等
高级数据分析师、机器学习工程师、算法工程师、数据科学家、首席数据官等

教材一:《CDA一级教材:商业数据分析(2025版)》

适合谁读

  • 完全零基础,想进入数据分析领域的转行者、应届毕业生
  • 产品、运营、营销等业务部门在职人员,希望用数据驱动工作
  • 准备参加CDA Level I认证考试的学习者

学习目标

通过7周左右的学习,掌握:

详细章节拆解

第一篇:原理篇(共5章) —— 建立数据分析的“世界观”

  • 第1章 数据分析思维
    讲解VUCA时代企业对数据分析的需求,企业数字化转型的不同阶段,数据分析的六大分类(描述性、诊断性、预测性、指导性、探索性、验证性),以及如何将业务问题转化为数据问题。

  • 第2章 数据分析方法
    系统介绍分类分析(如客户分层)、链式分析(如转化漏斗)、相关分析,以及6种衍生方法:趋势分析(时间序列视角)、对比分析(同比/环比/定基比)、构成分析(结构占比)、分组分析、交叉分析、杜邦分析。每种方法都配有业务案例。

  • 第3章 商业数据分析框架
    从业务理解→数据理解→数据准备→建模→评估→部署的完整CRISP-DM流程入门,并讲解如何将企业战略目标拆解为可量化的分析课题。

  • 第4章 战略视角的数据分析
    涵盖盈利能力分析(毛利率、净利率)、偿债能力分析、运营能力分析(周转率)、杜邦分析图的构建与解读。

  • 第5章 战略视角的数据分析
    基于平衡计分卡,讲解客户生命周期价值(CLV)、获客成本(CAC)、客户留存率,以及流程效率指标(如订单处理时长)、员工培训投入与产出分析。

第二篇:技术篇(共5章) —— 打下硬核实操基础

  • 第6章 描述性统计分析
    集中趋势(均值、中位数、众数)、离散程度(极差、方差标准差、四分位距)、分布形态(偏度、峰度),并讲解如何使用Excel和SQL快速计算这些统计量,以及如何通过箱线图识别异常值

  • 第7章 指标体系构建方法
    从OSM模型(目标-策略-度量)到UJM模型(用户旅程地图),再到原子指标/派生指标/复合指标的划分,教会你如何为一款App或一项业务搭建完整的指标体系,避免“数据很多但没用”的困境。

  • 第8章 SQL语言基础与MySQL入门
    从数据库的基本概念(库、表、字段、主外键)讲起,涵盖:DDL(建表、修改表结构)、DML(INSERT、UPDATE、DELETE)、DQL(最核心的SELECT语句,包括WHERE、GROUP BY、HAVING、ORDER BY、LIMIT)、多表连接(INNER JOIN、LEFT JOIN、RIGHT JOIN)、子查询与窗口函数(ROW_NUMBER、RANK、SUM OVER等)。配有大量实战习题。

  • 第9章 用户标签体系与用户画像
    讲解标签的分类(静态标签vs动态标签、事实标签vs模型标签),如何从底层数据加工成标签,如何构建用户画像平台,以及画像在精准营销、个性化推荐中的实际应用。

  • 第10章 简单时间序列分析方法
    移动平均法、指数平滑法(一次指数平滑、Holt线性趋势模型)、季节性分解,以及如何用Excel或SQL进行基本的销量/流量预测。

第三篇:管理篇(共3章) —— 拔高视野

  • 第11章 数据治理
    数据质量管理(准确性、完整性、一致性、及时性)、主数据管理元数据管理数据安全与合规(包括GDPR、个人信息保护法的基本要求),让读者理解“干净的数据”是一切分析的前提。

  • 第12章 数据模型与数据建模
    从概念模型(ER图)到逻辑模型(关系规范化),再到物理模型(索引分区),了解数据仓库中的星型模型、雪花模型,以及如何为报表系统设计合理的数据模型。

  • 第13章 指标体系管理
    如何对已有指标体系进行版本管理、指标字典维护、指标异常监控与归因,以及指标生命周期管理(从创建到下线)。

本书最大特色

  • EDIT模型贯穿始终:探索(Explore)→诊断(Diagnose)→指导(Instruct)→工具(Tool),形成闭环。
  • 零基础友好SQL和统计学都是从最基础讲起,步步有案例。
  • 既讲怎么做,更讲为什么:每一章开头都有业务场景引入,结尾有思考题。

免费加入阅读:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0


教材二:《CDA二级教材:量化策略分析(2025)》

适合谁读

  • 已经通过Level I或具备1-2年数据分析工作经验
  • 需要掌握Python数据分析全流程(数据处理→可视化→建模→策略输出)
  • 准备参加CDA Level II认证考试,目标是成为专业数据分析师或数据挖掘工程师

学习目标

详细章节拆解

原理篇:从思维到框架

  • 第1章 进阶数据分析思维
    详解设计思维(同理心→定义问题→构思→原型→测试)、敏捷思维(迭代交付、最小可行产品MVP在数据分析项目中的应用)、数据思维(相关性vs因果性、AB测试基础、数据驱动决策的文化建设)。并给出一个完整的“探查→定义→设计→交付”四阶段项目流程模板。

  • 第2章 量化策略分析框架
    提出“探索→诊断→指导”三步法:

    • 探索:发现业务波动或机会点
    • 诊断:通过数据下钻、对比、相关性等手段找到根因
    • 指导:基于根因提出可执行的策略建议并量化收益预期。
      书中用电商促销效果分析、用户流失挽留等案例贯穿演示。
  • 第3章 量化策略分析流程(七步法)

    1. 发现问题(指标异动/目标差距)
    2. 近因分析(谁/什么时候/在哪里发生变化)
    3. 根因分析(内部因素vs外部因素,使用多维下钻、相关性分析、决策树等方法)
    4. 做出预测(简单回归/时间序列)
    5. 制定方案(策略选项及优先级)
    6. 验证方案(小范围AB测试或模拟)
    7. 工具支持(固化到报表或决策系统)。
      每一小步都配有模板和checklist。

技术篇:Python实战(共4章)

  • 第4章 数据处理pandas
    从读取CSV/Excel/数据库数据开始,讲解:

    • 数据概览(head, info, describe)
    • 列操作(筛选、增删改、类型转换)
    • 缺失值处理(删除、填充、插值)
    • 重复值异常值处理
    • 分组聚合(groupby + agg)
    • 数据合并(merge、concat)
    • 长宽表转换(pivot、melt)
      全书示例均基于真实零售订单数据。
  • 第5章 数据可视化(Matplotlib & Seaborn)
    讲解绘图原理(画布、坐标轴、图层)。分别讲解:

  • 第6章 市场调研数据预处理(进阶)

    • 市场调研方法:问卷设计、抽样方法、数据采集规范
    • 数据清洗深化:离群值的多种识别方法(IQR法、Z-score法、箱线图法)及处理策略
    • 变量降维前的准备工作:相关性筛选、方差过滤
    • 缺失值高级处理:KNN插补、多重插补
    • WoE转换与IV值:用于信用评分卡等场景,对分类变量进行证据权重编码
    • 变量分箱(等频分箱、等距分箱、最优分箱)
  • 第7章 数据降维方法

    • 矩阵基础知识回顾(特征值、特征向量)
    • 连续变量的主成分分析(PCA):原理(方差最大化)、步骤(标准化→协方差矩阵→特征值分解→选取主成分→投影)、Python实现及结果解释(载荷矩阵、方差解释率)
    • 因子分析(FA)与PCA的区别及适用场景
    • 降维后的可视化与业务解读

本书最大特色

  • 策略落地导向:不只教代码,更教如何从数据得出业务策略并验证效果。
  • Python全流程覆盖:从pandas清洗到seaborn可视化,再到sklearn中的PCA,代码完整可复用。
  • 根因分析方法:整合了多维下钻、决策树、相关性矩阵等多种方法,配有实操案例。

免费加入阅读:https://edu.cda.cn/goods/show/3246?targetId=5352&preview=0


教材三:《CDA三级教材:敏捷数据挖掘

适合谁读

  • 资深数据分析师、数据挖掘工程师、算法工程师
  • 希望向数据科学家或首席数据官(CDO)晋升的从业者
  • 准备参加CDA Level III认证的高阶人才

学习目标

详细章节拆解

理论篇:数据挖掘总纲

  • 第1章 数据挖掘综述
    • 企业数据分析的四层架构:描述→诊断→预测→指导
    • CRISP-DM方法论详解(6阶段:业务理解、数据理解、数据准备、建模、评估、部署)
    • SEMMA方法论(Sample、Explore、Modify、Model、Assess)
    • 数据挖掘核心思维:没有免费午餐定理奥卡姆剃刀集成学习思想
    • 算法建模的四个核心要素:模型结构、损失函数、优化算法、正则化
    • 模型分类:预测性模型(回归、分类)vs 描述性模型(聚类关联规则

技术篇(6章) —— 场景驱动的算法实战

  • 第2章 决策类模型(4大场景)

    • 场景一:客户价值预测线性回归(含多元回归、正则化回归Ridge/Lasso),特征选择(逐步回归、AIC/BIC),模型评估(R²、调整R²、MSE、MAE)。
    • 场景二:营销响应预测逻辑回归混淆矩阵、ROC/AUC、KS值、提升图与洛伦兹曲线,以及如何处理样本不平衡问题(过采样、欠采样、SMOTE)。
    • 场景三:客户细分与画像 → K-means聚类(手肘法、轮廓系数确定K值)、层次聚类、DBSCAN,聚类后的画像描述与营销策略制定。
    • 场景四:交叉销售与购物篮分析关联规则Apriori算法),支持度、置信度、提升度,如何挖掘频繁项集,以及在实际电商推荐中的应用技巧。
  • 第3章 识别类模型(2大场景)

    • 场景五:申请反欺诈决策树(ID3、C4.5、CART)、随机森林XGBoost / LightGBM。详细讲解树的生长与剪枝、特征重要性评估、集成学习BaggingBoosting原理。
    • 场景六:违规行为识别(异常检测) → 孤立森林(Isolation Forest)原理(异常点更容易被孤立)、局部异常因子(LOF)、One-class SVM。提供金融交易反欺诈和工业设备异常检测的完整代码案例。
  • 第4章 优化分析类模型
    讲解运筹优化与数据挖掘的结合:线性规划、整数规划在资源分配中的应用(如营销预算分配),以及启发式算法(遗传算法、模拟退火)在超参数调优中的使用。包含一个“门店配送路径优化+销量预测”的综合案例。

  • 第5章 参数调优与特征工程(进阶)

    • 参数调优方法:网格搜索、随机搜索、贝叶斯优化
    • 交叉验证(k折、留一法、时间序列交叉验证
    • 特征工程高级技巧:特征交叉、多项式特征、嵌入特征(目标编码)、特征选择(递归消除、基于模型的重要性)
    • 类别不平衡问题的进阶处理:Focal Loss、代价敏感学习、集成方法平衡
  • 第6章 特定领域建模
    选取文本挖掘推荐系统时间序列预测三个方向进行专题讲解:

管理篇(2章) —— 从模型到生产

  • 第7章 MLOps
    机器学习运维的核心概念:模型版本管理(DVC)、模型注册与仓库、CI/CD for ML、模型推理的API封装、A/B测试框架在模型更新中的应用、监控模型输入数据漂移(数据漂移检测)等。

  • 第8章 模型生命周期管理
    如何评估模型业务效果(ROI、混淆矩阵业务指标)、模型更新策略(定期重训练、在线学习)、模型退役标准,以及如何组建和管理数据挖掘团队(人员能力矩阵、项目流程规范)。

本书最大特色

  • 场景驱动:不堆砌算法,而是从真实业务需求出发,告诉你遇到什么问题该用什么模型。
  • 全栈覆盖:从特征工程到参数调优,从模型训练到MLOps,完整覆盖企业级数据挖掘项目。
  • 答辩准备:每章末尾附有论文答辩常见问题与项目建议,直通Level III认证。

免费加入阅读:https://edu.cda.cn/goods/show/4097?targetId=7325&preview=0


如何选择与高效学习

你的背景 推荐起点 学习重点
在校学生/转行 教材一 前两个月专注SQL+Excel+描述性统计,每天至少1小时实操
业务岗在职 教材一→教材二 用教材一的指标体系章节优化你当前工作;学完教材二后可尝试用Python自动化周报
已有1-2年分析经验 教材二 重点攻克量化策略七步法和pandas数据清洗,至少独立完成3个分析项目
资深/算法岗 教材三 结合工作场景,选2-3个场景深入代码实现,并尝试用MLOps思想管理现有模型

无论从哪一级开始,务必动手写代码、跑数据、画图表。 这套教材的每一段示例代码都可以直接运行,强烈建议你在学习时打开Jupyter Notebook,边看边敲,把每一章的案例复现一遍,再尝试修改参数观察结果变化。


以上三本教材,构成了从数据分析入门到数据科学家的完整知识地图。无论你正处在哪个阶段,都可以从中找到清晰的方向和扎实的内容支撑。希望这份详细拆解能帮助你更好地规划自己的学习与认证之路。

推荐学习书籍 《CDA一级教材》适合CDA一级考生备考,也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校,累计已有10万+在读~ !

免费加入阅读:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

数据分析师资讯
更多

OK
客服在线
立即咨询
客服在线
立即咨询