
针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。
1.领会:考生能够领会了解规定的知识点,并能够了解规定知识点的内涵与外延,了 解其内容要点和它们之间的区别与联系,并能做出正确的阐述、解释和说明。
2.熟知:考生须掌握知识的要点,并能够正确理解和记忆相关理论方法,能够根据不 同要求,做出逻辑严密的解释、说明和阐述。此部分为考试的重点部分。
3.应用:考生须学会将知识点落地实践,并能够结合相关工具进行商业应用,能够根 据具体要求,给出问题的具体实施流程和策略。
a. Spark 基础理论(2%)
b. Spark RDD 基本概念及常用操作(3%)
c. Spark 流式计算框架 Spark Streaming、Structured Streaming(5%)
d. Spark 交互式数据查询框架 Spark SQL(5%)
e. Spark 机器学习算法库 Spark MLlib 基本使用方法(15%)
f. Spark 图计算框架 GraphX(5%)
c. 利用 Sqoop 进行数据传输(1%)
d. 利用 Spark SQL 进行数据读取(2%)
e. 利用 Spark MLlib 进行机器学习建模(8%)
f. 利用 Python 进行建模结果数据可视化(1%)
【领会】 大数据技术诞生技术背景 大数据技术实际应用 分布式处理技术概念
数据分析和数据挖掘的概念 【熟知】 明确数据分析的目标和意义 明确分布式技术在进行海量数据处理时起到的关键作用 数据分析方法与数据挖掘方法的区别和联系 明确数据分析流程中不同软件工具的作用 常用描述性统计方法 常用数据挖掘方法
【领会】 Python 语言的特点、语法、应用场景
【领会】
【熟知】
SELECT…FROM 语句
【应用】
使用列值进行计算、算术运算符、使用函数、列别名、嵌套 SELECT 语句、WHERE 语句、group by 语句、集合运算、多表连接、内连接、外连接、笛卡尔积连接、order by 语句、 抽样查询、视图。
【领会】
Sqoop 是一个数据转储工具,它能够将 Hadoop HDFS 中的数据转储到关系型数据库中,也能将关系型数据库中的数据转储到 HDFS 中。
【熟知】
Sqoop 链接数据库需要 JDBC 的支持
【应用】
Sqoop 的安装方法
【领会】
这里分享一个你一定用得到的小程序——CDA数据分析师考试小程序。
它是专为CDA数据分析认证考试报考打造的一款小程序。可以帮你快速报名考试、查成绩、查证书、查积分,通过该小程序,考生可以享受更便捷的服务。
扫码加入CDA小程序,与圈内考生一同学习、交流、进步!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09