京公网安备 11010802034615号
经营许可证编号:京B2-20210330
很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系”时,却常常答不上来。在企业的真实工作场景中,数据从来不是从天而降的Excel文件,而是存储在各类数据库中的结构化信息。掌握数据库的核心概念,是数据分析师从“会处理数据”走向“会获取数据”的关键一步。
”
小林入职了一家互联网公司的数据分析团队。第一天,主管让他“提取近三个月电商业务数据库中的订单明细数据”。小林打开数据库工具,面对那一排排陌生的表名和字段名,他发现自己“会用Excel分析数据”,却“不知道怎么把数据从数据库里弄出来”。经过半小时的手忙脚乱,他终于导出了一张Excel表,打开一看:订单金额是负数,日期格式乱七八糟,还缺了关键的“商品类别”字段。主管看了一眼,皱起了眉头——这不是小林第一次在这个问题上“栽跟头”了。
这不是小林的错,而是大多数数据新人的共同困境——数据分析技能和数据库基础知识之间存在断层。在企业环境中,数据资产几乎都沉淀在数据库中,而非现成的Excel文件。数据分析师日常工作面临的两个基础挑战,都与数据库知识息息相关:数据怎么取以及数据怎么用。
数据库(Database)的本质是“按一定结构组织、存储和管理数据的系统”。数据库是整个企业数据资产的“大本营”,也是CDA分析师工作的“起点”。
概括来说,数据库,就是你的各种业务数据的“大仓库” 。在实际工作中,最常用的几类数据库包括:
数据库(Database)是存储数据的“大仓库”,而数据表(Table)则是仓库中分类存放数据的“货架”。它们是“整体与局部”的关系。
数据库通常按业务线划分,如“电商业务数据库”“金融信贷数据库”,以避免数据混乱。分析师在工作中,首先需明确分析目标对应的数据库——比如分析电商用户满意度,就需进入“电商业务数据库”。在电商数据库中,会包含“用户表”(存储用户信息)、“订单表”(存储订单数据)、“商品表”(存储商品信息)、“物流表”(存储配送数据)等多个表格,每个表都围绕一个业务对象设计。
数据表由字段和记录组成,这是分析师接触数据的“最小颗粒度”。
| 概念 | 定义解析 | CDA实操价值 |
|---|---|---|
| 字段 | 数据表的列,代表数据的属性,如订单表的“订单ID”“订单金额” | 指标计算的基础,如“客单价”需提取“订单金额”字段计算 |
| 记录 | 数据表的行,代表一条完整的业务数据,如一条订单记录 | 数据筛选的对象,如筛选“2024年1月下单的订单记录” |
| 主键 | 数据表中唯一标识一条记录的字段,如“订单ID” | 关联多表数据的“桥梁”,如通过“用户ID”关联用户表和订单表 |
理解主键的作用是至关重要的。在企业级数据模型中,主键是确保数据准确定位、多表间数据“不混淆”的依据。每当分析师需要分解“用户画像”或计算“复购率”时,都需要依赖主键将多个表进行横向关联。
企业的业务数据以“表”的形式保存,但日常分析中还有一个高频衍生物——视图(View)。它们都是数据库的核心对象,但与Excel打开的一张张Sheet不同,它们各有各的用法和特征。
数据表是数据库中用于物理存储数据的实体结构,相当于“数据档案柜”。所有原始数据或经过处理的核心数据都以表的形式持久化存储。其核心特征是占用物理存储空间、数据独立存在、可直接修改数据内容。
创建表的核心价值体现在三个方面:一是固化高频使用的中间数据,避免重复处理原始数据;二是规范数据结构,将杂乱的原始数据整理为符合分析需求的格式;三是实现数据共享,为团队提供统一的分析数据来源。
视图是基于一个或多个表的查询结果构建的虚拟表,本身不存储数据,仅保存查询逻辑,相当于“数据的动态窗口”——每次访问视图时,数据库会重新执行其关联的查询逻辑,返回最新数据。视图的三大核心价值——简化复杂查询、隐藏数据细节、确保数据一致性——都能直接为数据分析工作提供便利。
| 对比维度 | 数据表 | 视图 | CDA选择建议 |
|---|---|---|---|
| 数据存储 | 物理存储数据,占用空间 | 仅存查询逻辑,不存数据 | 高频复用且数据稳定→表;实时性要求高→视图 |
| 数据更新 | 可直接增删改查 | 依赖源表更新,仅能通过源表修改 | 需修改数据→表;仅需查询→视图 |
| 查询效率 | 直接读取数据,效率高 | 每次访问需执行查询 | 大数据量分析→表;简单查询或实时数据→视图 |
| 使用场景 | 中间数据固化、数据共享 | 复杂查询简化、数据权限控制 | 长期分析项目→表;临时查询或多场景复用→视图 |
SQL(结构化查询语言) 是操作数据库的标准语言。在CDA的考试指导中,非常明确地将SQL定位为数据分析师的工具,而非普通的IT开发工具。
1. SELECT与FROM:指定查询范围
数据分析的第一步永远是“从哪张表中选择哪些数据”。语法为SELECT 列名1, 列名2 FROM 表名。
在实际业务中,可以通过为表设置别名来简化复杂的查询。例如:SELECT o.订单金额 FROM 订单表 o。理解SQL语句的执⾏顺序(FROM → JOIN → WHERE → GROUP BY → HAVING → SELECT → ORDER BY → LIMIT)对于写出正确的复杂查询至关重要。例如,列别名是在WHERE子句执行之后才生效的,因此WHERE子句中不能直接使用列别名。
2. WHERE与DISTINCT:数据筛选与去重
WHERE子句用于从FROM列表中筛选行,严格遵循指定的条件进行过滤DISTINCT关键字是数据分析师日常应对“重复数据”的基础操作,用于过滤查询结果中重复的行3. GROUP BY与HAVING:分组汇总与分组筛选
GROUP BY与HAVING是两个非常重要的工具:
GROUP BY:配合聚合函数(聚合函数SUM、AVG、COUNT、MAX、MIN等)将数据行按某个列的值进行分组,之后可对每个组进行统计计算HAVING:在数据被GROUP BY分组聚合之后,对分组聚合的结果进行筛选。这一过程在SQL中的执行顺序为:FROM → WHERE → GROUP BY → HAVING → SELECT → ORDER BY???? “WHERE”与“HAVING”的区别:WHERE子句在数据被聚合之前应用,用于筛选原始数据行;HAVING子句在数据被聚合之后应用,用于筛选分组后的结果。
4. 其他常用子句:ORDER BY与LIMIT
ORDER BY:这是输出结果前最后的“整理”动作,对查询结果按指定字段进行升序(ASC)或降序(DESC)排序,便于观察趋势或极值LIMIT:限制查询结果返回的记录数,常用于取前N条或实现分页查询重点掌握如下几种横向连接查询:
NULL填充。FULL JOIN是能“保留被连接两表的全部信息”的连接方式。除了上述横向连接,还要掌握纵向合并查询。UNION ALL和UNION负责将两个结果集上下堆叠(列数需相同)。二者的关键区别在于:UNION ALL合并时会保留所有行,包括重复行,因此无去重开销,速度快;UNION会对合并后的结果集执行去重操作。
子查询指在一个SELECT语句的内部嵌套另一个SELECT语句。当面对类似“找出那些下单金额大于本月平均订单金额的用户”这类复杂分析时,往往一下子需要“套两层”查询逻辑。
简单类比:DBMS相当于Excel软件本身,SQL则像是VBA宏代码,需要使用这套通用语言去驱动DBMS读取和修改Database中的数据。
在实践当中,无论是数据库查询还是核对分析,函数功能都是十分重要的助推器——它不仅能提升审计应对效率,也能辅助完成数据表的创建和维护,保证数据的准确性和一致性。
假设你是一家电商公司的CDA数据分析师,现需对“近2个月所有已支付订单”进行分析,看近期是否有值得关注的商品活跃度异常。电商数据库拥有三张表:
SQL逻辑如下,注意使用了主键user_id作为左右两表关联的“桥梁”:
SELECT
u.user_name,
u.city,
o.order_amt,
o.order_date
FROM 订单表 o
INNER JOIN 用户表 u ON o.user_id = u.user_id
WHERE o.order_date >= DATE_SUB(CURDATE(), INTERVAL 2 MONTH)
AND o.order_status = '已支付';
现实业务中存在大量项目,需要按某个维度(例如city)进行初次分组,再筛出统计值超过某一阈值的项目。以下是针对GMV的精准筛选:
SELECT
u.city,
SUM(o.order_amt) AS gmv
FROM 订单表 o
INNER JOIN 用户表 u ON o.user_id = u.user_id
WHERE o.order_date >= DATE_SUB(CURDATE(), INTERVAL 2 MONTH)
AND o.order_status = '已支付'
GROUP BY u.city
HAVING gmv > 100000;
此处的SUM与GROUP BY组合实现了不同城市的“订单总金额”汇总,HAVING则过滤出GMV大于10万元的城市。
考虑到上述多表连接查询在未来会频繁使用,直接创建视图是最有效的方法:
CREATE VIEW v_paid_order_gmv AS
SELECT
u.user_name,
u.city,
o.order_amt,
o.order_date
FROM 订单表 o
INNER JOIN 用户表 u ON o.user_id = u.user_id
WHERE o.order_status = '已支付';
创建成功后,后续执行SELECT * FROM v_paid_order_gmv WHERE order_date >= DATE_SUB...,无需再重复编写JOIN逻辑。
✅ 视图的优势:视图本身不存储数据,访问时自动使用源表最新数据。它尤其适用于“按订单状态已支付”这种后续各团队都经常要使用的查询逻辑。
这就是一套完整的“多表连接 → 分组汇总 → 筛选过滤 → 视图固化”的SQL实战流程。
”
很多数据分析师会写SELECT * FROM,但当被问到“表和视图有什么区别”“INNER JOIN和LEFT JOIN分别适用什么场景”“GROUP BY和HAVING的执行顺序是什么”时,却答不上来。
“会取数据”是完成工作的基础,“懂数据库”是体系化分析和可成长提升的阶梯。
在CDA Level Ⅰ的认证体系中,数据库应用部分是连接SQL操作与实际业务分析的核心桥梁。将大量规则与技能适配以后,数据分析师才能从“懂操作”升级为“懂应用”。这部分考核贯穿数据库分类的领会、SQL基本语法和多表连接等综合应用,确保每位CDA分析师都具备从企业核心数据库中高效、准确地获取数据的基本功。
下一步行动:
SELECT加聚合函数进行分组统计,熟悉GROUP BY和HAVING的执行顺序INNER JOIN和LEFT JOIN连接用户表和订单表,理解数据量增减逻辑数据库是企业数据的“心脏”,SQL是CDA分析师与心脏对话的“语言”,掌握它们,你才能真正让数据为你所用。
”
推荐学习书籍 《CDA一级教材》适合CDA一级考生备考,也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校,累计已有10万+在读~ !

免费加入阅读:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03