京公网安备 11010802034615号
经营许可证编号:京B2-20210330
很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系”时,却常常答不上来。在企业的真实工作场景中,数据从来不是从天而降的Excel文件,而是存储在各类数据库中的结构化信息。掌握数据库的核心概念,是数据分析师从“会处理数据”走向“会获取数据”的关键一步。
”
小林入职了一家互联网公司的数据分析团队。第一天,主管让他“提取近三个月电商业务数据库中的订单明细数据”。小林打开数据库工具,面对那一排排陌生的表名和字段名,他发现自己“会用Excel分析数据”,却“不知道怎么把数据从数据库里弄出来”。经过半小时的手忙脚乱,他终于导出了一张Excel表,打开一看:订单金额是负数,日期格式乱七八糟,还缺了关键的“商品类别”字段。
这不是小林的错,而是大多数数据新人的共同困境——数据分析技能和数据库基础知识之间存在断层。在企业环境中,数据资产几乎都沉淀在数据库中,而非现成的Excel文件。数据分析师日常工作面临的两个基础挑战,都与数据库知识息息相关:数据怎么取以及数据怎么用。
本文将从CDA认证的知识体系出发,系统拆解数据库的核心概念、数据库分类、表与视图的区别、SQL语言的功能以及CDA考试中的高频考点,帮助你把“看不懂数据库”变成“数据为我所用”。
数据库(Database)是一个有组织的数据集合,旨在高效地存储、管理和检索数据。它的本质是“按一定结构组织、存储和管理数据的系统”。数据库是整个企业数据资产的“大本营”,也是CDA分析师工作的“起点”。
概括来说,数据库就是你的各种业务数据的“大仓库”。在实际工作中,最常用的几类数据库包括关系型数据库和非关系型数据库。
CDA大纲要求考生领会数据库分类。根据数据模型的差异,数据库可分为以下两类:
关系型数据库(RDBMS) :是企业最主流的数据组织形式,以表的形式存储和管理数据,所有数据由清晰的字段和记录构成,数据之间存在明确的关系。典型代表包括MySQL、Oracle、SQL Server、PostgreSQL等。关系型数据库的核心优势是支持ACID事务(原子性、一致性、隔离性、持久性),适合复杂查询和事务密集型场景。
非关系型数据库(NoSQL) :在处理大规模、非结构化、高并发等特定场景中优势显著,主要应对海量非结构数据。典型代表包括MongoDB(文档型)、Redis(键值型)、HBase(列族型) 等。非关系型数据库的核心优势是水平扩展性强、读写性能高,适合海量数据存储和高并发写入场景。
数据库系统(Database System)是由数据库、数据库管理系统(DBMS)以及相关应用程序组成的整体。企业数据面临的核心问题包括:存储大量数据、大量数据的检索和访问、保证数据信息的一致和完整、数据共享和安全。分析师需要理解这些基础问题,才能在实际工作中更好地与数据打交道。
数据库(Database)是存储数据的“大仓库”,而数据表(Table)则是仓库中分类存放数据的“货架”。它们是“整体与局部”的关系。数据库通常按业务线划分,如“电商业务数据库”“金融信贷数据库”,以避免数据混乱。在电商数据库中,会包含“用户表”(存储用户信息)、“订单表”(存储订单数据)、“商品表”(存储商品信息)等多个表格,每个表都围绕一个业务对象设计。
数据表由字段和记录组成,这是分析师接触数据的“最小颗粒度”。
| 概念 | 定义解析 | 实操价值 |
|---|---|---|
| 字段 | 数据表的列,代表数据的属性 | 指标计算的基础,如“客单价”需提取“订单金额”字段计算 |
| 记录 | 数据表的行,代表一条完整的业务数据 | 数据筛选的对象,如筛选“2024年1月下单的订单记录” |
| 主键 | 唯一标识一条记录的字段 | 关联多表数据的“桥梁”,如通过“用户ID”关联用户表和订单表 |
理解主键的作用至关重要。在企业级数据模型中,主键是确保数据准确定位、多表间数据“不混淆”的依据。主键具有非空不重复的核心特征。
企业的业务数据以“表”的形式保存,但日常分析中还有一个高频衍生物——视图(View)。
数据表是数据库中用于物理存储数据的实体结构,相当于“数据档案柜”。所有原始数据或经过处理的核心数据都以表的形式持久化存储。其核心特征是占用物理存储空间、数据独立存在、可直接修改数据内容。
对分析师而言,创建表的核心价值体现在三个方面:一是固化高频使用的中间数据,避免重复处理原始数据;二是规范数据结构,将杂乱的原始数据整理为符合分析需求的格式;三是实现数据共享,为团队提供统一的分析数据来源。
视图是基于一个或多个表的查询结果构建的虚拟表,本身不存储数据,仅保存查询逻辑(SQL语句)。当调用视图时,数据库会动态执行其背后的SQL,返回实时数据。视图的核心特征是 “逻辑存储” 。
视图的三大核心价值:
| 对比维度 | 数据表 | 视图 | 选择建议 |
|---|---|---|---|
| 数据存储 | 物理存储数据,占用空间 | 仅存查询逻辑,不存数据 | 长期稳定数据→表;实时关联数据→视图 |
| 数据更新 | 可直接增删改查 | 操作受限制,视图本身不存储数据 | 需修改数据→表;仅查询→视图 |
| 查询效率 | 直接读取数据 | 每次访问需动态执行查询语句 | 大数据量频繁访问→表;临时查询→视图 |
| 依赖关系 | 独立存在 | 依赖底层基本表 | 需动态数据→视图;稳定结构→表 |
SQL(结构化查询语言) 是操作数据库的标准语言。CDA大纲要求考生理解数据库、数据库管理系统与SQL之间的关系。
CDA大纲要求领会SQL语言的功能。SQL按功能可分为四大模块:
| 模块类型 | 全称 | 核心功能 | 常用操作 |
|---|---|---|---|
| DDL | 数据定义语言 | 定义和管理数据库对象 | CREATE、DROP、ALTER |
| DML | 数据操作语言 | 操作数据表中的数据 | INSERT、UPDATE、DELETE |
| DQL | 数据查询语言 | 从数据库中查询数据 | SELECT |
| DCL | 数据控制语言 | 管理数据访问权限 | GRANT、REVOKE |
你是某电商公司的CDA数据分析师。数据库中有三张核心表:用户表(user)、订单表(orders)、商品表(product)。需要分析近3个月的已支付订单,统计每个城市的GMV。
第一步:理解数据库结构
明确三张表的关系:订单表通过“用户ID”关联用户表,通过“商品ID”关联商品表。主键分别为user_id、order_id、product_id。
第二步:选择正确的SQL操作
使用SELECT查询语言(DQL) 从数据库中提取数据。
第三步:多表横向连接查询(JOIN)
使用INNER JOIN将三张表按主键和关联字段连接,筛选近3个月的已支付订单。
第四步:分组汇总与筛选
使用GROUP BY按城市分组,使用SUM聚合函数计算GMV,使用HAVING筛选出GMV大于10万元的城市。
这就是一套完整的“理解数据库结构 → 选择SQL语言 → 多表连接 → 分组汇总”的数据库概念实战流程。
”
很多数据分析师会写SELECT * FROM,但当被问到“数据库分为哪几类”“表和视图有什么区别”“数据库管理系统和SQL是什么关系”时,却答不上来。
“会处理Excel”是完成工作的基础,“懂数据库”是体系化分析和可成长提升的阶梯。
在CDA Level I的认证体系中,数据库基础(PART 3)考试占比高达17% ,是CDA一级考试中分值最高的模块之一。从数据库分类的领会、表视图差异的熟记到SQL多表连接与子查询的综合应用,确保每一位CDA分析师都具备从企业核心数据库中高效、准确获取数据的核心能力。
数据库是企业数据的“心脏”,SQL是CDA分析师与心脏对话的“语言”。掌握它们,你才能真正让数据为你所用。
下一步行动:
数据库是企业数据的“心脏”,SQL是CDA数据分析师与这颗心脏对话的“标准语言”;掌握它们,你才能真正让数据为你所用。
”

在 CDA 数据分析师能力体系中,透视分析是数据探索、多维度汇总、业务复盘的核心基础技能。无论是 Excel 数据透视表,还是 Power ...
2026-07-03在市场竞争日趋激烈、获客成本持续攀升的当下,企业粗放式的“广撒网”获客模式早已无法适配经营需求。企业经营的核心逻辑,已经 ...
2026-07-03 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-07-03【核心关键词】运营、企业、核心、客户、新技术、数字化运营、数据分析、传统企业、人工录入、生产系统、技术人员、数据安全、 ...
2026-07-02在产品开发、项目立项、业务拓展、运营优化的工作中,市场调查、竞品分析、需求调研是三大核心基础工作。很多从业者容易将三者混 ...
2026-07-02 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-07-02在MySQL数据库运维与开发工作中,当单表数据量达到千万级、亿级后,会出现查询卡顿、索引失效、写入性能下降等问题。为优化性能 ...
2026-07-01在信息化建设、系统开发、数据分析、需求梳理的工作场景中,业务模型与逻辑模型是两个最基础、也最容易混淆的核心概念。很多项目 ...
2026-07-01 很多数据分析师能熟练计算各种指标,但当被问到“这些指标之间是什么关系”“为什么要选这个指标而不是那个”“指标体系的整 ...
2026-07-01【核心关键词】报表、数据源、客户、营销、业绩、销售、时效性、函数、可视化、运营、数据分析、数据报表、业务部门、数据运营 ...
2026-06-30在数据分析、商业预测、经济统计、运维监控等领域中,绝大多数业务数据都具备时间连续性特征,例如月度销售额、日度客流量、季度 ...
2026-06-30 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标在所有行业都适用”“哪些指标只对电商有意义”“二者如何搭 ...
2026-06-30在 SQL Server 安装、服务启动、数据库文件操作等场景中,经常会遇到 “实例已在使用” 类报错,不同触发场景的原因与处理方式差 ...
2026-06-29在Excel数据统计、财务核算、销售复盘、库存盘点等办公场景中,经常需要在数据透视表中实现一列数据乘以另一列数据的计算需求, ...
2026-06-29在数据分析中,指标是连接业务与数据的核心语言。它并非一个简单的数字,而是一个将模糊的业务需求(如“提升用户粘性”)转化为 ...
2026-06-29【核心关键词】大数据、零售商、消费者、供应链、运营、企业、产品、客户、数据模型、大数据平台、数据开发、系统运维、业务逻 ...
2026-06-26在物流配送、供应链履约、终端供货等业务场景中,送货率是衡量企业履约能力、服务质量、供应链稳定性的核心业务指标,直接关联客 ...
2026-06-26 很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度” ...
2026-06-26在数字化管理与数据化运营体系中,指标是连接原始数据与业务决策的核心载体。零散的原始数据只是无意义的数值堆砌,无法直接反映 ...
2026-06-25在Excel数据汇总、财务统计、业务复盘等日常办公场景中,经常需要完成逐行相乘、整体汇总求和的计算需求,最典型的场景就是:单 ...
2026-06-25