京公网安备 11010802034615号
经营许可证编号:京B2-20210330
小李刚入职了一家互联网公司的运营部门。第一次参加业务复盘会,运营主管问了一个看似简单的问题:“这个月新用户留存率下降了5个百分点,情况严重吗?”
小李立刻调出数据,跑了一堆报表,算出留存率的均值、中位数、标准差……数据堆了满满一页,却说不出到底“严重不严重”。
旁边一位资深分析师接过话头:“我们上个月做过A/B测试,正常波动范围在±3%以内。现在下降5%超出正常波动,且连续两周趋势向下,需要立即排查新用户引导流程。”
同样是留存率下降5%,这位分析师只用了几秒钟就判断出了问题的严重性。区别在哪里?关键在于对统计基本概念的深刻理解——什么是正常波动?什么是抽样误差?统计量如何推断总体?这些正是统计要解决的核心问题。
本文将从CDA认证的知识体系出发,系统拆解统计学的本质与基本概念,帮助你把“死记硬背”的统计知识,转化为“活学活用”的数据分析能力。
统计学是一门收集、处理、分析、解释数据,并从数据中得出结论的科学。这一定义涵盖了一个完整的分析闭环:
收集数据 → 处理数据 → 分析数据 → 解释数据 → 得出结论
”
在CDA的知识体系中,研究思路正是遵循这个闭环:
描述性统计:涉及收集、整理、总结和呈现数据的技术。它回答的是“数据长什么样”的问题。例如:平均客单价是多少?销售额的波动有多大?——这些都不需要推断,只需要对已有数据进行汇总和描述即可。
推断性统计:涉及利用样本数据推断总体特征的技术。它回答的是“从样本能得出什么总体结论”的问题。例如,对1000个用户进行了调查,能推断出全部100万用户的行为特征吗?——这就需要推断统计的方法。推断性分析包含参数估计、假设检验、列联分析等内容。
数据、总体、样本、参数、变量这些概念是统计学的基本构成元素,理解它们是掌握所有后续统计方法的前提。
总体:指根据研究目的确定的同质研究对象的全体。总体是“所有元素的集合”,其中每个元素称为个体。
例如,研究“我国男性的平均身高”这一问题时,总体应为我国所有男性。
样本:从总体中随机抽取的部分个体。例如,从我国所有男性中随机抽取1000人进行身高测量,这1000人就是样本。构成样本的元素的数目称为样本容量。
在实际工作中,我们很少能接触到完整的总体数据——用户有100万,订单有1000万条,但分析资源有限。数据分析师的工作常态是:基于样本数据,推断总体特征。
参数:指研究者想要了解的总体的某种特征值。参数通常是未知的,因为不可能观测到总体中的所有个体。常见的参数有总体均值、总体标准差、总体比例等。
统计量:指根据样本数据计算出来的一个量,即样本的某个特征值。常见的统计量有样本均值、样本标准差、样本比例等。
参数是客观存在的“事实” ,统计量是我们手中掌握的“线索”。数据分析师的任务,正是通过手中的统计量,去推断和估计未知的参数。
变量是描述个体某个特征的名称,其取值会随着个体的不同而发生变化。变量是统计研究的基本单元。
数据的计量尺度和具体的统计方法息息相关,大致分为3类:
| 计量尺度 | 变量类型 | 特征 | 典型示例 |
|---|---|---|---|
| 名义测量 | 分类变量 | 最低等级,仅区分类别,无大小、顺序关系 | 性别(1或2)、民族(1、2、3…) |
| 次序测量 | 顺序变量 | 量化水平更高,数值代表有序分类 | 受教育程度的高低(1、2、3…) |
| 连续变量测量 | 数值变量 | 量化程度最高,采用实际测量值 | 年龄、身高、销售额、温度 |
连续变量测量可进一步细分为间距测量和比例测量:
值得注意的是,分类变量、顺序变量、连续变量的量化水平是由低到高的,低水平变量的统计量可以用于高水平,但高水平变量的统计量不一定能用于低水平。
正态分布是最常见、最重要的连续型概率分布,许多自然和社会现象都近似服从正态分布(如身高、考试成绩、测量误差等)。正态分布的形态呈“钟形曲线”,对称分布在均值两侧,具有“中间高、两头低”的特点。
正态分布在数据分析中的应用极为广泛,是参数估计、假设检验等推断统计方法的重要理论基础。
两点分布(也称伯努利分布)是最简单的离散型概率分布,只有两种可能的结果(成功/失败、是/否)。例如:掷一次硬币,正面朝上的概率为p,反面朝上的概率为1-p。
你是某互联网公司的数据分析师。公司刚刚进行了一次用户满意度调查,收集了500份有效问卷。调查内容包括:用户ID、年龄、性别、城市等级(一线/新一线/二线/其他)、满意度评分(1-5分)、是否推荐给朋友(是/否)。
老板要求你回答以下问题:
第一步:明确总体与样本
第二步:识别变量类型与计量尺度
| 变量 | 计量尺度 | 变量类型 | 说明 |
|---|---|---|---|
| 用户ID | 名义测量 | 分类变量 | 仅用于标识,不能计算 |
| 年龄 | 比率测量 | 数值变量 | 有绝对零点,可比较倍数 |
| 性别 | 名义测量 | 分类变量 | 仅区分类别,无顺序 |
| 城市等级 | 次序测量 | 顺序变量 | 一线>新一线>二线>其他 |
| 满意度评分 | 间距测量 | 数值变量 | 1-5分,无绝对零点 |
| 是否推荐 | 名义测量 | 分类变量 | 是/否两类结果 |
第三步:描述性统计分析
根据CDA大纲的要求,描述性统计需从集中趋势、离散程度、分布形态三个维度进行描述:
第四步:推断统计
用样本统计量推断总体参数:
这就是一套完整的“识别变量类型 → 描述性统计 → 推断统计”的实战流程。掌握了统计基本概念,你就能从一堆数字中提炼出有价值的商业洞察。
”
很多数据分析师会算均值、标准差,但当被问到“总体和样本有什么区别”“参数和统计量有什么关系”“数据级别的排序是怎样的”时,却答不上来。
知其然还要知其所以然,这正是CDA Level I认证的价值所在。
统计基本概念模块在CDA一级考试中要求达到**〖熟知〗级别**,是考试的重点部分。从统计学的含义与应用,到总体、样本、参数、变量等核心概念,再到正态分布、两点分布等常用分布——这些知识不仅是考试的得分点,更是数据分析师日常工作的“底层语言”。
下一步行动:
数字是冰冷的,但掌握统计的人能让它们说出真相。
”

【核心关键词】主数据、资产、供应商、现金流、企业、精细化、集团、数字化、中国、数据质量、数据管理、经营管理、地产行业、 ...
2026-06-24在数据分析、假设检验、AB测试、学术研究等统计场景中,显著水平(α)与P值(P-value)是判断统计结果是否具有统计学意义的两个 ...
2026-06-24小李刚入职了一家互联网公司的运营部门。第一次参加业务复盘会,运营主管问了一个看似简单的问题:“这个月新用户留存率下降了5 ...
2026-06-24在数字化转型全面渗透的产业背景下,数据分析已成为互联网、金融、零售、制造等几乎所有行业的核心岗位能力。很多初学者对数据分 ...
2026-06-23在企业并购、股权定价、投融资评估、资产核算等资本市场核心场景中,市场法是应用最广泛、市场认可度最高的企业价值评估方法。传 ...
2026-06-23 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-06-23【核心关键词】运营、证书、金融、客户、产品、软件、销售额、量化、科技、数据分析、金融行业、证券类软件、业务流程、金融机 ...
2026-06-22在企业方案选型、产品迭代评审、供应商筛选、运营效果复盘等决策场景中,单一指标的优劣判断往往无法支撑科学决策。一套转化效果 ...
2026-06-22 很多数据分析师掌握了Excel函数、会写SQL查询,但当被问到“数据从哪里来”“数据加工有哪些步骤”“如何使用分析工具连接数 ...
2026-06-22【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15