一名合格的数据分析师，统计基础不可或缺-CDA数据分析师官网

热线电话：13121318867

一名合格的数据分析师，统计基础不可或缺

2019-10-25

作者 | CDA数据分析师

来源 | CDA数据科学研究院

从事数据分析工作，统计基础不可或缺。今天小编就来给大家好好梳理一下关于一名合格数据分析师所要掌握的统计基础都有哪些，旨在为大家查缺补漏，让大家的数据分析之路走得更扎实稳靠。

统计的基本任务是对经济社会发展情况进行统计调查、统计分析，提供统计资料和统计咨询意见、实行统计监督。统计的信息、咨询和监督三大职能，是相互作用、相互促进、相辅相成和密切联系的。信息职能是统计最基本的职能，是保证咨询和监督职能得以有效发挥的前提。咨询和监督职能是在信息职能基础上的拓展和深化，是在充分发挥信息资源作用的基础上，对统计整体效能的提高。

按照所采用的计量尺度的不同，可以将统计数据分为分类数据、顺序数据和数值型数据。

分类数据是只能归于某一类别的非数字型数据，它是对事物进行分类的结果，数据表现为类别，是用文字来表述的。

顺序数据是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别，但这些类别是有序的。

数值型数据是按数字尺度测量的观测值，其结果表现为具体的数值。现实中所处理的大多数数据都是数值型数据。

分类数据和顺序数据说明的是事物的品质特征，通常是用文字来表述的，其结果均表现为类别，因而也可统称为定性数据或称品质数据；数值型数据说明的是现象的数量特征，通常是用数值来表现的，因此也可以称为定量数据或数量数据。

本文主要介绍了一名合格的数据分析师所应具备的统计基础——统计描述。数据分析的前提就是要学会观察数据，了解数据，统计描述包括对数据的图表描述和统计量描述，它能让我们对数据有一个直观的认识，比如数据是否完整、是否存在异常、服从什么分布、存在什么规律等，为数据预处理和数据分析做准备。

内容框架

一．图表描述

1. 分类数据描述

（1）频数分布表——单变量分布表

主要用于计数和汇总一个分类变量的数据，通过它可以使频数、比例等一目了然，从而为进一步分析做准备。

（2）频数分布表——双变量列联表

主要用于计数和汇总两个分类变量的数据，通过它可以使两个变量交叉分类的频数、比例等一目了然，从而为进一步分析做准备。

（3）条形图

它可以用来展示各类别的绝对值和数据的分布特征。它通过相同宽度条形的长短来表示各类别的数值大小。

（4）帕累托图

它可以用来比较各类别的频数大小。它是按各类别数据出现的频数多少排序后绘制的条形图，通过对条形图的排序，容易看出哪类数据出现得多，哪类数据出现的少。

（5）饼图

它可以用来展示一个样本的结构。它通过一个圆来表示总的数值大小，用圆内各扇形的角度来表示各类别的数值大小。

（6）环形图

它可以显示多个样本各部分所占的相应比例，从而用来比较多个样本的结构。它是把饼图叠在一起，挖去中间的部分；图中每一个环都表示一个样本，样本中的每一部分数据则用环中的一段表示。

2. 顺序数据描述

（1）频数分布表——累计频数分布表

主要用于计数和汇总顺序变量的数据，通过它可以使频数、比例、累积频数、累积频率等一目了然，从而为进一步分析做准备。

（2）累计频数分布图

主要是用于展示顺序变量的累积频数分布情况。它是将各类别按级别大小进行升序或降序排列在横坐标上，用纵坐标表示各类别的频率，然后用折线绘制出累积频率。

3. 数值型数据描述

（1）频数分布表——分组表

主要是用于计数和汇总数值型分组数据。通过它可以使分组后的频数、比例等一目了然，从而为进一步分析做准备。

用于展示数据分布特征的图形主要有以下几种：

（2）直方图

它可以用来展示分组数据的分布特征。它用矩形的面积来表示频数分布，在矩形的高度表示每一组的频数或频率，宽度则表示各组的组距。

直方图与条形图的区别与联系：

区别：条形图主要用来展示分类数据，其高度表示各类别频数的多少，其宽度是固定的；直方图则主要是用于展示数值型分组数据，是用面积表示频数分布，矩形的高度表示每一组的频数或频率，宽度则表示各组的组距，因此其高度和宽度均有意义。且由于分组数据具有连续性，直方图的各矩形通常是连续排列的，而条形图则是分开排列的。

联系：二者都用来展示数据的分布情况；在平面直角坐标系中，二者的横轴都表示分组，纵轴都可表示频数或频率大小。