掌握这五大统计学知识，让你在数据科学领域如鱼得水-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读掌握这五大统计学知识，让你在数据科学领域如鱼得水

掌握这五大统计学知识，让你在数据科学领域如鱼得水

2019-10-30

作者 | George Seif

编译 | 廖琴孙梦琪

来源 | 读芯术

数据科学家都应该知道如何有效地使用数据并从中获取信息。下面是小编整理的五大实用型统计学概念，每个数据科学家都应该熟知，它们能让你在数据科学领域发挥得更加行云流水。

从定义来看，数据科学实际上指的是从数据中获取信息的过程。数据科学旨在解释所有数据在现实世界中的意义，而不仅仅局限于数字层面。

为了提取嵌入在复杂数据集中的信息，数据科学家使用了许多工具和技术，包括数据探索、可视化和建模。在数据探索中常用的一类非常重要的数学技术是统计学。

从实践层面上讲，采用统计学使人们能够对数据进行具体的数学总结。人们可以使用统计数据来描述部分数据的属性，而不必试图描述每个数据点。通常这就足以提取一些关于数据结构和组成的信息。

有时候，在听到“统计学”这个词时，人们总会想得过于复杂。的确，它可能是有点抽象，但并不总是需要借助复杂的理论来从统计技术中获得有价值的内容。

最基本的统计学知识往往在数据科学中最有实用价值。

本文为大家介绍5个用于数据科学的实用统计学知识。它们不是令人抓狂的抽象概念，而是极为简单的、可以应用的技术，且前景很好。

那么开始吧！

1. 集中趋势

数据集或特征变量的集中趋势是指集的中心值或典型值。也就是说，可能存在一个值可以(在一定程度上)最充分地描述数据集。

例如，假设正态分布以(100,100)为中心。那么点(100,100)就是中心趋势，因为在所有可选择的点中，它总结数据的效果最佳。

对于数据科学，可以使用集中趋势测度快速简单地了解整体数据集。数据的“中心”可能是非常有价值的信息，可以说明数据集究竟是如何产生偏差的，因为数据所围绕的任何值本质上都是有偏差的。

在数学上有两种常见的选择集中趋势的方法。

平均数

数据集的平均数指整个数据集围绕分布的一个平均数值。在定义平均值时，所有用于计算平均数值的权重都是相等的。

例如，计算以下5个数字的平均数：

(3 + 64 + 187 + 12 + 52) / 5 = 63.6

平均值对于计算实际的数学平均数非常有用。使用像Numpy这样的Python库计算也非常快。

中位数

中位数是数据集的中间值。也就是说，如果把数据从小到大(或者从大到小)排序，然后取集的中间值:这便是中位数。

接下来再次计算相同的5个数的中位数：

[3, 12, 52, 64, 187]→52

中位数与平均数63.6相差很大。二者没有对错之分，可视情况和目的选择其一。

计算中位数需要对数据进行排序——如果数据集很大，这就不实用了。

另一方面，中位数对离群值的鲁棒性要强于平均数，因为如果有一些非常高的离群值，平均数就会偏大或偏小。

平均数和中位数可以用简单的numpy单行代码计算：

numpy.mean(array)

numpy.median(array)

掌握这五大统计学知识，让你在数据科学领域如鱼得水

2. 分布

在统计学中，数据分布是指在更大的范围内，数据集中趋向一个或多个值的程度。

看看下面的高斯概率分布图——假设这些是描述真实世界数据集的概率分布。

蓝色曲线的扩展值最小，因为其大部分数据点都在一个相当窄的范围内。红色曲线的扩展值最大，这是因为大多数数据点所占的范围要大得多。

图中显示了这些曲线的标准差值，下一节中将进行解释。

标准差

标准差是量化数据分布最常见的方法。计算分五步进行：

1.求平均数。

2.求每个数据点到平均数距离的平方。

3.对步骤2中的值进行求和。

4.除以数据点的个数。

5.取平方根。

值越大意味着数据离平均数更“分散”。值越小意味着数据更集中在平均值附近。

用Numpy很容易就能计算出标准差：

numpy.std(array)

3. 百分数

百分数可用于进一步描述范围内每个数据点的位置。

百分数根据数据点在值范围中的位置高低来描述数据点的确切位置。

更准确地说，第p个百分位是数据集中的值，在该值处可以将其分为两部分。下半部分包含p %的数据，即第p个百分位。

例如，看下列11个数字：

13 5 7 9 11 13 15 17 19 21

数字15是第70百分位，因为当在数字15处将数据集分成两部分时，剩余70%的数据小于15。

百分数与平均数和标准差相结合，可以让人们很好地了解特定的点在数据分布/数据范围内的位置。如果它是一个异常值，那么它的百分数将接近于终点——小于5%或大于95%。另一方面，如果百分位数计算结果接近50，那么可知其接近集中趋势。

数组的第50百分位可以用Numpy来计算，代码如下:

numpy.percentile(array, 50)

4. 偏态

数据偏态用于衡量数据的不对称性。

正偏态表示值集中在数据点中心的左侧;负偏度表示值集中在数据点中心的右侧。

下图充分说明了这一点。

下面的公式可用于计算偏态：

偏态可说明数据分布与高斯分布的差距。偏态越大，数据集离高斯分布越远。

这很重要，因为若对数据的分布有一个粗略的概念，就可以为特定的分布定制要训练的ML模型。此外，并非所有ML建模技术都能对非高斯数据起作用。

在开始建模之前，再次强调，统计数据提供了重要的信息！

下面是在Scipy代码中计算偏态的方法：

scipy.stats.skew(array)

5. 协方差和相关性

协方差

两个特征变量的协方差可用于衡量二者的“相关性”。如果两个变量有正协方差，那么当一个变量增加时，另一个也会增加；当协方差为负时，特征变量的值将向相反的方向变化。

相关性

相关性也就是简单的标准化(比例)协方差，即两个被分析变量的积差。这将有效地促使关联范围始终保持在-1.0和1.0之间。

若两个特征变量的相关系数为1.0，则两个特征变量的相关系数为正相关。这也就意味着，如果一个变量的变化量是给定的，那么第二个变量就会按比例向相同的方向移动。

▲降维主成分分析(PCA)说明

当正相关系数小于1时，表示正相关系数小于完全正相关，且相关强度随着数字趋近于1而增大。这同样也适用于负相关值，只是特征变量的值朝相反的方向变化，而不是朝相同的方向变化。

了解相关性对于主成分分析(PCA)等降维技术非常有用。从计算一个相关矩阵开始——如果有两个或两个以上的变量高度相关，那么它们在解释数据时实际上是多余的，可以删除其中一些变量以降低复杂性。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

特征 numpy PCA 降维偏差正态分布

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇程序员小白都应该知道的30件事

下一篇毕业后哪些学科就业难？IT相关专业月收入领跑Top5

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

掌握这五大统计学知识，让你在数据科学领域如鱼得水

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少寒谈传统制造业与互联网行业数 ...

学完商业数据分析，开启 CDA 量化策略：从业务思维 ...

CDA持证人专访：赵森淼谈药企数据分析从业体验与转 ...

【CDA干货】卡方检验与T检验结果的标准化解读方法及 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载