数据统计学习的5个基本流程-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读数据统计学习的5个基本流程

数据统计学习的5个基本流程

2018-03-19

数据统计学习的5个基本流程

统计学、大数据应用很广泛，常常被提及！统计学习也有一定的规律流程，下面我们大圣众包小编分享一位朋友关于统计学习流程步骤的看法，看看他怎么说。

统计学习现在市面上谈论到的数据挖掘基本上都是基于统计学习的监督学习或非监督学习问题。尤其以监督学习应用面更广。

统计学习的一般流程

得到一个有限的数据集合

确定所有的学习模型集合

确定模型选择的准则，就是学习的策略

实现求解最优模型的算法并通过学习方法选择最优模型

利用学习得到的最优模型对新数据进行分析或预测

步骤一：得到一个有限的数据集合

涉及到以下多个流程：

1、数据的采集

2、原始数据的格式化、标准化

3、原始去噪，去掉错误的值(而不是误差值，这里又涉及到一个复杂的问题，如何界定错误数据)

4、预处理(针对具体需要研究的问题、抽取相应地特征组成需要研究的数据集合)

步骤二：确定所有的学习模型集合

这个问题取决于我们选择怎么样的学习方法。常见得学习方法有：

1、感知机模型

2、k近邻法

3、朴素贝叶斯法

4、决策树

5、逻辑斯谛回归和最大熵模型

6、支持向量机

7、提升方法AdaBoost

8、EM算法

9、隐马尔可夫模型

10、条件随机场

而且这些算法还可以进行变异、组合然后形成新的算法模型。也是通常认为中数据挖掘比较核心的部分。

步骤三：确定模型选择的策略

一般来说，当你确定了你的学习方法后，在学习的过程中会产生很多个模型。而如何在这些模型中间挑选最优的模型，成为了我们亟待解决的问题。

一般衡量一个模型的优秀程度我们使用两个指标：

1、拟合能力

2、泛化能力

拟合能力

表示模型的计算结果和实际结果的相差程度，我们一般使用风险函数来衡量。而风险函数是损失函数的期望。所以我们其实是使用损失函数来衡量一个模型的期望。

常见的损失函数:

1、0-1损失函数

2、平分损失函数

3、绝对值损失函数

4、对数损失函数

损失函数越小，模型的拟合能力就越好。

泛化能力泛化能力是指模型对新数据的预测能力。一般来说，越复杂的模型的拟合能力越强，但是泛化能力越弱。所以我们需要选择一个适当复杂度的模型，使其泛化能力和拟合能力都足够强。

而衡量一个模型同时具有较好地泛化能力和拟合能力，我们一般用结构风险函数。

结构风险函数是在风险函数的基础上面加上一个罚项。通过罚项来降低复杂度高的模型的结构风险函数值。从而达到筛选出合适的复杂度的模型的目的。

罚项一般取特征空间w的范数，一般有：

1、L0范数

2、L1范数

3、L2范数

4、核范数…

步骤四：实现求解最优模型的算法并通过学习方法选择最优模型

求解最优模型的算法其实就是求解结构风险函数最小值得算法,即结构风险函数最优化的问题。

如果结构风险函数在我们所关心的区域中是凸函数的话，那么任何局部最小解也是全局最优解。现在已经有稳定，快速的数值计算方法来求二次可微地凸函数的最小值。

然而，很多时候我们没有办法通过结构风险函数直接算出它的最小值。我们只能通过一些迭代的方式获得局部最优解。

常见的通过迭代的方式获得局部最优解的算法有：

1、梯度下降法

2、牛顿法

3、共轭梯度法

4、线性搜索

5、置信域方法

另外还有一些算法：

1、模拟退火

2、遗传算法

3、类免疫算法

4、演化策略

5、差异演化算法

6、微粒群算法

7、神经网络

8、支持向量机

步骤五：利用学习得到的最优模型对新数据进行分析或预测

到这一步一般来说已经成功了，然后往往现实是残酷的，辛辛苦苦20年，一朝回到解放前。

往往学习得到的模型在实际使用过程当中并不是那么的理想。这里面有很多种原因：

有可能是原始数据的原因

有可能是特征选择的原因

有可能是模型的原因

有可能是最优模型算法的问题

有可能是代码错误

总之，以上的所有步骤的所有细节都可能导致你的模型不够优秀。这就需要你再次的思考这个问题，去不断的优化你的模型。直到得到一个不错的模型。

小结

其实数据挖掘涉及的东西远比我上面说的这点东西多的多，我上面提到的还只是监督学习。就光我上面提到的几个步骤。其实每一个步骤都有很多很多东西可以讲，可以研究，工程方面的、算法理论方面的等等等等。

一入数据挖掘深似海，从此奋斗到天明。

数据挖掘还是很有意思的，你可以用机器的力量、数学的力量理解世界的运行规律。去预测他或者利用你研究到的东西做一些有意思的事情。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

损失函数泛化能力数据挖掘特征支持向量机神经网络决策树特征空间

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇几个大数据误区值得让你深入思考

下一篇如何用六点教会老婆写 Python

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

数据统计学习的5个基本流程

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少寒谈传统制造业与互联网行业数 ...

学完商业数据分析，开启 CDA 量化策略：从业务思维 ...

CDA持证人专访：赵森淼谈药企数据分析从业体验与转 ...

【CDA干货】卡方检验与T检验结果的标准化解读方法及 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载