机器学习入门报告之解决问题一般工作流程-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读机器学习入门报告之解决问题一般工作流程

机器学习入门报告之解决问题一般工作流程

2018-03-20

机器学习入门报告之解决问题一般工作流程

对于给定的数据集和问题，用机器学习的方法解决问题的工作一般分为4个步骤：

一．数据预处理

首先，必须确保数据的格式符合要求。使用标准数据格式可以融合算法和数据源，方便匹配操作。此外还需要为机器学习算法准备特定的数据格式。

然后，直接得到的数据集很少可以直接使用，可能有以下原因：

1. 样本某些属性缺失

2. 某些样本未标记

3. 样本属性过多

4. 没有分出训练集和测试集

5. 不同类别训练样例比例相差太大

对于1，2这样的情况，在该类样本数较少的情况下一般通过删除该类无效样本来清洗数据。

对于3

·过多的特征可能误导学习器

·更多的特征意味着更多的参数需要调整，过拟合的风险加大

·数据的可视化要求维度不高于3

·维度越少训练越快，可尝试的东西越多，能得到更好地效果

·数据的维度可能虚高。

解决方法就是降维，降维分为特征选择法和特征抽取法。

特征选择法：

所谓特征选择，就是选择样本中有用、跟问题相关的特征。事实上并不一定样本的所有属性对具体问题都是有用的，通过一定的方法选择合适的特征可以保证模型更优。常用的方法大致分三类：过滤式、包裹式和嵌入式。

特征抽取法：

特征抽取试图将原始特征空间转换成一个低维特征空间而不丢失主要信息。无法使用选择方法来删除特征，而特征又太多的时候，这种方法很有效。我们可以通过主成分分析PCA和线性判别式分析和多维标度法来验证。

对于4，为了方便训练和验证模型好坏，数据集一般会以9：1或者其他合适比例（比例选择主要基于实际问题）分为测试集和验证集。如果给定的数据集只是已经标记好的样本，那么划分时必须保证数据集和测试集的分布大致均匀。

对于5，即类别不均衡问题，处理的一个基本策略是—再缩放。

二．选定算法

一种方式是根据有没有标记样本考虑。
如果是有标记样本，可以考虑有监督学习，反之则是无监督学习。
无监督学习方法主要是聚类。随机选定几个样本，通过一定的算法不停迭代直至收敛或者达到停止条件，然后便将所有样本分成了几类。
对有监督学习而言，根据最终所需要的输出结果
如果是分类问题，可以参考的模型有线性回归及其非线性扩展、决策树、神经网络、支持向量机 SVM、规则学习等
如果是回归问题，可以认为是分类的连续形式，方法便是以上模型的变种或扩展
如果涉及到概率，可以参考的有神经网络、贝叶斯、最大似然、EM、概率图、隐马尔科夫模型、强化学习等

三．训练算法

将格式化数据输入到算法，从中抽取知识或信息。这里的得到的知识需要存储为计算机可以处理的格式，方便后续使用。

四．性能评估和优化

如果要评估训练集和测试集的划分效果，常用的有留出法、交叉验证法、自助法、模型调参等
如果模型计算时间太长，可以考虑剪枝
如果是过拟合，则可通过引入正则化项来抑制（补偿原理）
如果单个模型效果不佳，可以集成多个学习器通过一定策略结合，取长补短（集成学习）

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

特征监督学习特征抽取特征选择机器学习神经网络特征空间无监督学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

机器学习入门报告之解决问题一般工作流程

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

机器学习入门报告之 解决问题一般工作流程

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

机器学习入门报告之解决问题一般工作流程