学习曲线--帮你清晰判断过拟合和欠拟合-CDA数据分析师官网

热线电话：13121318867

首页大数据时代学习曲线--帮你清晰判断过拟合和欠拟合

学习曲线--帮你清晰判断过拟合和欠拟合

2020-07-09

前面小编给大家简单介绍过拟合和欠拟合时，提到了一个概念：学习曲线，我们通过学习曲线能够很清晰的判别出模型现在说出的状态是欠拟合还是过拟合，下面小编具体整理了学习曲线的相关内容，希望对大家有所帮助。

学习曲线(learning curve)是不同训练集大小，模型在训练集和验证集上的得分变化曲线。横坐标为·样本数，纵坐标为训练和交叉验证集上的得分(如准确率)。

模型在新数据上的表现如何，都能清晰地在展现在学习去线上，我们也能通过这些表现，进而判断模型是否方差偏高或者偏差过高，以及增大训练集是否可以减小过拟合。

如图所示：

(1)当训练集和测试集的误差收敛但却很高时，为高偏差。

左上图中训练集和验证集上的曲线能够收敛，但偏差很高，训练集和验证集上准确率相差很大，却都很差。这种情况下模型对已知数据和未知数据都不能进行准确的预测，很可能是欠拟合。

方法：

增加模型参数，采用更复杂的模型，减小正则项。

注意：此时通过增加数据量是不起作用的。

(2)当训练集和测试集上误差之间有大的差距时，为高方差。

当训练集的准确率比其他独立数据集上的测试结果的准确率要高时，一般都是过拟合。

右上图中，训练集和验证集的准确率差距很大，这种情况下，模型能够很好的拟合已知数据，但是泛化能力不足，属于高方差，很可能是过拟合。

方法：

增大训练集，降低模型复杂度，增大正则项，或者通过特征选择减少特征数。

(3)右下方图，也是最理想情况：找到偏差和方差都很小的状态，就是收敛而且误差较小。

学习曲线的具体操作：

len(X_train) 个训练样本，训练出 len(X_train) 个模型，第一次使用一个样本训练出第一个模型，第二次使用两个样本训练出第二个模型，… ，第 len(X_train) 次使用 len(X_train) 个样本训练出最后一个模型;

每个模型对于训练这个模型所使用的部分训练数据集的预测值：y_train_predict = 模型.predict(X_train[ : i ]);

每个模型对于训练这个模型所使用的部分训练数据集的均方误差：mean_squared_error(y_train[ : i ], y_train_predict);

每个模型对于整个测试数据集的预测值：y_test_predict = 模型.predict(X_test)

每个模型对于整个测试数据集的预测的均方误差：mean_squared_error(y_test, y_test_predict);

绘制每次训练模型所用的样本数量与该模型对应的部分训练数据集的均方误差的平方根的关系曲线：plt.plot([i for i in range(1. len(X_train)+1)],np.sqrt(train_score), label=“train”)

绘制每次训练模型所用的样本数量与该模型对应的测试数据集的预测的均方误差的关系曲线：plt.plot([i for i in range(1. len(X_train)+1)],np.sqrt(test_score), label=“test”)

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

过拟合学习曲线偏差欠拟合特征泛化能力

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇教你用数据分析的方法填报志愿

下一篇mysql数据库（库操作和表操作）常用基本命令汇总

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

学习曲线--帮你清晰判断过拟合和欠拟合

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载