
【咱们的目标】系列算法讲解旨在用最简单易懂的故事情节帮助大家掌握晦涩无趣的机器学习,适合对数学很头疼的同学们,小板凳走起!
今天咱们就来讨论一下传说中的集成算法,之前咱们讲的算法都是单兵作战的(单个模型得到结果),但是回过头来想一想现在是不是干啥都讲究个合作共赢,所以咱们的模型也是如此。单个算法确实势单力薄,假如我们可以把它们组合起来会不会得到更好的效果呢?(算法们要揭竿起义了,今亡亦死举大计亦死。。。编不下去了)
在集成算法中,有三个核心模块,咱们就一一道来,先来概述一下:
Bagging集成:并行的构造多个基础模型(随机森林),每一个基础模型都各自为政,然后把它们的结果求一个平均就好!
Boosting集成:串行的构造多个基础模型(Xgboost),每一个基础模型都要严格筛选,在前面的基础上加进来的新模型后,它们整体的效果起码得没加这个新的基础模型前要强吧!
Stacking集成:多种算法群殴一起上!选择多个机器学习算法做同一件事,最后把它们的结果合并就OK啦!
先来看看第一个家伙Bagging模型,其典型代表就是随机森立了,简单来说就是并行的训练一堆树模型,然后求其平均结果,在这里我们要讨论一个问题,就是每个树模型该怎么构造呢?如果不加入任何限制,那每个树模型不都差不多嘛,那最后的平均结果又会有什么变化呢?所以为了结果的泛化能力更强,必须要使得每个树模型表现出多样性,也就是尽可能的让每个树模型都不一样!
这该怎么做呢?什么影响模型呢?数据绝对是最大的影响因子,这里的森林很好理解了,就是把树放在一起,那么随机又是什么呢?为了保证每个树的多样性,在构建模型时,我们做了二重随机(我自创的词。。。)第一重就是对样本的选择,每次随机的有放回的选择部分样本作为一棵树的训练样本(比如选择百分之八十作为训练集)。第二重还要考虑特征了,既然样本数据能随机,那么特征也是一样的,每棵树选择的特征也是不一样的随机选择部分特征来建模!
随机的意义非常重要,这是随机森林的精神所在!
随机森林作为灰常经典的机器学习算法,优势自然少不了,当我们建模完之后,还可以对特征进行重要性评估,其实简单来说一个特征的重要与否可以取决于建模的时候如果把这个特征换成噪音特征再去看看结果的错误率是不是显著上升,如果显著上升,那么这个特征自然很重要,如果没变化,那这个特征就没啥用了,因为它和噪音没啥区别!
随机森林中树的个数是不是越多越好呢?理论上越多的树效果应该会更好吧,但是实际上我们把树的个数增加到一定的时候比如100棵了已经,再往上增加树的个数结果也只会发生小范围的浮动,基本也就稳定了!
Boosting集成中典型的代表就属Xgboost啦,一个大杀器,这个算法由于涉及的数学比较多,咱们后续来一个专题去讲Xgboost,我们先来看看简单些的Adaboost。
Adaboost算法概述来说就是,首选我有一个非常简单的模型,比如深度为1的树模型,然后我去预测一下结果,在结果中我发现某些样本预测错了,这个时候第二个简单的树模型就来了,还是同样的任务只不过数据的权重发生了变换,一开始所有的数据都是相同的权重,但是第二次会把前面那次预测错的数据的权重增大,相对来说预测对的数据的权重就会减小。说白了就是让后面的模型更注重我之前哪些数据分错了,这回好能分对它!(好比我们在考试前都会复习之前做错的题)
最后来看一下堆叠模型吧,社会我Stacking,人狠话不多,不需要多解释,做了一堆算法,然后把它们的结果堆叠起来,每个算法都有自己的预测结果,这些结果组合在一起那不相当于一个新的特征嘛,再把它们结果组成的特征去做一个分类或者回归,又得到了一个唯一的结果。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在使用 Excel 数据透视表进行多维度数据汇总时,折叠功能是梳理数据层级的核心工具 —— 通过点击 “+/-” 符号可展开明细数据或 ...
2025-09-28在使用 Pandas 处理 CSV、TSV 等文本文件时,“引号” 是最容易引发格式混乱的 “隐形杀手”—— 比如字段中包含逗号(如 “北京 ...
2025-09-28在 CDA(Certified Data Analyst)数据分析师的技能工具箱中,数据查询语言(尤其是 SQL)是最基础、也最核心的 “武器”。无论 ...
2025-09-28Cox 模型时间依赖性检验:原理、方法与实战应用 在生存分析领域,Cox 比例风险模型(Cox Proportional Hazards Model)是分析 “ ...
2025-09-26检测因子类型的影响程度大小:评估标准、实战案例与管控策略 在检测分析领域(如环境监测、食品质量检测、工业产品合规性测试) ...
2025-09-26CDA 数据分析师:以数据库为基石,筑牢数据驱动的 “源头防线” 在数据驱动业务的链条中,“数据从哪里来” 是 CDA(Certified D ...
2025-09-26线性相关点分布的四种基本类型:特征、识别与实战应用 在数据分析与统计学中,“线性相关” 是描述两个数值变量间关联趋势的核心 ...
2025-09-25深度神经网络神经元个数确定指南:从原理到实战的科学路径 在深度神经网络(DNN)的设计中,“神经元个数” 是决定模型性能的关 ...
2025-09-25在企业数字化进程中,不少团队陷入 “指标困境”:仪表盘上堆砌着上百个指标,DAU、转化率、营收等数据实时跳动,却无法回答 “ ...
2025-09-25MySQL 服务器内存碎片:成因、检测与内存持续增长的解决策略 在 MySQL 运维中,“内存持续增长” 是常见且隐蔽的性能隐患 —— ...
2025-09-24人工智能重塑工程质量检测:核心应用、技术路径与实践案例 工程质量检测是保障建筑、市政、交通、水利等基础设施安全的 “最后一 ...
2025-09-24CDA 数据分析师:驾驭通用与场景指标,解锁数据驱动的精准路径 在数据驱动业务的实践中,指标是连接数据与决策的核心载体。但并 ...
2025-09-24在数据驱动的业务迭代中,AB 实验系统(负责验证业务优化效果)与业务系统(负责承载用户交互与核心流程)并非独立存在 —— 前 ...
2025-09-23CDA 业务数据分析:6 步闭环,让数据驱动业务落地 在企业数字化转型中,CDA(Certified Data Analyst)数据分析师的核心价值,并 ...
2025-09-23CDA 数据分析师:以指标为钥,解锁数据驱动价值 在数字化转型的浪潮中,“用数据说话” 已成为企业决策的共识。但数据本身是零散 ...
2025-09-23当 “算法” 成为数据科学、人工智能、业务决策领域的高频词时,一种隐形的认知误区正悄然蔓延 —— 有人将分析结果不佳归咎于 ...
2025-09-22在数据分析、金融计算、工程评估等领域,“平均数” 是描述数据集中趋势最常用的工具之一。但多数人提及 “平均数” 时,默认指 ...
2025-09-22CDA 数据分析师:参数估计助力数据决策的核心力量 在数字化浪潮席卷各行各业的当下,数据已成为驱动业务增长、优化运营效率的核 ...
2025-09-22训练与验证损失骤升:机器学习训练中的异常诊断与解决方案 在机器学习模型训练过程中,“损失曲线” 是反映模型学习状态的核心指 ...
2025-09-19解析 DataHub 与 Kafka:数据生态中两类核心工具的差异与协同 在数字化转型加速的今天,企业对数据的需求已从 “存储” 转向 “ ...
2025-09-19