如何计算决策树的各特征重要程度？-CDA数据分析师官网

热线电话：13121318867

首页大数据时代如何计算决策树的各特征重要程度？

如何计算决策树的各特征重要程度？

2023-04-07

决策树是一种常用的机器学习算法，它可以对数据进行分类和预测。在决策树中，特征（或属性）重要性是指每个特征对模型准确性的贡献程度。因此，了解如何计算特征重要性是非常有用的，可以帮助我们选择最相关的特征，进而提高模型的性能。

本文将介绍三种计算特征重要性的方法：基于信息增益、基于基尼不纯度和基于平均减少不纯度。这些方法都可以用来计算特征重要性，并且在实践中都取得了很好的效果。

基于信息增益

信息增益是一种用来评估一个特征对决策树分类能力的重要性的指标。它的定义是：特征A对样本集D的信息增益（Gain(D, A)）等于样本集D的经验熵（H(D)）与特征A条件下的经验熵（H(D|A)）之差，即：

Gain(D, A) = H(D) - H(D|A)

其中，经验熵（H(D)）衡量了样本集D的不确定性，经验熵越大，样本集的不确定性就越高；特征A条件下的经验熵（H(D|A)）衡量的是在特征A给定的情况下，样本集D的不确定性。如果特征A对分类任务有帮助，则H(D|A)会比H(D)小，因此信息增益越大，特征对分类能力的贡献就越大。

在计算信息增益时，我们需要先计算经验熵和条件经验熵。然后，通过计算信息增益来确定每个特征的重要性，从而选择最相关的特征。

基于基尼不纯度

基尼不纯度是另一种评估特征重要性的方法。它衡量的是从样本中随机选择两个样本，其类别不一致的概率。这个概率越低，说明样本的纯度越高，也就是说该特征对分类任务的贡献越大。

具体来说，假设样本集合D中第k类样本所占的比例为pk，则D的基尼指数定义为：

Gini(D) = 1 - ∑(pk)^2

对于样本集合D来说，假设使用特征A对其进行划分，得到了m个子集Di，其中第i个子集的样本数为Di，并且属于第k类的样本在Di中所占的比例为pki，则特征A的基尼指数定义为：

Gini(D, A) = ∑(Di / D) × (1 - ∑(pki)^2)

特征A的重要性可以通过计算基尼指数的减少量来确定。具体来说，我们可以计算使用特征A进行划分前后的基尼指数，然后计算两者之差，即：

ΔGini(D, A) = Gini(D) - Gini(D, A)

如果ΔGini越大，说明特征A对分类任务的贡献越大，因此特征A的重要性就越高。

基于平均减少不纯度

平均减少不纯度（Mean Decrease Impurity，MDI）是一种计算特征重要性的方法，它对应的是决策树算法中的 CART

算法。该方法通过计算每个特征在决策树中被用作分裂标准的次数和该特征分裂所带来的平均减少不纯度，来评估特征的重要程度。

具体来说，对于某个特征A，我们可以计算它在所有节点上的分裂次数和每次分裂所带来的平均减少不纯度（Impurity Decrease，ID）。然后将每个节点的ID加权求和即可得到特征A的MDI。

CART算法使用的是基尼不纯度来评估节点的不纯度，因此其计算方法与基于基尼不纯度的特征重要性计算方法类似。

总结

本文介绍了三种常用的特征重要性计算方法：基于信息增益、基于基尼不纯度和基于平均减少不纯度。这些方法都可以用来计算特征的重要性，并且在实践中都取得了很好的效果。选择哪种方法取决于具体情况和数据集的特点。在实际应用中，我们可以结合多种方法来评估特征的重要性，以获得更全面的结果。

相信读完上文，你对算法已经有了全面认识。若想进一步探索机器学习的前沿知识，强烈推荐机器学习之半监督学习课程。

学习入口：https://edu.cda.cn/goods/show/3826?targetId=6730&preview=0
涵盖核心算法，结合多领域实战案例，还会持续更新，无论是新手入门还是高手进阶都很合适。赶紧点击链接开启学习吧！

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

特征决策树机器学习监督学习半监督学习半监督

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇为什么NLP模型训练1~3个epoch就可以收敛，但是CV模型很多需要训练十几甚至上百个epoch？

下一篇卷积神经网络图像处理卷积时，为啥要旋转180°？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

如何计算决策树的各特征重要程度？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载