京公网安备 11010802034615号
经营许可证编号:京B2-20210330
今天,我们继续开启分类算法之旅,它是一种高效简介的分类算法,后面有一个集成算法正是基于它之上,它是一个可视化效果很好的算法,这个算法就是决策树。
1 一个例子
有一堆水果,其中有香蕉,苹果,杏这三类,现在要对它们分类,可以选择的特征有两个:形状和大小,其中形状的取值有个:圆形和不规则形,大小的取值有:相对大和相对小。现在要对其做分类,我们可以这样做:
首先根据特征:形状,如果不是圆形,那么一定是香蕉,这个就是叶子节点;
如果是圆形,
再进一步根据大小这个特征判断,如果是相对大的,则是苹果,如果否,则是杏子,至此我们又得到两个叶子节点,并且到此分类位置,都得到了正确划分三种水果的方法。
大家可以体会刚才这个过程,这就是一个决策分类,构建树的一个过程,说成是树,显得有点高大上,再仔细想想就是一些列 if 和 else 的嵌套,说是树只不过是逻辑上的一种神似罢了。
刚才举的这个例子,有两个特征:形状和大小,并且选择了第一个特征:形状作为第一个分裂点,大小作为第二个分裂点,那么不能选择第二个特征作为第一分裂点吗? 这样选择有没有公式依据呢?
2 分裂点选择依据
在上个例子中,有三类水果,现在假设杏都被我们家的宝宝吃完了,现在手里只有香蕉和苹果这两类水果了,并且这个时候要对它们做分类,此时机灵的你,一定会根据特征:形状对它们分类了,因为这样一下就会把它们分开了,此时我们说这类集合的纯度更高,与之前的那三类水果在形状这个特征上。
纯度这个概念是很好的理解的,种类越少纯度越高,自然两类纯度更高。 此时有人提出了一个和它相反的但是不那么容易理解的概念:熵。它们是敌对双方:熵越大,纯度越低;熵越小,纯度越高。
这是一种概念,那么如何用公式量化熵呢:
其中 i 等于苹果,香蕉,杏,P(i)是集合中取得某一个水果的概率。
试想一下,如果我们想更好地对某个集合完成分类,会怎么做呢?我们一定会优先选择一个特征,使得以这个特征做分类时,它们能最大程度的降低熵,提高分类的纯度,极限的情况是集合中100个元素(集合中只有两类水果),根据某个最优特征,直接将分为两类,一类都是苹果,一类都是杏,这样熵直接等于0。
这个特点就是所谓的信息增益,熵降低的越多,信息增益的就越多。很多时候都不会发生上述说的这个极限情况,就像文章一开始举的例子,根据形状划分后,熵变小了,但是未等于0,比如刚开始三类水果的熵等于0.69,现在根据形状分裂后,熵等于了0.4,所以信息增益为0.69 – 0.4 = 0.29 。如果根据大小划分,信息增益为0.1,那么我们回考虑第一个分裂特征:形状。
这种方法有问题吗?
3 信息增益越大,分类效果越好?
这是只根据信息增益选择分裂特征点的bug,请看下面举例。
如果某个特征是水果的唯一标示属性:编号,那么此时如果选择这个特征,共得到100个叶子节点(假设这堆水果一共有100个),每个叶子节点只含有1个样本,并且此时的信息增益最大为 0.69 – 0 = 0.69 。
但是,这是好的分类吗? 每一个样本作为单独的叶子节点,当来了101号水果,都不知道划分到哪一个叶子节点,也就不知道它属于哪一类了!
因此,这个问题感觉需要除以某个变量,来消除这种情况的存在。
它就是信息增益率,它不光考虑选择了某个分裂点后能获得的信息增益,同时还要除以分裂出来的这些节点的熵值,什么意思呢? 刚才不是分裂出来100个节点吗,那么这些节点自身熵一共等于多少呢:
再除以上面这个数后,往往信息增益率就不会那么大了。这就是传说中的从ID3 到 C4.5 的改进。
4 与熵的概念类似的基尼系数
只需要知道基尼系数和熵差不多的概念就行了,只不过量化的公式不同而已,这就说明理解了,至于公式长什么样子,用的时候去查就行了。
让我们看一下远边的大海,和海边优美的风景,放松一下吧!
5 展望
以上介绍了决策树的一些概念和分裂点选取的基本方法。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15在企业数字化转型、系统架构设计、数据治理与AI落地过程中,数据模型、本体模型、业务模型是三大核心基础模型,三者相互支撑、各 ...
2026-04-15数据分析师的一天,80%的时间花在表格数据上,但80%的坑也踩在表格数据上。 如果你分不清数值型和文本型的区别,不知道数据从哪 ...
2026-04-15在人工智能与机器学习落地过程中,模型质量直接决定了应用效果的优劣——无论是分类、回归、生成式模型,还是推荐、预测类模型, ...
2026-04-14