京公网安备 11010802034615号
经营许可证编号:京B2-20210330
今天,我们继续开启分类算法之旅,它是一种高效简介的分类算法,后面有一个集成算法正是基于它之上,它是一个可视化效果很好的算法,这个算法就是决策树。
1 一个例子
有一堆水果,其中有香蕉,苹果,杏这三类,现在要对它们分类,可以选择的特征有两个:形状和大小,其中形状的取值有个:圆形和不规则形,大小的取值有:相对大和相对小。现在要对其做分类,我们可以这样做:
首先根据特征:形状,如果不是圆形,那么一定是香蕉,这个就是叶子节点;
如果是圆形,
再进一步根据大小这个特征判断,如果是相对大的,则是苹果,如果否,则是杏子,至此我们又得到两个叶子节点,并且到此分类位置,都得到了正确划分三种水果的方法。
大家可以体会刚才这个过程,这就是一个决策分类,构建树的一个过程,说成是树,显得有点高大上,再仔细想想就是一些列 if 和 else 的嵌套,说是树只不过是逻辑上的一种神似罢了。
刚才举的这个例子,有两个特征:形状和大小,并且选择了第一个特征:形状作为第一个分裂点,大小作为第二个分裂点,那么不能选择第二个特征作为第一分裂点吗? 这样选择有没有公式依据呢?
2 分裂点选择依据
在上个例子中,有三类水果,现在假设杏都被我们家的宝宝吃完了,现在手里只有香蕉和苹果这两类水果了,并且这个时候要对它们做分类,此时机灵的你,一定会根据特征:形状对它们分类了,因为这样一下就会把它们分开了,此时我们说这类集合的纯度更高,与之前的那三类水果在形状这个特征上。
纯度这个概念是很好的理解的,种类越少纯度越高,自然两类纯度更高。 此时有人提出了一个和它相反的但是不那么容易理解的概念:熵。它们是敌对双方:熵越大,纯度越低;熵越小,纯度越高。
这是一种概念,那么如何用公式量化熵呢:
其中 i 等于苹果,香蕉,杏,P(i)是集合中取得某一个水果的概率。
试想一下,如果我们想更好地对某个集合完成分类,会怎么做呢?我们一定会优先选择一个特征,使得以这个特征做分类时,它们能最大程度的降低熵,提高分类的纯度,极限的情况是集合中100个元素(集合中只有两类水果),根据某个最优特征,直接将分为两类,一类都是苹果,一类都是杏,这样熵直接等于0。
这个特点就是所谓的信息增益,熵降低的越多,信息增益的就越多。很多时候都不会发生上述说的这个极限情况,就像文章一开始举的例子,根据形状划分后,熵变小了,但是未等于0,比如刚开始三类水果的熵等于0.69,现在根据形状分裂后,熵等于了0.4,所以信息增益为0.69 – 0.4 = 0.29 。如果根据大小划分,信息增益为0.1,那么我们回考虑第一个分裂特征:形状。
这种方法有问题吗?
3 信息增益越大,分类效果越好?
这是只根据信息增益选择分裂特征点的bug,请看下面举例。
如果某个特征是水果的唯一标示属性:编号,那么此时如果选择这个特征,共得到100个叶子节点(假设这堆水果一共有100个),每个叶子节点只含有1个样本,并且此时的信息增益最大为 0.69 – 0 = 0.69 。
但是,这是好的分类吗? 每一个样本作为单独的叶子节点,当来了101号水果,都不知道划分到哪一个叶子节点,也就不知道它属于哪一类了!
因此,这个问题感觉需要除以某个变量,来消除这种情况的存在。
它就是信息增益率,它不光考虑选择了某个分裂点后能获得的信息增益,同时还要除以分裂出来的这些节点的熵值,什么意思呢? 刚才不是分裂出来100个节点吗,那么这些节点自身熵一共等于多少呢:
再除以上面这个数后,往往信息增益率就不会那么大了。这就是传说中的从ID3 到 C4.5 的改进。
4 与熵的概念类似的基尼系数
只需要知道基尼系数和熵差不多的概念就行了,只不过量化的公式不同而已,这就说明理解了,至于公式长什么样子,用的时候去查就行了。
让我们看一下远边的大海,和海边优美的风景,放松一下吧!
5 展望
以上介绍了决策树的一些概念和分裂点选取的基本方法。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28