热线电话:13121318867

登录
2021-03-10 阅读量: 1054
什么时候用哑变量,什么时候用独热编码?

a 哑变量的截距是基准类别的值,哑变量的回归系数表示的是某类别和基准类别之间的平均差异;

b 若线性模型有截距项,用哑变量,因为多余的自由度可以被统摄到截距项intercept里去;

c 若线性模型有截距项,且使用正则化,用独热编码,因为正则化会约束系数,使各变量地位相等,从而处理多余特征;

d 无截距项,使用独热编码

e 树模型不建议使用二进制类型的编码,因为会加深树的深度,或者减小节点分裂增益

最好是选择正则化 + one-hot编码;哑变量编码也可以使用,不过最好选择前者。对于树模型,不推荐使用定类编码,因为样本切分不均衡时,增益效果甚微


43.8203
0
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子