2021-03-10
阅读量:
1054
什么时候用哑变量,什么时候用独热编码?
a 哑变量的截距是基准类别的值,哑变量的回归系数表示的是某类别和基准类别之间的平均差异;
b 若线性模型有截距项,用哑变量,因为多余的自由度可以被统摄到截距项intercept里去;
c 若线性模型有截距项,且使用正则化,用独热编码,因为正则化会约束系数,使各变量地位相等,从而处理多余特征;
d 无截距项,使用独热编码
e 树模型不建议使用二进制类型的编码,因为会加深树的深度,或者减小节点分裂增益
最好是选择正则化 + one-hot编码;哑变量编码也可以使用,不过最好选择前者。对于树模型,不推荐使用定类编码,因为样本切分不均衡时,增益效果甚微





评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论