【读文章】2-特征编码的一些总结-推荐系统、数据挖掘、特征工程
作者:互联网
特征处理编码:
数据类型:数值 字符
是否有顺序
类别数量:高低基数
1、独热编码 针对无序低基数类离散特征,使之变为哑特征
不适合高基数的特征
2、标签编码:针对无序低基数类型的离散特征 形式简单且对于低基数特征有效
3、woe编码:代表特征对于y标签的预测能力,常用于描述区分好坏客户的衡量标准
4、平均数编码:用于高基数类特征的编码
5、模型编码:使用GS编码 将类别特征转为累积值 lightGBM Catboost
1、woe的计算过程
WOE = ln (第i个分箱的坏人数 / 总坏人数) - ln (第i个分箱的好人数 / 总好人数)
这个公式可以理解为每个箱体坏人分布相比于好人分布的差异性
处理非线性特征
2、
标签:分箱,编码,特征,基数,woe,数据挖掘,人数 来源: https://www.cnblogs.com/AKsnoopy/p/16660315.html