【机器学习灵魂拷问】训练数据不均衡如何处理?
作者:互联网
当出现正负样本不均衡,比如在自然语言处理分类任务中,正样本数和负样本数的比例为 1:4,这种情况下不能直接去训练,需要做一下处理,处理方法如下:
主要有四种方法:
-
数据处理
上采样:对少量样本进行重复采样,让比例变成 4:4
下采样:对大多数样本进行少量采样,让比例变成 1: 1
构造少数样本: 构造正样本 -
损失函数处理
对少样本(本例为正样本)进行损失函数加权处理,损失函数乘以 4 -
bagging、boost、stack
比如adaboost对错误的分类进行权重的调整
标签:采样,函数,处理,拷问,样本,损失,样本数,均衡,灵魂 来源: https://blog.csdn.net/qq_16761099/article/details/112133306