其他分享
首页 > 其他分享> > 关于样本不均衡问题

关于样本不均衡问题

作者:互联网

原文地址:一只鸟的天空,http://blog.csdn.net/heyongluoyao8/article/details/49408131

在分类中如何处理训练集中不平衡问题

  在很多机器学习任务中,训练集中可能会存在某个或某些类别下的样本数远大于另一些类别下的样本数目。即类别不平衡,为了使得学习达到更好的效果,因此需要解决该类别不平衡问题。

Jason Brownlee的回答:

原文标题:8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset
  当你在对一个类别不均衡的数据集进行分类时得到了90%的准确度(Accuracy)。当你进一步分析发现,数据集的90%的样本是属于同一个类,并且分类器将所有的样本都分类为该类。在这种情况下,显然该分类器是无效的。并且这种无效是由于训练集中类别不均衡而导致的。
  首先举几个所收到的邮件中关于类别不均衡的例子:

什么是类别不均衡问题

  类别数据不均衡是分类任务中一个典型的存在的问题。简而言之,即数据集中,每个类别下的样本数目相差很大。例如,在一个二分类问题中,共有100个样本(100行数据,每一行数据为一个样本的表征),其中80个样本属于class 1,其余的20个样本属于class 2,class 1:class2=80:20=4:1,这便属于类别不均衡。当然,类别不均衡问同样会发生在多分类任务中。它们的解决方法是一样的。因此,为了便于讨论与理解,我们从二分类任务入手进行讲解。

类别不均衡问题是现实中很常见的问题

  大部分分类任务中,各类别下的数据个数基本上不可能完全相等,但是一点点差异是不会产生任何影响与问题的。
  在现实中有很多类别不均衡问题,它是常见的,并且也是合理的,符合人们期望的。如,在欺诈交易识别中,属于欺诈交易的应该是很少部分,即绝大部分交易是正常的,只有极少部分的交易属于欺诈交易。这就是一个正常的类别不均衡问题。又如,在客户流失的数据集中,绝大部分的客户是会继续享受其服务的(非流失对象),只有极少数部分的客户不会再继续享受其服务(流失对象)。一般而已,如果类别不平衡比例超过4:1,那么其分类器会大大地因为数据不平衡性而无法满足分类要求的。因此在构建分类模型之前,需要对分类不均衡性问题进行处理。
  在前面,我们使用准确度这个指标来评价分类质量,可以看出,在类别不均衡时,准确度这个评价指标并不能work。因为分类器将所有的样本都分类到大类下面时,该指标值仍然会很高。即,该分类器偏向了大类这个类别的数据。

八大解决方法

  这些想法只是冰山一角,你可以想到更多的有趣的和有创意的想法去解决问题。更多的想法参加Reddit的文章http://www.quora.com/In-classification-how-do-you-handle-an-unbalanced-training-set

选择某一种方法并使用它

  你不必成为一个精通所有算法的算法奇才或者一个建立准确而可靠的处理数据不平衡的模型的统计学家,你只需要根据你的问题的实际情况从上述算法或方法中去选择一种或两种方法去使用。希望上述的某些方法能够解决你的问题。例如使用其它评价指标或重采样算法速度快并且有效。

总结

  记住,其实并不知道哪种方法最适合你的任务与数据,你可以使用一些启发式规则或经验去选择某一个较优算法。当然最好的方法测试每一种算法,然后选择最好的方法。最重要的是,从点滴开始做起,根据自己现有的知识,并不断学习去一步步完善。

Further Reading…

  这里有一些我认为有价值的可供参考的相关资料,让你进一步去认识与研究数据不平衡问题:

Sergey Feldman的回答:

Kripa Chettiar的回答:

Roar Nybø的回答:

Dan Levin的回答:

Kaushik Kasi的回答:

Quora User的回答:

Dayvid Victor的回答:

  在类别不平衡中,以下几个点需要注意:

Muktabh Mayank的回答:

Sandeep Subramanian的回答:

Quora User的回答:

Sumit Soman 的回答:

Abhishek Ghose的回答:

  参见:Abhishek Ghose’s answer to What’s the most efficient classification algorithm for unbalanced data sets? And what pre-processing could be done to optimize the score?

原文:https://www.quora.com/In-classification-how-do-you-handle-an-unbalanced-training-set

标签:采样,分类,样本,分类器,小类,关于,均衡,类别
来源: https://www.cnblogs.com/lilingxin/p/15391577.html