随机森林的随机性体现和优缺点
作者:互联网
随机森林的随机性体现和优缺点
1.随机性主要体现在两个方面:
- 训练每棵树时,从全部训练样本(样本数为N)中选取一个可能有重复的大小同样为N的数据集进行训练(即bootstrap取样)
- 在每个节点,随机选取所有特征的一个子集,用来计算最佳分割方式。
2.优点
-
在当前的很多数据集上,相对其他算法有着很大的优势,表现良好
-
它能够处理很高维度(feature很多)的数据,并且不用做特征选择
PS:特征子集是随机选择的
-
在训练完后,它能够给出哪些feature比较重要
-
在创建随机森林的时候,对generlization error使用的是无偏估计,模型泛化能力强
-
训练速度快,容易做成并行化方法
PS:训练时树与树之间是相互独立的
-
在训练过程中,能够检测到feature间的互相影响
-
实现比较简单
-
对于不平衡的数据集来说,它可以平衡误差。
-
如果有很大一部分的特征遗失,仍可以维持准确度。
3.缺点:
-
随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟
-
对于有不同取值的属性的数据,取值划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的。
标签:随机性,训练,优缺点,feature,随机,数据,森林 来源: https://blog.csdn.net/l491899327/article/details/110161096