首页 > 其他分享> > 随机森林的随机性体现和优缺点

随机森林的随机性体现和优缺点

2020-11-26 09:31:58 作者：互联网

随机森林的随机性体现和优缺点

1.随机性主要体现在两个方面：

训练每棵树时，从全部训练样本（样本数为N）中选取一个可能有重复的大小同样为N的数据集进行训练（即bootstrap取样）
在每个节点，随机选取所有特征的一个子集，用来计算最佳分割方式。

2.优点

在当前的很多数据集上，相对其他算法有着很大的优势，表现良好
它能够处理很高维度（feature很多）的数据，并且不用做特征选择
```
  PS：特征子集是随机选择的
```
在训练完后，它能够给出哪些feature比较重要
在创建随机森林的时候，对generlization error使用的是无偏估计，模型泛化能力强

训练速度快，容易做成并行化方法

 PS：训练时树与树之间是相互独立的

在训练过程中，能够检测到feature间的互相影响
实现比较简单
对于不平衡的数据集来说，它可以平衡误差。
如果有很大一部分的特征遗失，仍可以维持准确度。

3.缺点：

随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟
对于有不同取值的属性的数据，取值划分较多的属性会对随机森林产生更大的影响，所以随机森林在这种数据上产出的属性权值是不可信的。

标签：随机性,训练,优缺点,feature,随机,数据,森林
来源： https://blog.csdn.net/l491899327/article/details/110161096