首页 > 其他分享> > day8 AI面试刷题

day8 AI面试刷题

2022-01-20 20:34:36 作者：互联网

1. 随机森林和GBDT的区别？

参考答案：

参考答案：
对于随机特征个数这个超参数，没有理论上的最优解，最好的办法是通过超参数搜索与交叉验证的方式来找到最优解。在调节超参数的过程中，需要注意以下几点：

较少的特征数量可以减少方差，但是会增大单颗数的偏差。
同理增大特征数量，会减少单个模型的偏差，但是会导致方差变大。
最优的特征数量同时还取决于特征所蕴含的信息量以及特征数据的质量。如果特征数据是干净且高质量的，那么最优的随机特征个数可以相对较少，而如果特征数据里面包括的噪声比较多，那么就需要增加随机特征的数量以提高学习到高质量特征的概率。
增加特征随机特征的数量同样意味着会降低模型的训练速度。

注：这个超参数是训练随机森林模型师需要调节的最重要的参数。

参考答案：

参考答案：
可以从几个方面对GBDT算法和随机森林算法进行比较，来决定哪个算法解决遇到的实际问题。
模型调优：

过拟合：
相较于GBDT，随机森林算法不容易过拟合。因为在随机森林算法中，基模型相对独立，而在GBDT算法中，模型之前互相依赖程度高，因此方差较大，较容易过拟合。

模型复杂程度：

随机森林算法通常训练几个较深的树模型就可以使得算法性能达到最优。较深的单棵树模型是为了减少模型的偏差，同时根据Bagging的理论得出当基模型之间相互独立的情况下，少数几个基模型的集成就可以使得总体方差迅速降低。
对于GBDT算法来讲，为了实现性能最优，通常需要训练很多深度较浅的决策树。相对较浅的决策树是为了保证方差较小，而为了降低偏差则需要大量的决策树组合，从而逐步接近最优解。

预测性能：
在多数情况下，经过充分调优的GBDT性能表现要好于随机森林。

综上所述，在时间和计算资源较充裕的情况下，经过充分调优的GBDT算法往往可以带来比随机森林更好的预测性能表现。而随机森林因为其模型较简单，调优过程容易等特点，在很多场景下，也是不错的备选方案。

AdaBoost(Adaptive Boosting)是集成提升算法的一种，它将多个弱分类器组合起来，从而得到一个预测准确率更好的强分类器。
算法的具体步骤如下：

标签：day8,AI,模型,分类器,算法,GBDT,随机,森林,刷题
来源： https://blog.csdn.net/weixin_44225602/article/details/122564066