首页 > 其他分享> > 关于PCA不能用于过拟合的思考

关于PCA不能用于过拟合的思考

2022-05-10 09:34:59 作者：互联网

为什么会出现过拟合？

所谓的过拟合，就是模型在训练集上表现优异，但是其泛化能力差，在测试集以及实际环境中表现不好。

之所以出现过拟合，就是在训练模型的时候，掺杂了一些与目标相关性较弱的特征，这些特征扭曲了模型的参数，如果模型过分依赖这些特征，那么在实际环境中，这些无关参数可能导致预测出现极大的偏差。

举一个例子：所谓的“迷信”就是一种过拟合，无关的特征严重影响了动物对于结果的预测，比如“天上有流星坠落，地上就会有坏事发生”，流星坠落这个无关特征被过分强调，导致出现迷信，而事实上，如果你的数据集足够大，你就会发现，天上有没有流星坠落，地上总会有不好的事情发生，迷信的人则故意挑选了有流星坠落的数据集来训练模型。

如何防止过拟合？

既然了解了出现过拟合的原因，那么也就知道了如何解决过拟合。

我们只需要降低这些关联性较弱的特征在模型中的权重，就能有效纠正模型，这也就是所谓的正则化。如果把某一特征的权重降为0，那么其实就是删去了这一特征。所以删除一些特征，也能够改进过拟合。

为什么PCA不能有效处理过拟合

PCA的思想就是在尽可能保留更多特征的同时对特征进行压缩。

PCA的过程中，确实会丢掉一些特征，但是需要注意的是，丢弃的这些特征不一定是与目标值关联性较差的特征。

简而言之，PCA就是为了降维而不得不丢弃某些特征，但正则化则是有意识地丢弃了那些与目标值关联不大的特征。

标签：特征,模型,思考,拟合,PCA,流星,坠落
来源： https://www.cnblogs.com/yangxuanzhi/p/16252147.html