首页 > 其他分享> > 岭回归和lasso回归

岭回归和lasso回归

2021-02-24 18:02:13 作者：互联网

回归的进一步扩展

1.引入
2.lasso回归的使用

1.引入

在多元线性回归模型中估计回归系数使用的是OLS，但同时还也有异方差和多重共线性的影响。回归中关于自变量的选择大有门道，变量过多时可能会导致多重共线性问题造成回归系数的不显著，甚至造成OLS估计的失效。

岭回归和lasso回归在OLS回归模型的损失函数上加上了不同的惩罚项，该惩罚项由回归系数的函数构成，一方面，加入的惩罚项能够识别出模型中不重要的变量，对模型起到简化作用，可以看作逐步回归法的升级版；另一方面，加入的惩罚项能够让模型变得可估计，即使之前的数据不满足列满秩。

2.lasso回归的使用

我们首先使用最一般的OLS对数据进行回归，然后计算方差膨胀因VIF，如果VIF>10则说明存在多重共线性的问题，此时我们需要对变量进行筛选。可以使用逐步回归法来筛选自变量，让回归中仅留下显著的自变量来抵消多重共线性的影响，在此处，可以把lasso回归视为逐步回归法的进阶版，我们可以使用lasso回归来帮我们筛选出不重要的变量，步骤如下：
（1）判断自变量的量纲是否一样，如果不一样则首先进行标准化的预处理；
（2）对变量使用lasso回归，记录下lasso回归结果表中回归系数不为0的变量，这些变量就是最终我们要留下来的重要变量，其余未出现在表中的变量可视为引起多重共线性的不重要变量。

在得到了重要变量后，我们实际上就完成了变量筛选，此时我们只将这些重要变量视为自变量，然后进行回归，并分析回归结果即可。（注意：此时的变量可以是标准化前的，也可以是标准化后的，因为lasso只起到变量筛选的目的）

标签：共线性,变量,回归,回归系数,自变量,lasso
来源： https://blog.csdn.net/qq_45494369/article/details/112789374