其他分享
首页 > 其他分享> > 回归方法及其拓展

回归方法及其拓展

作者:互联网

回归,探讨的是自变量与因变量的关系(因果关系)。
通过回归技术,可知道自变量与因变量存在关系,且知道自变量对因变量的影响强度如何。
常见的有一元线性、多元线性回归方程,但因为存在不满足模型基本假设问题,我们的大神们陆续推出了岭回归、Lasso回归等等。

目录

一.线性回归

自变量类型:连续OR离散型
因变量类型:连续型
keys:

拓:
多重共线性带来的问题

二.多项式回归

自变量的幂不再局限于1,有2次、3次等出现,此时建立多项式方程。
图形不再是一条直线,变成了一条曲线。

%E5%A4%9A%E6%AC%A1%E9%A1%B9.PNG

在应用中,要注意过拟合问题,因为更高次项可能带来拟合优度更高的模型,但是泛华能力不高,实际没用呀。下图形象表示:

%E8%BF%87%E6%8B%9F%E5%90%88.PNG

三.逐步回归

把所有的变量选入模型中,做回归的话,这叫全模型。而抽出部分自变量来建模,那模型就叫选模型,可谓少而精。此时,可根据自由度调整复决定系数(达到最大)、赤池信息量AIC(达到最小)、Cp统计量(达到最小)等来选择模型。但是,这是在自变量不太多时应用,因为假设有m个自变量时,将要计算(2的m次方)-1个回归方程,然后根据上述的选元准则来挑选出最佳模型。那么,在自变量很多时,该怎么办?
可选用逐步回归法:

四.岭回归Ridge Regression

出现原因:多重共线性,即自变量之间存在高度相关,使得即使我们用最小二乘得到回归参数的无偏估计值,but 它们的方差很大,使得观察值远离真实值。

L2%E7%90%86%E8%AE%BA.PNG

从上面看到,在一般的线性回归方程中,我们的损失函数仅坐了偏差的考虑。但是,一般的线性模型易过拟合,为了防止模型的过拟合,我们在基础的损失函数的基础上,加入L2正则化项,这就变成了Ridge 回归。
Ridge回归通过收缩参数lambda来解决多重共线性问题。

L2.PNG

这时候,损失函数由两个组成,一部分是偏差,一部分是方差。通过lambda系数,计算后将被添加到最小二乘项来收缩较低的方差参数。
Ridge回归在不抛弃任何一个特征的情况下,缩小了回归系数(永远不会达到零,没有做特征选择),使得模型相对而言比较的稳定,但和Lasso回归比,这会使得模型的特征留的特别多,模型解释性差。

五.Lasso回归

与Ridge回归出现的原因类似,都是为了防止过拟合。
但是它引入的是L1范数,惩罚回归系数的绝对大小。如果惩罚系数够大,它可能会使回归系数收缩为零,相当于在做特征选择了。
在一批自变量高度相关的情况下,Lasso会选择保留其中一个变量,然后将其他自变量的回归系数缩减为零。
损失函数间下:

L1.PNG

六.ElasticNet回归

它是Lasso和Ridge回归技术的混合模型,同时加入了L1和L2的正则项。当自变量之间存在相关关系时,Lasso回归可能随机地选择其中一个,而ElasticNet回归很可能选择两个。它能继承部分Ridge回归的稳定性。它对所选变量的数量没有限制,可能会遭受双倍的收缩率。

EM.PNG

七.总结:如何选取回归方法?

参考:《应用回归分析》 第四版
https://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/

标签:共线性,Ridge,模型,回归,拓展,及其,自变量,Lasso
来源: https://www.cnblogs.com/wyy1480/p/10501938.html