回归方法及其拓展
作者:互联网
回归,探讨的是自变量与因变量的关系(因果关系)。
通过回归技术,可知道自变量与因变量存在关系,且知道自变量对因变量的影响强度如何。
常见的有一元线性、多元线性回归方程,但因为存在不满足模型基本假设问题,我们的大神们陆续推出了岭回归、Lasso回归等等。
目录:
- 一.线性回归
- 二.多项式回归
- 三.逐步回归
- 四.岭回归Ridge Regression
- 五.Lasso回归
- 六.ElasticNet回归
- 七.总结:如何选取回归方法?
一.线性回归
自变量类型:连续OR离散型
因变量类型:连续型
keys:
- 独立变量与因变量之间必须存在线性关系
- 线性回归对异常值很敏感,可能会影响最终的回归效果
- 在多元回归中,警惕:多重共线性、自相关、异方差性
- 在自变量很多时,我们可以通过逐步回归法(前进法、后退法、逐步回归法)来选择最重要的自变量
拓:
多重共线性带来的问题:
- 当自变量存在多重共线性时,利用普通最小二乘估计得到的回归参数的估计值表现很不稳定,回归系数的方差随着多重共线性强度的增加而加速增长。
- 会造成回归方程高度显著的情况下,有些回归系数不能通过显著性检验。
- even回归系数的正负得不到合理的经济解释。
二.多项式回归
自变量的幂不再局限于1,有2次、3次等出现,此时建立多项式方程。
图形不再是一条直线,变成了一条曲线。
在应用中,要注意过拟合问题,因为更高次项可能带来拟合优度更高的模型,但是泛华能力不高,实际没用呀。下图形象表示:
三.逐步回归
把所有的变量选入模型中,做回归的话,这叫全模型。而抽出部分自变量来建模,那模型就叫选模型,可谓少而精。此时,可根据自由度调整复决定系数(达到最大)、赤池信息量AIC(达到最小)、Cp统计量(达到最小)等来选择模型。但是,这是在自变量不太多时应用,因为假设有m个自变量时,将要计算(2的m次方)-1个回归方程,然后根据上述的选元准则来挑选出最佳模型。那么,在自变量很多时,该怎么办?
可选用逐步回归法:
- 前进法:每次加入一个自变量(用到F检验)
- 后退法:先建立全模型,然后逐次剔除一个变量(同样用F检验)
- 逐步回归:自变量有进有出,保证了最后是最优回归子集
四.岭回归Ridge Regression
出现原因:多重共线性,即自变量之间存在高度相关,使得即使我们用最小二乘得到回归参数的无偏估计值,but 它们的方差很大,使得观察值远离真实值。
从上面看到,在一般的线性回归方程中,我们的损失函数仅坐了偏差的考虑。但是,一般的线性模型易过拟合,为了防止模型的过拟合,我们在基础的损失函数的基础上,加入L2正则化项,这就变成了Ridge 回归。
Ridge回归通过收缩参数lambda来解决多重共线性问题。
这时候,损失函数由两个组成,一部分是偏差,一部分是方差。通过lambda系数,计算后将被添加到最小二乘项来收缩较低的方差参数。
Ridge回归在不抛弃任何一个特征的情况下,缩小了回归系数(永远不会达到零,没有做特征选择),使得模型相对而言比较的稳定,但和Lasso回归比,这会使得模型的特征留的特别多,模型解释性差。
五.Lasso回归
与Ridge回归出现的原因类似,都是为了防止过拟合。
但是它引入的是L1范数,惩罚回归系数的绝对大小。如果惩罚系数够大,它可能会使回归系数收缩为零,相当于在做特征选择了。
在一批自变量高度相关的情况下,Lasso会选择保留其中一个变量,然后将其他自变量的回归系数缩减为零。
损失函数间下:
六.ElasticNet回归
它是Lasso和Ridge回归技术的混合模型,同时加入了L1和L2的正则项。当自变量之间存在相关关系时,Lasso回归可能随机地选择其中一个,而ElasticNet回归很可能选择两个。它能继承部分Ridge回归的稳定性。它对所选变量的数量没有限制,可能会遭受双倍的收缩率。
七.总结:如何选取回归方法?
- 建模前,先了解数据的自变量与因变量之间的关系、自变量之间是否存在多重共线性
- 为了比较不同模型的拟合程度,我们可以分析不同的指标,如:参数的重要性统计、R方、adjusted R方、AIC、BIC和误差项。还有一个是Cp标准。将全模型与所有的子模型拿来比较,看其中的偏差大小对比
- 交叉验证是评估用来预测的模型的最佳方式。将原始数据划分为训练集和测试集,然后一般用MSE均方误差来比较模型的建模效果
- 如果数据集中存在多个混淆变量(与因变量存在相关关系,但可能只是虚假的、影响建模效果的自变量),那么就不应该选择自动选择自变量的算法,因为建模没用呀
- 那也取决于你的建模目的。你可以需选择建立一个拟合能力不太高的模型,因为这样更易实现。当然也可以逐步优化,达到一个高精度的模型
- 正则化方法(Lasso,Ridge和ElasticNet)在高维度和存在多重共线性的数据集上表现更好
参考:《应用回归分析》 第四版
https://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/
标签:共线性,Ridge,模型,回归,拓展,及其,自变量,Lasso 来源: https://www.cnblogs.com/wyy1480/p/10501938.html