其他分享
首页 > 其他分享> > 线性回归二三事

线性回归二三事

作者:互联网

目录

一、线性回归定义

二、概率角度看线性回归

三、线性回归正则化

四、贝叶斯角度看正则化

五、线性回归扩展


一、线性回归定义

 目标:给定一个数据集(具有样本和标签的有监督数据集),拟合出一条最符合给定数据的直线(本质就是拟合出一条最符合所有样本与其标签的函数,当然这里的直线是广义直线,数据样本一般都不是一维的)。

如上图,目标就是拟合出f(w),即目标就是根据一个采样得到的数据集来估计出参数向量w的值。

参数估计方法:

最小二乘法,即参数估计中的最小二乘估计。

一种直观的解释是把每个样本点处的误差累加起来,最后使总误差最小。

二、概率角度看线性回归

最大似然估计:

点估计是频率派的做法,下面的最大似然估计就是最大似然点估计,从频率派的角度,参数w是一个未知但确定的值。所以式子里的分号代表以什么为参数,而不是条件概率。

似然是某个数据集的似然,顾名思义,似然,就是可能性,用最大似然估计的时候需要先已知(或假设出来)样本服从的概率分布,即需要已知概率密度函数,然后基于采样的iid假设,则我们采样得到整个样本集的可能性就是把每个样本代入概率密度函数,然后连乘。由于连乘之后求导求极值不方便,因此用对数函数将连乘变成连加。

 结论:

        当我们假设噪声分布(观测值与真实值的差的分布)是正态分布的时候,线性回归中参数向量的最小二乘估计就等价于最大似然估计。

三、线性回归正则化

正则化:

        就是在原损失函数上加一个关于参数的函数作为惩罚项,目的是解决过拟合。有时候甚至能使得解向量更稀疏。

        线性回归问题中一般有两种正则化方法,L1正则化和L2正则化。带有L1正则化的线性回归也被称为lasso,带有L2正则化的线性回归称为岭回归。

                                  

 lasso使得解向量稀疏,而岭回归使得模型一定有解析解。

 可以看到,如果样本数目小于维数的话,很有可能X^TX是不可逆的,但如果用了L2正则化,X^TX加上入I之后肯定是正定的,即可逆的,线性回归的解析解就一定存在了。

四、贝叶斯角度看正则化

         岭回归是最小化带有L2正则化的L2距离损失函数,它就等价于噪声服从高斯分布时候的最大后验。

噪声服从高斯分布:

        1:最小二乘估计等价于最大似然估计

        2:带有L2正则化的最小二乘估计等价于最大后验估计

        注意:所谓似然,这里其实是样本集的似然,也就是一个把样本集中的所有样本都代入这个样本集中样本服从的分布的密度函数,似然基于条件分布,这里的条件就是参数w(在贝叶斯角度w也是一个随机变量,所以可以作为条件,频率派角度就不行)。因为假设样本是独立同分布的,所以可以把所有样本代入密度函数再连乘,然后加入log函数不改变关于w的函数的单调性,把连乘变成连加。最大后验估计就是在样本x服从的条件分布(条件就是参数w)的密度函数的基础上,再乘以一个条件也就是参数w服从的先验分布。构成后验表达式。因为我们做最小二成估计也好,最大似然估计也好,最大后验估计也好,最终目的都是估计参数w的值,所以我们提前假设一个参数w的分布,当然可以看作是w的先验,因为在我们解出来w的值之前,就已经知道关于w的信息了,所以我们用L2正则化的时候,对w进行约束,也相当于是w的一个先验。

        L1正则化相比于L2更容易获得稀疏解,使得w有更少的非零分量,从而间接完成了降维,因为w中的0对应的那些特征都不会用上,相当于对特征进行降维了。

五、线性回归扩展

对数线性回归:

        如果样本的输出是在指数尺度上变化的,就可以用对数线性回归。

        lny = w^Tx + b,即 y = exp{w^Tx + b}

        为什么叫对数线性回归?因为输出的对数lny与输入x之间是线性关系,但y本身是在x的指数尺度上变化的。这样的模型也叫广义线性模型。

        上边exp{}指数函数也叫激活函数,即对原先关于x的线性输出做一次非线性变换,而从线性回归的角度来说,ln函数被称为link function,虽然它们两个是同一个东西,只不过放在等号的左边或者右边,但是从不同的角度有不同的叫法。

对数几率回归:

        在对数线性回归中,如果用sigmoid函数(也叫对数几率函数)作为激活函数,此时对数线性回归称作对数几率回归。其实所有s形函数都叫sigmoid函数对数几率函数只是最具代表性的一种)

        y = 1/{1+exp{-(w^Tx +b)}}

        即把w^Tx +b代入到sigmoid函数的变量z中。

        此时sigmoid函数把输出值变换到【0,1】区间,并且输出值在0.5附近变换很陡。

        把对数几率回归变换成link函数表示的形式,我们就能看到其名字的由来:

        ln(y / (1 - y)) = w^Tx + b

        因为y的值域是【0,1】,可以把y看成样本x是正例的可能性,1 - y 则是样本是反例的可能性。正例可能性与反例可能性的笔试 y / (1 - y) 被称为几率 odds,反应了样本x是正例的相对可能性,再取对数ln,则称为对数几率。因为对数几率回归要回归的东西就是对数几率。

特点:

1:直接对分类可能性进行建模,无需实现假设数据分布,避免了假设分布不准确带来的问题。 2:不仅能预测类别,而是得到近似概率预测

3:对率函数是任意阶可导的凸函数,数学性质好。

标签:似然,函数,回归,样本,二三,正则,线性
来源: https://blog.csdn.net/chk_plusplus/article/details/118999528