机器学习02-----线性模型
作者:互联网
一、基本形式
给定d个属性的描述x = {x1;x2;…xd},其中xi是x在第i个属性上的取值,线性模型试图学得一个通过属性的线性组合来进行预测函数,如下:
一般的向量形式:
二、线性回归
线性回归试图学得:
如何确定w和b,关键在于如何衡量f(x)和 y之间的差别。均方误差是回归任务中最常用的性能度量。我们可以试图让均方误差最小化。即如下:
相当于最小化预测值和真实标签之间差的平方。均方误差有非常好的集合意义,他对应常用的欧几里得距离,也就是“欧氏距离”。
- 最小二乘法:基于均方误差最小化来进行模型的求解的方法,在线性回归中,最小二乘法就是试图找到一条直线,使所有的样本到直线上的欧氏距离之和最小。
- 最小二乘“参数估计”:求解w和b使E(w,b)最小化的过程。可分别对w和b求导得到:
求导的推导过程如下:
再令导数为0,得到最优解为:
求解过程推导为:
上述过程也可以使用矩阵的形式进行计算:
- 多元线性回归
我们可以类似的利用最小二乘法来对参数进行估计。为了方便讨论,一下引入向量的形式。数据集D表示为一个矩阵X,行前d个元素对应于示例的d个属性值,最后一个元素置为1,如下:
再将标记也写成向量形式,有:
变换过程如下:
对w参数进行求导可得:
求解过程如下;
令上式为0可得到w的最有闭式解。这里做一个简单的讨论:
当XTX(T为上标,代表矩阵的转置)为满秩矩阵或正定矩阵。导数为0求解可得:
最终学到的多元线性模型为:
然而在现实生活中会遇到大量的变量(XTX往往不是满秩矩阵),其数目甚至超过样例数,导致X的列数多于行数。这样就会求解出多个w最解,他们都可以是均方误差最小化。选择哪一个作输出则有学习算法的归纳偏好决定。最常见的做法就是引入正则项。
我们将线性模型简写为:
- 对数线性回归
假设认为示例所对应的输出标记是在指数尺度上变化的,那就可以将输出标记的对数作为线性模型逼近的目标,即如下:
在形式上仍然是线性回归,但是实质已是在求取输入空间到输出空间的非线性函数映射,这里的对数起到将线性回归模型的预测值于真实标记联系起来的作用。如下图:
- 广义线性模型
更一般的,考虑单调可微函数g(·)如下:
其中函数g(·)称为”联系函数“,显然,对数线性回归是广义线性模型在g(·)= ln(·)时的特解
三、对数几率回归
线性模型进行分类任务,只需要找一个单调可微的函数将分类任务的真是标记y与线性模型的预测值联系起来。考虑而分类问题,预测值为{0,1},预测值为实值,最理想的是“单位阶跃函数”
若预测值大于0就为正例,小于0为反例,等于可以任意判别,如下图:
由上图可知,单位阶跃函数不连续,得需要找个代替函数----对数几率函数
代入可得:
可化为:
- 几率:将y作为正例的可能性,1-y作为反例的可能性两者的比值为几率(反应了x作为正例的可能性)
- 对数几率:对几率取对数
实际上是用线性模型的预测结果去逼近真实标记的对数几率,对应的模型称为“对数几率回归”,他是一种分类算法。他有很多的优点:
- 他直接对分类可能进行建模,无需假设数据分布,这样避免了假设分布不准确所带来的问题
- 它不仅预测除“类别”,而是可得到近似概率预测,这对许多需要利用概率辅助决策的任务很有用
- 对率函数是任意阶可导的凸函数,有很好的数学性质
重新规划记录内容(精简)
一、线性模型
二、线性回归
三、多元线性回归
四、对数线性回归
五、对数几率回归
六、线性判别分析
PS:这些只是自己的记录,就比较的随意,见谅!!!
如有错误,欢迎指正!!!
参考
- 机器学习周志华
标签:02,函数,回归,-----,线性,对数,模型,几率 来源: https://blog.csdn.net/qq_44761250/article/details/115271916