自查自纠 | 线性回归,你真的掌握了嘛?
作者:互联网
线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,是机器学习最基础的算法之一。
学习框架
模型建立
线性回归原理
进入一家房产网,可以看到房价、面积、厅室呈现以下数据:
将价格和面积、厅室数量的关系习得为:
使得, 这就是一个直观的线性回归的样式。
线性回归模型
1. 线性回归的一般形式
有数据集,其中,其中表示变量的数量,表示每个变量的维度。
可以用以下函数来描述y和x之间的关系:
如何来确定的值,使得 尽可能接近的值呢?均方误差是回归中常用的性能度量,即:
我们可以选择,试图让均方误差最小化。
2. 极大似然估计(概率角度阐释)
下面我们用极大似然估计,来解释为什么要用均方误差作为性能度量。可以把目标值和变量写成如下等式: 表示我们未观测到的变量的印象,即随机噪音。我们假定是独立同分布,服从高斯分布。(根据中心极限定理)因此,
我们建立极大似然函数,即描述数据遵从当前样本分布的概率分布函数。由于样本的数据集独立同分布,因此可以写成:选择标签:似然,误差,变量,回归,均方,自查自纠,线性 来源: https://blog.51cto.com/15080014/2619957