首页 > 其他分享> > 李宏毅ml第二课笔记

李宏毅ml第二课笔记

2019-09-14 20:02:13 作者：互联网

第二课 regression：output a scalar

一个例子:
task:预测进化后的宝可梦的cp值,则函数的输入则是宝可梦进化前的各种资讯，输出是进化后的cp值
在这里插入图片描述

step1:定义一个function set 即model

定义为 $y=b+w*x_{cp}$ y=b+w∗xcp,即认为进化后的cp值和进化前的cp值有很大的关系，w和b称为parameters，因为w和b可以取任何值，则得到一个function set
这个model可以称为linear model : $y=b+\sum w_{i}x_{i}$ y=b+∑wixi
其中，一个object里的feature $x_{i}$ xi: $x_{cp},x_{hp},x_{w},x_{h}$ xcp,xhp,xw,xh
wi:weight
b:bias
上标表示第几个object ,下标表示一个object里的某个feature,用hat表示实际的数值 $\hat{y}$ y^

step2：Goodness of function

首先搜集一些training data ,通过这些数据告诉机器输入和输出之间的对应关系,通过Loss function 来衡量一个函数的好坏。
在这里插入图片描述

step3:best function

首先, argminL(f) means 求使函数L(f)最小时的f,称为f*
在这里插入图片描述
下面就是解最优化的问题，解这个最优化的问题可以利用线性代数里面的内容，但是只适用于linear regression，而梯度下降可以适用于不同的task,不同的model.

一个参数时求解最优解

在这里插入图片描述
利用梯度下降如上图从左边开始找就停在了Wt的位置，即有可能只找到了local minima,其中η是学习速度。

二个参数时求解最优解

在这里插入图片描述

把梯度向量引进来，前面加负号和η，其方向指向的是等高线的法线方向，即梯度方向的反方向指向的是函数下降最快的方向

梯度下降的问题

用θ表示参数的集合
在这里插入图片描述
第一个问题是global minima和local minima
第二个是鞍点问题鞍点处偏微分都为0
第三个处于一些很平的地方离local minima或者saddle point 很远，但其微分近似为0，导致优化速度很慢

linear regression的loss function 函数形状类似于碗，凸函数，不需要考虑鞍点和局部最小，但是其它model需要考虑。

过拟合

mode越复杂在train data上的误差越小，但是在test data并不一定能表现的更好。
在这里插入图片描述

解决过拟合的问题

1.收集更多的data,找到更多的hidden factor.
以下是添加种类这种factor
在这里插入图片描述
上述依旧是一个线性模型，换成下面的

还可以再加上其它feature
2.regularization正则化
更改Loss function，就是考虑平滑

在多数情况正确的函数都是平滑的，这样就会防止找到很抖的函数
为什么不给bias不加regularization，因为bias对函数平滑是没有影响的
在这里插入图片描述
不是越平滑就越好

标签：function,minima,第二课,李宏毅,ml,model,cp,data,函数
来源： https://blog.csdn.net/zhulinzhulinlin/article/details/100827392