李宏毅ml第二课笔记
作者:互联网
第二课 regression:output a scalar
一个例子:
task:预测进化后的宝可梦的cp值,则函数的输入则是宝可梦进化前的各种资讯,输出是进化后的cp值
step1:定义一个function set 即model
定义为 y=b+w∗xcp,即认为进化后的cp值和进化前的cp值有很大的关系,w和b称为parameters,因为w和b可以取任何值,则得到一个function set
这个model可以称为linear model :y=b+∑wixi
其中,一个object里的feature xi:xcp,xhp,xw,xh
wi:weight
b:bias
上标表示第几个object ,下标表示一个object里的某个feature,用hat表示实际的数值y^
step2:Goodness of function
首先搜集一些training data ,通过这些数据告诉机器输入和输出之间的对应关系,通过Loss function 来衡量一个函数的好坏。
step3:best function
首先, argminL(f) means 求使函数L(f)最小时的f,称为f*
下面就是解最优化的问题,解这个最优化的问题可以利用线性代数里面的内容,但是只适用于linear regression,而梯度下降可以适用于不同的task,不同的model.
一个参数时求解最优解
利用梯度下降如上图从左边开始找就停在了Wt的位置,即有可能只找到了local minima,其中η是学习速度。
二个参数时求解最优解
把梯度向量引进来,前面加负号和η,其方向指向的是等高线的法线方向,即梯度方向的反方向指向的是函数下降最快的方向
梯度下降的问题
用θ表示参数的集合
第一个问题是global minima和local minima
第二个是鞍点问题 鞍点处偏微分都为0
第三个 处于一些很平的地方 离local minima或者saddle point 很远,但其微分近似为0,导致优化速度很慢
linear regression的loss function 函数形状类似于碗,凸函数,不需要考虑鞍点和局部最小,但是其它model需要考虑。
过拟合
mode越复杂 在train data上的误差越小,但是在test data并不一定能表现的更好。
解决过拟合的问题
1.收集更多的data,找到更多的hidden factor.
以下是添加种类这种factor
上述依旧是一个线性模型,换成下面的
还可以再加上其它feature
2.regularization正则化
更改Loss function,就是考虑平滑
在多数情况正确的函数都是平滑的,这样就会防止找到很抖的函数
为什么不给bias不加regularization,因为bias对函数平滑是没有影响的
不是越平滑就越好
标签:function,minima,第二课,李宏毅,ml,model,cp,data,函数 来源: https://blog.csdn.net/zhulinzhulinlin/article/details/100827392