首页 > 其他分享> > 李航统计学习方法(第二版)第二章感知机学习笔记

李航统计学习方法(第二版)第二章感知机学习笔记

2019-09-06 11:03:35 作者：互联网

感知机

感知机的定义
感知机的数学表达式
感知机的几何意义
感知机的目标函数

数据集线性可分
目标函数推导

感知机的优化方法

感知机的定义

感知机是二分类线性分类模型，输入为实例的特征，输出为实例类别，实例类别取+1和-1。感知机是属于判别模型，因为其求出分离超平面直接将输入实例划分为正例和负例。

感知机的数学表达式

感知机的数学表达式可以由下列式子进行表达：
$f=sign(w·x+b)$ f=sign(w⋅x+b)，
其中， $sign(x)$ sign(x)是一个记号函数，表示
当 $x>=0, sign(x)=+1$ x>=0,sign(x)=+1；
当 $x<0, sign(x)=-1$ x<0,sign(x)=−1；

感知机的几何意义

几何意义是将几何坐标系上的点通过分离超平面将其划分为两个类别：正例和负例。【对于二维坐标系来说】
如果是多维坐标系，相当于是一个多维面了。比如，二维空间是一条线，三维空间是一个面等等。

感知机的目标函数

数据集线性可分

感知机的目标是：在训练数据集线性可分的假设前提下，求得一个能够将训练集中的正负样本实例点完全正确分开的分离超平面。
看到这，有人说，训练数据集线性可分啥意思啊，听不懂啊，其实就是针对所有正实例 $y=+1$ y=+1， $w·x+b>0$ w⋅x+b>0；
对所有负实例 $y=-1$ y=−1， $w·x+b<0$ w⋅x+b<0；
一张图表示其实就是这个样子的：
在这里插入图片描述
这个数据集就是可分的，中间一条虚线即为超平面，将整个数据集分为虚线右上和左下部分。

目标函数推导

通常意义上来说，损失函数我们可以看误分类点的个数。但是这样来看，误分类点的个数不是参数 $w$ w和 $b$ b的连续可导函数，不易优化。因此，选择另一种形式的损失函数：
误分类点到超平面的总距离。
而平面上一点 $(x_0, y_0)$ (x0,y0)到超平面 $S$ S的距离 $distance_0$ distance0为：
$\frac{1}{||w||}|w·x_0+b|$ ∣∣w∣∣1∣w⋅x0+b∣
其中， $||w||$ ∣∣w∣∣为2范数。
对于误分类点有两种情况：
（1）对于原本 $y_i=-1$ yi=−1的情况误分类成了 $y_i=1$ yi=1，这种情况下 $\frac{1}{w·x_0+b}$ w⋅x0+b1乘积表示真实样本的数值，为负。而 $distance$ distance为正，因此 $|w·x_0+b| = -(w·x_0+b)=-y_i*(w·x_0+b)$ ∣w⋅x0+b∣=−(w⋅x0+b)=−yi∗(w⋅x0+b)。
（2）对于原本 $y_i=1$ yi=1的情况误分类成了 $y_i=-1$ yi=−1，这种情况下 $\frac{1}{w·x_0+b}$ w⋅x0+b1乘积表示真实样本的数值，为正。而 $distance$ distance为正，因此 $|w·x_0+b| = (w·x_0+b)= -y_i*(w·x_0+b)$ ∣w⋅x0+b∣=(w⋅x0+b)=−yi∗(w⋅x0+b)。
因此，从整体误分类上来说，假设误分类点集合为 $M$ M，误分类点超平面总距离为：
$distance = \sum_{(x_i, y_i)\in M}distance_i =\sum_{(x_i, y_i)\in M}[-y_i*(w*x_i+b)*\frac{1}{||w||}]$ distance=∑(xi,yi)∈Mdistancei=∑(xi,yi)∈M[−yi∗(w∗xi+b)∗∣∣w∣∣1]

感知机的优化方法

标签：yi,李航,1y,sign,学习,感知机,超平面,x0
来源： https://blog.csdn.net/woai8339/article/details/100354320

李航统计学习方法(第二版)第二章 感知机学习笔记

感知机