lecture 6 : SVM Intro
作者:互联网
在构建线性分类器的时候,我们希望找一个决策边界将 positive examples 和 negative examples 较好地分开。对于一个 example, 我们希望分类的时候尽可能 correct (归到正确的一边) and confident (离决策边界尽可能远)。这就是 baby SVM 的 motivation。
在 SVM 中我们不延续之前的习惯,用 +1 和 -1 来表示正负例标签, 最后不输出概率, 而是输出 \(sign(w^Tx + b)\)
用 \(b\) 表示线性函数中的截距,\(w\) 表示其他参数,我们希望的是, 当 \(y= 1\) (positive),\(w^Tx + b >> 0\), 当 \(y = -1\), (negative examples), \(w^Tx + b << 0\) , 综上,我们可以定义一个衡量这种correct and confident 的标准,functional margin:
\[\hat\gamma^{(i)} = y^{(i)}(w^Tx^{(i)} + b) \]而对于真个数据集的 functional margin:
\[\hat\gamma = min_{i = 1,...,m} \quad \hat\gamma^{(i)} \]然而 functional margin 的一个问题是,当我们同时缩放 \(w, b\), 实际上的决策边界是没有改变的,但是 functional margin 却改变了。
另一个角度是从几何意义来考虑一次预测的好坏,一个分类正确的样本,它离决策边界越远,一般可以认为这次预测较为 correct and confident, 基于此,我们定义 geometric margin \(\gamma\)
\[\gamma^{(i)} = \frac{y^{(i)}(w^Tx^{(i)} + b) }{||w||} \]同样地,对于整个数据集,
\[\gamma = min_{i = 1,...,m}\quad \gamma^{(i)} \]geometric margin 解决了 functional margin 关于同时缩放 \(w, b\) 带来的问题。
因此 SVM 求解的目标就是:
\[max_{w,b}\quad \gamma \]\[s.t. \gamma^{(i)} \ge \gamma \]然而这并不是一个凸优化问题,我们将问题改写
\[max_{w,b} \quad \frac{\hat\gamma}{||w||}\\ s.t.\hat\gamma^{(i)}\ge \hat\gamma \]由于 functional margin 的取值可通过 rescaling 来调整,并不影响问题的求解,因此可以让 \(\hat\gamma = 1\), 进一步问题可以化为在约束下最小化 \(\frac{1}{||w||}\), 这等价于:
\[\min_{w,b} \frac{1}{2}||w||^2\\ s.t. \hat\gamma^{(i)}\ge \hat\gamma \]这是一个凸优化问题。
标签:SVM,Tx,hat,functional,Intro,lecture,margin,gamma 来源: https://www.cnblogs.com/Softwarer1412/p/16029691.html