首页 > 其他分享> > 机器学习（一）：PLA&POCKET

机器学习（一）：PLA&POCKET

2021-11-17 23:33:21 作者：互联网

实际上就是线性分类的感知机算法PLA和针对非线性的适用算法POCKET
y（标签）={-1（bad）,1（good）}
h ( x ) = s i g n ( ( ∑ i = 1 d w i x i ) − t h r e s h o l d ( 阈值 ) ) = s i g n ( w T x ) h(x)=sign((\sum^d_{i=1}w_ix_i)-threshold(阈值))=sign(w^Tx) h(x)=sign((∑i=1dwixi)−threshold(阈值))=sign(wTx)
w T 是超平面的法向量，为 { w 1 , w 2 , . . . , w n , d } 其中 d 为偏执量， w 的维度与 x 样本的维度一致。同理，样本 x = { x 1 , x 2 , . . . , x n , 1 } w^T是超平面的法向量，为\{w_1,w_2,...,w_n,d\}其中d为偏执量，w的维度与x样本的维度一致。同理，样本x=\{x_1,x_2,...,x_n,1\} wT是超平面的法向量，为{w1,w2,...,wn,d}其中d为偏执量，w的维度与x样本的维度一致。同理，样本x={x1,x2,...,xn,1}。会多一个维度
PLA的主要任务：找到一个w，使样本点可以正确二分类，即要求：
已知理想直线 W f W_f Wf，求证 w t + 1 w_{t+1} wt+1比 w t w_t wt更接近 w f w_f wf
w t + 1 = w t + y n ( t ) x n ( t ) ， ( x n ( t ) , y n ( t ) ) 是一个错分点更接近代表着向量的内积增大即求证 w f T w t + 1 ≥ w f T w t 代入有 w f T w t + 1 = w f T ( w f + y n ( t ) x n ( t ) ) = w f T w t + y n ( t ) w f T x n ( t ) 因为 w f 是理想直线，，在线性可分的时候全部分类正确即 y n ( t ) 与 w f T x n ( t ) 同符号即 y n ( t ) w f T x n ( t ) ≥ 0 故 w f T w t + 1 ≥ w f T w t + min ⁡ n y n ( t ) w f T x n ( t ) — — 1 式其中虽然已知内积增大，但可能是夹角减小（即我们想要的靠近）或者是模增加现在考虑模长的改变，即 ∣ ∣ w t + 1 ∣ ∣ 与 ∣ ∣ w t ∣ ∣ 的关系 ∣ ∣ w t + 1 ∣ ∣ 2 = ∣ ∣ w t + y n ( t ) x n ( t ) ∣ ∣ 2 = ∣ ∣ w t ∣ ∣ 2 + 2 y n ( t ) w t T x n ( t ) + ∣ ∣ y n ( t ) x n ( t ) ∣ ∣ 2 因为对 w t 而言， ( x n ( t ) , y n ( t ) ) 是错分点故 2 y n ( t ) w t T x n ( t ) ≥ 0 可有 ∣ ∣ w t + 1 ∣ ∣ 2 ≤ ∣ ∣ w t ∣ ∣ 2 + ∣ ∣ y n ( t ) x n ( t ) ∣ ∣ 2 对第二项取极值可有 ∣ ∣ w t + 1 ∣ ∣ 2 ≤ ∣ ∣ w t ∣ ∣ 2 + max ⁡ n ∣ ∣ y n ( t ) x n ( t ) ∣ ∣ 2 — — 2 式 max ⁡ n ∣ ∣ y n ( t ) x n ( t ) ∣ ∣ 2 表示变化上界现在可以考虑夹角 θ 的 cos ⁡ 值 cos ⁡ θ = w f T w t ∣ ∣ w f ∣ ∣ ∣ ∣ w t ∣ ∣ 所以需要考虑 cos ⁡ θ 的上界或下界对 1 式求错位：初始化 w 0 = 0 w f T w 1 ≥ w f T w 0 + min ⁡ n y n w f T x n w f T w 2 ≥ w f T w 1 + min ⁡ n y n w f T x n . . . w f T w t ≥ w f T w t − 1 + min ⁡ n y n w f T x n 错位后是： w f T w t ≥ w f T w 0 + t min ⁡ n y n w f T x n 即 w f T w t ≥ t min ⁡ n y n w f T x n 同理，对 2 式求错位：初始化 w 0 = 0 ∣ ∣ w 1 ∣ ∣ 2 ≤ ∣ ∣ w 0 ∣ ∣ 2 + max ⁡ n ∣ ∣ y n x n ∣ ∣ 2 ∣ ∣ w 2 ∣ ∣ 2 ≤ ∣ ∣ w 1 ∣ ∣ 2 + max ⁡ n ∣ ∣ y n x n ∣ ∣ 2 . . . ∣ ∣ w t ∣ ∣ 2 ≤ ∣ ∣ w t − 1 ∣ ∣ 2 + max ⁡ n ∣ ∣ y n x n ∣ ∣ 2 错位后是： ∣ ∣ w t ∣ ∣ 2 ≤ ∣ ∣ w 0 ∣ ∣ 2 + t max ⁡ n ∣ ∣ y n x n ∣ ∣ 2 即 ∣ ∣ w t ∣ ∣ 2 ≤ t max ⁡ n ∣ ∣ y n x n ∣ ∣ 2 故可有 cos ⁡ θ ： cos ⁡ θ = w f T w t ∣ ∣ w f ∣ ∣ ∣ ∣ w t ∣ ∣ ≥ t min ⁡ n y n w f T x n ∣ ∣ w f ∣ ∣ max ⁡ n ∣ ∣ y n x n ∣ ∣ 2 因为 y n ∈ { − 1 , 1 } 故可转化为 cos ⁡ θ ≥ t min ⁡ n y n w f T x n ∣ ∣ w f ∣ ∣ max ⁡ n ∣ ∣ x n ∣ ∣ 其中， max ⁡ n ∣ ∣ x n ∣ ∣ 表示距离圆点最远的点的距离 R 而 min ⁡ n y n w f T x n ∣ ∣ w f ∣ ∣ 表示离理想直线最近的点 ( x n , y n ) 到直线的距离 ρ 故 cos ⁡ θ ≥ t ρ R 很明显，随着迭代次数 t 的增加， cos ⁡ θ 的下界逐渐增加，表示 cos ⁡ θ 越来越大但是，由于 cos ⁡ θ 本身具有上界 1 ，这个时候表示 w t 与 w f 完全重合 w_{t+1}=w_t+y_n(t)x_n(t)，(x_n(t),y_n(t))是一个错分点\\ 更接近代表着向量的内积增大\\ 即求证w_f^Tw_{t+1}\ge w_f^Tw_t\\ 代入有w_f^Tw_{t+1}=w_f^T(w_f+y_n(t)x_n(t))\\ =w_f^Tw_t+y_n(t)w_f^Tx_n(t)\\ 因为w_f是理想直线，，在线性可分的时候全部分类正确\\ 即y_n(t)与w_f^Tx_n(t)同符号\\ 即y_n(t)w_f^Tx_n(t)\ge 0\\ 故w_f^Tw_{t+1}\ge w_f^Tw_t+\min_ny_n(t)w_f^Tx_n(t)——1式\\ 其中虽然已知内积增大，但可能是夹角减小（即我们想要的靠近）或者是模增加\\ 现在考虑模长的改变，即||w_{t+1}||与||w_t||的关系\\ ||w_{t+1}||^2=||w_t+y_n(t)x_n(t)||^2\\ =||w_t||^2+2y_n(t)w_t^Tx_n(t)+||y_n(t)x_n(t)||^2\\ 因为对w_t而言，(x_n(t),y_n(t))是错分点\\ 故2y_n(t)w_t^Tx_n(t)\ge 0\\ 可有\\ ||w_{t+1}||^2\le ||w_t||^2+||y_n(t)x_n(t)||^2\\ 对第二项取极值可有\\ ||w_{t+1}||^2\le ||w_t||^2+\max_n ||y_n(t)x_n(t)||^2——2式\\ \max_n ||y_n(t)x_n(t)||^2表示变化上界\\ 现在可以考虑夹角\theta的\cos值\\ \cos\theta=\frac{w_f^Tw_t}{||w_f||||w_t||}\\ 所以需要考虑\cos\theta的上界或下界\\ 对1式求错位：初始化w_0=0\\ w_f^Tw_1\ge w_f^Tw_0+\min_ny_nw_f^Tx_n\\ w_f^Tw_2\ge w_f^Tw_1+\min_ny_nw_f^Tx_n\\ ...\\ w_f^Tw_t\ge w_f^Tw_{t-1}+\min_ny_nw_f^Tx_n\\ 错位后是：\\ w_f^Tw_t\ge w_f^Tw_0+t\min_ny_nw_f^Tx_n\\ 即 w_f^Tw_t\ge t\min_ny_nw_f^Tx_n\\ 同理，对2式求错位：初始化w_0=0\\ ||w_1||^2\le||w_0||^2+\max_n||y_nx_n||^2\\ ||w_2||^2\le||w_1||^2+\max_n||y_nx_n||^2\\ ...\\ ||w_t||^2\le||w_{t-1}||^2+\max_n||y_nx_n||^2\\ 错位后是：\\ ||w_t||^2\le||w_0||^2+t\max_n||y_nx_n||^2\\ 即||w_t||^2\le t\max_n||y_nx_n||^2\\ 故可有\cos\theta：\\ \cos\theta=\frac{w_f^Tw_t}{||w_f||||w_t||}\\ \ge \frac{\sqrt t\min_ny_nw_f^Tx_n}{||w_f||\sqrt{\max_n||y_nx_n||^2}}\\ 因为y_n\in\{-1,1\}\\ 故可转化为 \cos\theta\ge \frac{\sqrt t\min_ny_nw_f^Tx_n}{||w_f||\max_n||x_n||}\\ 其中，\max_n||x_n||表示距离圆点最远的点的距离R\\ 而 \frac{\min_ny_nw_f^Tx_n}{||w_f||}表示离理想直线最近的点(x_n,y_n)到直线的距离\rho\\ 故\cos \theta\ge \sqrt{t}\frac{\rho}{R}\\ 很明显，随着迭代次数t的增加，\cos\theta的下界逐渐增加，表示\cos\theta越来越大\\ 但是，由于\cos\theta本身具有上界1，这个时候表示w_t与w_f完全重合 wt+1=wt+yn(t)xn(t)，(xn(t),yn(t))是一个错分点更接近代表着向量的内积增大即求证wfTwt+1≥wfTwt代入有wfTwt+1=wfT(wf+yn(t)xn(t))=wfTwt+yn(t)wfTxn(t)因为wf是理想直线，，在线性可分的时候全部分类正确即yn(t)与wfTxn(t)同符号即yn(t)wfTxn(t)≥0故wfTwt+1≥wfTwt+nminyn(t)wfTxn(t)——1式其中虽然已知内积增大，但可能是夹角减小（即我们想要的靠近）或者是模增加现在考虑模长的改变，即∣∣wt+1∣∣与∣∣wt∣∣的关系∣∣wt+1∣∣2=∣∣wt+yn(t)xn(t)∣∣2=∣∣wt∣∣2+2yn(t)wtTxn(t)+∣∣yn(t)xn(t)∣∣2因为对wt而言，(xn(t),yn(t))是错分点故2yn(t)wtTxn(t)≥0可有∣∣wt+1∣∣2≤∣∣wt∣∣2+∣∣yn(t)xn(t)∣∣2对第二项取极值可有∣∣wt+1∣∣2≤∣∣wt∣∣2+nmax∣∣yn(t)xn(t)∣∣2——2式nmax∣∣yn(t)xn(t)∣∣2表示变化上界现在可以考虑夹角θ的cos值cosθ=∣∣wf∣∣∣∣wt∣∣wfTwt所以需要考虑cosθ的上界或下界对1式求错位：初始化w0=0wfTw1≥wfTw0+nminynwfTxnwfTw2≥wfTw1+nminynwfTxn...wfTwt≥wfTwt−1+nminynwfTxn错位后是：wfTwt≥wfTw0+tnminynwfTxn即wfTwt≥tnminynwfTxn同理，对2式求错位：初始化w0=0∣∣w1∣∣2≤∣∣w0∣∣2+nmax∣∣ynxn∣∣2∣∣w2∣∣2≤∣∣w1∣∣2+nmax∣∣ynxn∣∣2...∣∣wt∣∣2≤∣∣wt−1∣∣2+nmax∣∣ynxn∣∣2错位后是：∣∣wt∣∣2≤∣∣w0∣∣2+tnmax∣∣ynxn∣∣2即∣∣wt∣∣2≤tnmax∣∣ynxn∣∣2故可有cosθ：cosθ=∣∣wf∣∣∣∣wt∣∣wfTwt≥∣∣wf∣∣maxn∣∣ynxn∣∣2 t minnynwfTxn因为yn∈{−1,1}故可转化为cosθ≥∣∣wf∣∣maxn∣∣xn∣∣t minnynwfTxn其中，nmax∣∣xn∣∣表示距离圆点最远的点的距离R而∣∣wf∣∣minnynwfTxn表示离理想直线最近的点(xn,yn)到直线的距离ρ故cosθ≥t Rρ很明显，随着迭代次数t的增加，cosθ的下界逐渐增加，表示cosθ越来越大但是，由于cosθ本身具有上界1，这个时候表示wt与wf完全重合
根据这个就可以得到PLA算法的迭代上界，即我们的Radios-Margin Bound定理
t ρ R ≤ 1 即 t ≤ ( R ρ ) 2 \sqrt t\frac{\rho}{R}\le1\\ 即t\le(\frac{R}{\rho})^2 t Rρ≤1即t≤(ρR)2
代码就不展示了，CSDN里有很多大佬。
至于POCKET算法，则是面对非线性分类的时候，当且仅当 w t + 1 w_{t+1} wt+1分类的错误项比 w t w_t wt分类的错误项少的时候，才会用 w t + 1 w_{t+1} wt+1来代替 w t w_t wt，然后人为设定一个最大迭代阈值即可。

标签：cos,xn,yn,max,POCKET,wt,PLA,机器,wfT
来源： https://blog.csdn.net/qq_40851744/article/details/121389787