其他分享
首页 > 其他分享> > 线性判别分析笔记

线性判别分析笔记

作者:互联网

        LDA 思想为:对给定的训练集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定样本的类别。

        对给定的数据集 D=\left \{ (X_i,y_i) \right \}_{i=1}^m,\,y_i\in \left \{ 0,1 \right \} ,令 X_i,\mu_i,\Sigma _i 分别表示第 i\in\left \{ 0,1 \right \} 类示例的集合、均值向量、协方差矩阵。若将数据投影到直线 w 上,则两类样本的中心点在直线上的投影分别为 w^T\mu_0 和 w^T\mu_1;若所有的样本点投影到直线上,则两类样本的协方差分别为 w^T\Sigma _0w 和 w^T\Sigma _1w 。

        对投影结果,应使同类样本的协方差尽可能小,即 w^T\Sigma _0w+w^T\Sigma _1w 尽可能小;同时使异类样本投影尽可能远离,即  尽可能地大。由此得到最大化目标:

J=\frac{\left \| w^T\mu_0 -w^T\mu_1\right \|_2^2 }{w^T\Sigma _0w+w^T\Sigma _1w}=\frac{w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T(\Sigma _0+\Sigma _1)w}

         定义类内散度矩阵

S_w=\Sigma _0+\Sigma _1=\sum_{X\in X_0}(x-\mu_0)(x-\mu_0)^T+\sum_{X\in X_1}(x-\mu_1)(x-\mu_1)^T

        定义类间散度矩阵

S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T

        则最大化目标 J 可以重写为

J=\frac{w^TS_bw}{w^TS_ww}

        注意到目标函数的分子分母都是关于 w 的二次项,该式的解与 w 的长度无关而仅与其方向有关。不失一般性,令 w^TS_ww=1 ,则可以得到

\left\{\begin{matrix} \underset{w}{min} & -w^TS_bw\\ s.t. &w^TS_ww=1 \end{matrix}\right.

解得

w=S_w^{-1}(\mu_0-\mu_1)

        将其推广至多分类问题,假定存在 N 个类,且第 i 类示例数为 m_i ,首先定义全局散度矩阵:

S_t=S_b+S_w=\sum_{i=1}^m(X_i-\mu)(X_i-\mu)^T

        其中 \mu 是所有示例的均值向量,将类内散度矩阵 S_w 重定义位每个类别的散度矩阵之和,即

S_w=\sum_{i=1}^NS_{w_i}

可以得到

 S_b=S_t-S_w=\sum_{i=1}^Nm_i(\mu_i-\mu)(\mu_i-\mu)^T

显然,多分类 LDA 有多种实现方法,使用 S_b,S_w,S_t 三者中的任何两个就可。

        常见的一种是采用优化目标:

\underset{W}{max}\frac{tr(W^TS_bW)}{tr(W^TS_wW)}

标签:直线,矩阵,样本,投影,判别分析,笔记,散度,尽可能,线性
来源: https://blog.csdn.net/DaMeng999/article/details/121161863