线性判别分析笔记
作者:互联网
LDA 思想为:对给定的训练集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定样本的类别。
对给定的数据集 ,令 分别表示第 类示例的集合、均值向量、协方差矩阵。若将数据投影到直线 上,则两类样本的中心点在直线上的投影分别为 和 ;若所有的样本点投影到直线上,则两类样本的协方差分别为 和 。
对投影结果,应使同类样本的协方差尽可能小,即 尽可能小;同时使异类样本投影尽可能远离,即 尽可能地大。由此得到最大化目标:
定义类内散度矩阵
定义类间散度矩阵
则最大化目标 J 可以重写为
注意到目标函数的分子分母都是关于 的二次项,该式的解与 的长度无关而仅与其方向有关。不失一般性,令 ,则可以得到
解得
将其推广至多分类问题,假定存在 N 个类,且第 类示例数为 ,首先定义全局散度矩阵:
其中 是所有示例的均值向量,将类内散度矩阵 重定义位每个类别的散度矩阵之和,即
可以得到
显然,多分类 LDA 有多种实现方法,使用 三者中的任何两个就可。
常见的一种是采用优化目标:
标签:直线,矩阵,样本,投影,判别分析,笔记,散度,尽可能,线性 来源: https://blog.csdn.net/DaMeng999/article/details/121161863