【ML】Gaussian Discriminant Analysis
作者:互联网
文章目录
模型假设.
- 在【判别模型与生成模型】中已经介绍了生成模型的基本思路,这是一类针对条件概率分布 P ( x ∣ y ) P(x|y) P(x∣y) 进行建模的方法。
- 本篇介绍的是高斯判别分析模型GDA,它是一种生成模型,引入了每一类数据都服从或者近似服从高斯分布的假设,形式化的表述如下: y ~ B e r n o u l l i ( ϕ ) ( x ∣ y = k ) ~ N ( μ k , Σ ) k ∈ { 0 , 1 } y~Bernoulli(\phi)\\(x|y=k)~N(\mu_k,\Sigma)~~~k∈\{0,1\} y~Bernoulli(ϕ)(x∣y=k)~N(μk,Σ) k∈{0,1}
- 上述假设针对二分类问题,其中类别 y y y 是一个伯努利随机变量,参数为 ϕ \phi ϕ 意味着 P ( y ) = ϕ y ( 1 − ϕ ) 1 − y P(y)=\phi^y(1-\phi)^{1-y} P(y)=ϕy(1−ϕ)1−y,而后正类负类样本服从不同均值的高斯分布,即 P ( x ∣ y = k ) = 1 ( 2 π ) n / 2 ∣ Σ ∣ 1 / 2 e x p ( − 1 2 ( x − μ k ) T Σ − 1 ( x − μ k ) ) P(x|y=k)=\frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}}exp(-\frac{1}{2}(x-\mu_k)^T\Sigma^{-1}(x-\mu_k)) P(x∣y=k)=(2π)n/2∣Σ∣1/21exp(−21(x−μk)TΣ−1(x−μk))
极大似然估计参数.
- 上述假设中的参数有类别概率
ϕ
\phi
ϕ,样本均值
μ
k
\mu_k
μk,以及协方差矩阵
Σ
\Sigma
Σ,其对数似然函数以及后续推导过程如下:
- 其预测结果可视化,如下图所示:
与朴素贝叶斯.
- 二者都是生成模型,但对于数据做出的假设不尽相同。GDA直接假设每类数据都是服从不同均值高斯分布的,而朴素贝叶斯方法则假设数据的不同特征取值具有条件独立性。
- 形式化表示如下,GDA假设:
- NB假设:
- 另外,GDA由于做出了数据服从高斯分布的假设,所以大多用于连续值;而NB只能用于离散值,因为从概率意义上连续随机变量取单点的概率为0,也就是 P ( X i = x i ∣ y = k ) P(X_i=x_i|y=k) P(Xi=xi∣y=k) 为零值,后续的过程无法进行。
- 【朴素贝叶斯】
与逻辑回归.
- 在得到GDA分类器之后,如果我们考察 P ( y = 1 ∣ x ) P(y=1|x) P(y=1∣x),也就是预测结果,会发现其形状类似于逻辑回归中使用的Sigmoid函数。
- 回顾逻辑回归LR会发现,它对于数据是怎样分布的,并没有做出【服从高斯分布】这一假设,二者最终对预测结果 P ( y = 1 ∣ x ) P(y=1|x) P(y=1∣x) 的建模却有着同样的趋势。
- 直观来看,GDA对于数据做出了猜测,具体地,就是说在并不知道数据真实分布的情况下,预先假定其服从高斯分布,在此基础上进行模型生成。那么猜测是好事还是坏事呢?
- 【利】如果数据来源的确是高斯分布,或者近似服从高斯分布(如果是影响源很多的数据,根据大数定律,会近似高斯分布),那么GDA猜测合理,相比于LR不知道数据是高斯分布,GDA能够更好的利用数据,具体表现为样本量稍小时,也能够获得很好的效果,是为Efficient。
- 【弊】弊端就出现在数据分布和高斯分布相差较大时,GDA朝着错误的方向进行模型的生成。很自然地,错误假设会比LR的无为而治得到一个效果更差的模型。这也是LR的优点所在,因为不进行主观的猜测,从而最大程度信任数据集,得到一个尽可能贴合其真实分布的模型,是为Robust。
- 综上所述,如果我们假定不同类的数据服从高斯分布,那么最终得到的 P ( y = 1 ∣ x ) P(y=1|x) P(y=1∣x) 曲线会近似是一个对数几率Logistic状的。但从LR可以看出,即使我们不做这样的假设,也能够得到对数几率曲线,所以从逻辑角度来说,GDA的假设包含了LR,是一个更强烈的假设。实际上,如果我们假设数据服从一些其他分布,例如Possion分布、 Γ \Gamma Γ分布(更普遍的说,指数分布族),最后也能得到相似的曲线,但LR中显然没有做出这样的假设,这就是其Robust的来源。
- 【Digression】LR是在对
y
=
1
y=1
y=1 的对数几率进行线性回归,可以视为一种广义线性回归。考察LR中后验概率模型
P
(
y
=
1
∣
x
)
−
1
=
1
+
e
x
p
(
−
θ
T
x
)
P(y=1|x)^{-1}=1+exp(-\theta^Tx)
P(y=1∣x)−1=1+exp(−θTx),对其进行变形得到如下表示:
事件的几率Odd的定义是事件发生的概率与其不发生概率的比值
标签:ML,模型,服从,Gaussian,Analysis,GDA,LR,假设,高斯分布 来源: https://blog.csdn.net/weixin_44246009/article/details/111089171