首页 > 其他分享> > 【读书笔记】贝叶斯学习

【读书笔记】贝叶斯学习

2022-02-18 20:02:13 作者：互联网

原理

与直接应用贝叶斯公式不同，贝叶斯学习指在当前训练样本的基础上，根据新样本更新每个模型的后验概率。贝叶斯深度学习[1]则结合了神经网络的模型表示能力，将神经网络的权重视作服从某分布的随机变量，而不是固定值；网络的前向传播，就是从权值分布中抽样然后计算。

我们将当前所有样本记为\(\pmb e\)，新样本记为\(X = x\)，待估计的参数或目标标签为\(Y\)，那么学习的目标就是计算后验概率\(P(Y|X=x,\pmb e)\)。在贝叶斯学习中，模型参数具有分布，因此每个标签的输出概率是参数概率（\(P(m|\pmb e)\)，给定新旧样本的后验概率）与对应输出概率\(P(Y|m,x)\)的加权和（其实也是条件概率），具体写为

\[\begin{align} P(Y|X=x,\pmb e) &= \sum_{m\in M}P(Y,m|x,\pmb e)\\ &=\sum_{m\in M}P(Y|m,x,\pmb e)P(m|x,\pmb e)\\ &=\sum_{m\in M}P(Y|m,x)P(m|\pmb e) \end{align} \]

其中最后一步假设了模型已经包含了所有当前样本的信息。由于\(P(Y|m,x)\)是一个已知值，只需用贝叶斯公式计算\(P(m|\pmb e)\)

\[P(m|\pmb e) = \frac{P(\pmb e|m)P(m)}{P(\pmb e)} \]

然而，直接求数据分布\(P(\pmb e)\)是不可能的。处理这个有两种解决思路：

拟合后验分布：用MCMC家族、变分拟合（VI）家族，通过KL散度建立拟合分布与\(P(m|\pmb e)\)后验概率的差异，根据训练样本不断优化得到拟合结果[1]。
省略数据分布：由于分母\(P(\pmb e)\)保证后验概率求和后为1，因此在获得分子的表达式后，可以用一个常数代替其概率值。

例题

考虑单个布尔型随机变量，输出为True的概率为\(\phi\)，为False的概率为\(1-\phi\)，根据不同的样本情况求解\(\phi\)的后验概率。

根据贝叶斯分布，有\(P(\phi|\pmb e) = P(\pmb e|\phi)P(\phi)/P(\pmb e)\)

考虑i.i.d.获取\(n_1\)个True样本，\(n_0\)个False样本，因此其似然函数为

\[P(\pmb e|\phi) = \phi^{n_1}(1-\phi)^{n_0} \]

将未知的先验分布\(P(\phi)\)设为\([0,1]\)上的均匀分布，归一化后可得后验概率如下图

这个先验分布为均匀分布的后验分布又叫做Beta分布，其参数\(\alpha_i=n_i+1\)比样本个数多一，记为

\[Beta^{\alpha_0,\alpha_1}(p)=1/K p^{\alpha_1-1}(1-p)^{\alpha_0-1} \]

同样\(K\)是一个保证积分后为1的归一化系数。有趣的是最大后验概率对应的点在\(\frac{n_1}{n_1+n_0}\)处，而这个分布的期望是\(\frac{n_1+1}{n_1+n_0+2}\)（虽然我觉得期望好像没什么意义）

进一步的，当参数超过2个时，为Dirichlet分布，记为

\[Dirichelet^{\alpha_0,\cdots,\alpha_k}(p_1,\cdots,p_k)=1/K \Pi_{j=1}^k p_j^{\alpha_j-1} \]

其每一维上是一个Beta分布。

优势

当某一类没有样本的时候，直接说\(P(Y=False)=0\)是不正确的，只能说此时为0的后验概率最大，逻辑上是合理的。
对于复杂的相关关系，可以利用贝叶斯网络表明隐变量之间的关系，进行推断。

参考链接

[1] C. Blundell, J. Cornebise, K. Kavukcuoglu, and D. Wierstra, “Weight Uncertainty in Neural Networks,” arXiv:1505.05424 [cs, stat], May 2015. [Online]. Available: http://arxiv.org/abs/1505.05424

【读书笔记】贝叶斯原理 - 木坑 - 博客园 (cnblogs.com)

标签：phi,概率,后验,读书笔记,贝叶斯,学习,pmb,alpha
来源： https://www.cnblogs.com/mhlan/p/15911104.html