其他分享
首页 > 其他分享> > 贝叶斯网络——贝叶斯理论(3)

贝叶斯网络——贝叶斯理论(3)

作者:互联网

对贝叶斯公式大家可能已经比较熟悉了,贝叶斯网络又是什么东东?贝叶斯网络又叫概率图模型,是图灵奖得主Judea Pearl于1985年首先提出的。现在大火的深度学习神经网络,以及机器学习中的马尔可夫链、隐马尔可夫链,甚至决策树、支持向量机SVM、AdaBoost、XGBoost、GBDT等等不过是贝叶斯网络的特殊情形。所以深入研究贝叶斯网络相当重要。

贝叶斯网络的目的

贝叶斯网络是一个有向无环图,其中的结点表示事物的状态,而结点a指向结点b的有向弧表示a对b的发生有影响。举个栗子,假设a表示抽烟与否(A表示抽烟,\overline{A}表示不抽烟),b表示肺癌(B表示得肺癌,\overline{B}表示不得肺癌),肺癌的产生与吸烟有着明显的因果关系,两者构成了一个最简单的贝叶斯网络:

图1 最简单的贝叶斯网络

抽烟和肺癌之间的关系见下表:

B: 得肺癌\overline{B}: 不得肺癌
A: 抽烟P(B/A ) = 0.8P(\overline{B}/A)=0.2
\overline{A}: 不抽烟P(B/\overline{A})=0.1P(\overline{B}/\overline{A}) = 0.9

表中的概率值就是是否得肺癌对于抽烟与否的条件概率值。

这张表能帮助我们做什么呢?

第一,如果知道某人抽烟的先验概率P(A)=0.7,则可以计算出他得肺癌的概率就是P(AB) = P(A) P(B/A) = 0.7 \times 0.8=0.56。这正是贝叶斯之前古典概率论所能做到的事情,即根据原因推断出结果发生的概率。

第二,反过来,如果知道某人得了癌症,则这个人抽烟的可能性有多大呢?这正是贝叶斯公式所要做的事情——从结论推断后验概率,从结果推断原因。已知抽烟的先验概率P(A)=0.7,则P(\overline{A})=0.3,在知道此人已经得癌症的情况下,他抽烟的后验概率就是:

P(A/B) = \frac{P(B/A)P(A)}{P(B/A)P(A)+P(B/\overline{A})P(\overline{A})}=\frac{0.8\times 0.7}{0.8\times0.7+0.1\times0.3}=0.949

也就是说此人有94.9%的概率抽烟了。这就是利用贝叶斯公式不同于古典概率论的地方:后者立足于事物的原因,推断事物的结果,或者说,根据事物的本质推断它的表象;而前者则正好相反,立足于事物的结果和表象,推断事物发生这种结果的原因和事物的本质。而现实生活中,人们往往只能看到表象和结果,希望找到原因和本质。比如,女神对你笑了,还跟你说话了,你希望透过这些表现,计算出女神到底喜不喜欢你。这正是贝叶斯公式的魅力之所在。

所以贝叶斯公式是由两个结点a和b以及一个从a指向b的有向弧构成的最简单的贝叶斯网络。该网络既可以用来根据a的状态来推断b的各种状态的发生概率,也可以反过来根据b的状态推断a的各种状态的发生概率。推而广之:贝叶斯网络的目的是根据某些结点的现有状态,推断其他节点各个状态的条件概率。

联合概率的计算

贝叶斯公式也可以写成联合概率的形式:

P(A/B) = \frac{P(AB)}{P(AB)+P(\overline{A}B)}

所以,为了计算某个结点的条件概率,贝叶斯网络只须计算整个网络的联合概率即可。计算贝叶斯网络联合概率的算法是:

  1. 访问G的每个入度等于0的结点(即没有有向弧指向它的结点),对每个这样的结点x,标记P_{x}=P(x),前者称为x的标记,后者是x的先验概率。​​​​​​
  2. 对G中每个这样的结点y进行循环,y的每个先驱结点x_{i}(i=1,2, ... n)都有标记P_{x_{i}},令P_{y}=\prod_{i=1}^{n}P_{x_{i}} \cdot P(y/x_{1}x_{2}...x_{n})
  3. 反复执行2直到所有结点都被标记为止。
  4. 把所有出度为0的结点(即不发出任何有向弧的结点)的标记相乘即构成整个网络的联合概率。

对于图1所示的最简单贝叶斯网络来说,整个网络的联合概率是:

P(ab)=P(a)P(b/a)

下图给出了一个稍微复杂一点的贝叶斯网络,即b的发生是由a、c两个因素联合导致的:

 则这个网络的联合概率是:

P(abc)=P(a)P(c)P(b/ac)

 有意思的是,上式中如果P(b/ac)的计算或者统计困难,则可以采用朴素贝叶斯方法,即假设a、c相对于条件b独立,即P(ac/b) = P(a/b) P(c/b),则有:

P(B/AC) = \frac{P(AC/B)P(B)}{P(AC/B)P(B) + P(AC/\overline{B})P(\overline{B})}=\frac{P(A/B)P(C/B)P(B)}{P(A/B)P(C/B)P(B)+P(A/\overline{B})P(C/\overline{B})P(\overline{B})}

上式右边分子分母中的每一项概率都仅涉及两个或一个因素,因此计算和统计比较容易。

至此我们把贝叶斯公式、朴素贝叶斯方法全部统一到贝叶斯网络中来了。下一篇博客我们讲贝叶斯网络应用实例。

 

 

 

 

 

标签:肺癌,结点,概率,抽烟,网络,贝叶斯,理论
来源: https://blog.csdn.net/qq_40022670/article/details/118945330