贝叶斯网络——贝叶斯理论(3)
作者:互联网
对贝叶斯公式大家可能已经比较熟悉了,贝叶斯网络又是什么东东?贝叶斯网络又叫概率图模型,是图灵奖得主Judea Pearl于1985年首先提出的。现在大火的深度学习神经网络,以及机器学习中的马尔可夫链、隐马尔可夫链,甚至决策树、支持向量机SVM、AdaBoost、XGBoost、GBDT等等不过是贝叶斯网络的特殊情形。所以深入研究贝叶斯网络相当重要。
贝叶斯网络的目的
贝叶斯网络是一个有向无环图,其中的结点表示事物的状态,而结点a指向结点b的有向弧表示a对b的发生有影响。举个栗子,假设a表示抽烟与否(表示抽烟,表示不抽烟),b表示肺癌(表示得肺癌,表示不得肺癌),肺癌的产生与吸烟有着明显的因果关系,两者构成了一个最简单的贝叶斯网络:
图1 最简单的贝叶斯网络
抽烟和肺癌之间的关系见下表:
: 得肺癌 | : 不得肺癌 | |
: 抽烟 | ||
: 不抽烟 |
表中的概率值就是是否得肺癌对于抽烟与否的条件概率值。
这张表能帮助我们做什么呢?
第一,如果知道某人抽烟的先验概率,则可以计算出他得肺癌的概率就是。这正是贝叶斯之前古典概率论所能做到的事情,即根据原因推断出结果发生的概率。
第二,反过来,如果知道某人得了癌症,则这个人抽烟的可能性有多大呢?这正是贝叶斯公式所要做的事情——从结论推断后验概率,从结果推断原因。已知抽烟的先验概率,则,在知道此人已经得癌症的情况下,他抽烟的后验概率就是:
也就是说此人有94.9%的概率抽烟了。这就是利用贝叶斯公式不同于古典概率论的地方:后者立足于事物的原因,推断事物的结果,或者说,根据事物的本质推断它的表象;而前者则正好相反,立足于事物的结果和表象,推断事物发生这种结果的原因和事物的本质。而现实生活中,人们往往只能看到表象和结果,希望找到原因和本质。比如,女神对你笑了,还跟你说话了,你希望透过这些表现,计算出女神到底喜不喜欢你。这正是贝叶斯公式的魅力之所在。
所以贝叶斯公式是由两个结点a和b以及一个从a指向b的有向弧构成的最简单的贝叶斯网络。该网络既可以用来根据a的状态来推断b的各种状态的发生概率,也可以反过来根据b的状态推断a的各种状态的发生概率。推而广之:贝叶斯网络的目的是根据某些结点的现有状态,推断其他节点各个状态的条件概率。
联合概率的计算
贝叶斯公式也可以写成联合概率的形式:
所以,为了计算某个结点的条件概率,贝叶斯网络只须计算整个网络的联合概率即可。计算贝叶斯网络联合概率的算法是:
- 访问G的每个入度等于0的结点(即没有有向弧指向它的结点),对每个这样的结点x,标记,前者称为x的标记,后者是x的先验概率。
- 对G中每个这样的结点y进行循环,y的每个先驱结点都有标记,令
- 反复执行2直到所有结点都被标记为止。
- 把所有出度为0的结点(即不发出任何有向弧的结点)的标记相乘即构成整个网络的联合概率。
对于图1所示的最简单贝叶斯网络来说,整个网络的联合概率是:
下图给出了一个稍微复杂一点的贝叶斯网络,即b的发生是由a、c两个因素联合导致的:
则这个网络的联合概率是:
有意思的是,上式中如果的计算或者统计困难,则可以采用朴素贝叶斯方法,即假设a、c相对于条件b独立,即,则有:
上式右边分子分母中的每一项概率都仅涉及两个或一个因素,因此计算和统计比较容易。
至此我们把贝叶斯公式、朴素贝叶斯方法全部统一到贝叶斯网络中来了。下一篇博客我们讲贝叶斯网络应用实例。
标签:肺癌,结点,概率,抽烟,网络,贝叶斯,理论 来源: https://blog.csdn.net/qq_40022670/article/details/118945330