机器学习:概率图模型
作者:互联网
1、基本概念
概率图模型(probabilistic graphical model)是一类用图结构来表达各属性之间相关关系的概率模型,
一般而言:图中的一个结点表示一个或一组随机变量,结点之间的边则表示变量间的相关关系,从而形成了一张“变量关系图”。
概率图模型分为贝叶斯网络(Bayesian Network)和马尔可夫网络(Markov Network)两大类。
- 贝叶斯网络可以用一个有向图结构表示,
- 马尔可夫网络可以表示成一个无向图的网络结构。
2、隐马尔可夫模型(HMM)
隐马尔可夫模型(Hidden Markov Model) 是一种统计模型,
- 用来描述一个含有隐含未知参数的马尔可夫过程。
- 它是结构最简单的动态贝叶斯网,主要用于时序数据建模,在语音识别、自然语言处理等领域有。
HMM中的变量分为两组:状态变量与观测变量,
马尔可夫性:现在决定未来,未来与过去无关。
-
- 观测变量的取值仅依赖于状态变量;
-
- 下一个状态的取值仅依赖于当前状态
隐马尔可夫模型中所有变量的联合概率分布:
确定一个隐马尔可夫模型需以下三组参数:
3、 马尔可夫随机场(MRF)
马尔可夫随机场(Markov Random Field,简称MRF)是典型的马尔可夫网, 这是一种著名的无向图模型,图中每个结点表示一个或一组变量,结点之间的边表示两个变量之间的依赖关系.
马尔可夫随机场有一组势函数(potential functions),亦称“因子” (factor),这是定义在变量子集上的非负实函数,主要用于定义概率分布函数。
在马尔可夫随机场中,对于关系图中的一个子集,若任意两结点间都有边连接,则称该子集为一个团;
若再加一个结点便不能形成团,则称该子集为极大团。
MRF使用势函数来定义多个变量的概率分布函数,其中每个(极大)团对应一个势函数,一般团中的变量关系也体现在它所对应的极大团中,
因此常常基于极大团来定义变量的联合概率分布函数。
3.1MRF性质
对于条件独立性,马尔可夫随机场通过分离集来实现条件独立,若A结点集必须经过C结点集才能到达B结点集,则称C为分离集。
- 全局马尔可夫性:给定两个变量子集的分离集,则这两个变量子集条件独立。
- 局部马尔可夫性:给定某变量的邻接变量,则该变量与其它变量条件独立。
- 成对马尔可夫性:给定所有其他变量,两个非邻接变量条件独立。
3.2势函数
对于MRF中的势函数,势函数主要用于描述团中变量之间的相关关系,且要求为非负函数,直观来看:势函数需要在偏好的变量取值上函数值较大,例如:若x1与x2成正相关,则需要将这种关系反映在势函数的函数值中。
4、 条件随机场(CRF)
条件随机场 为具有无向的图模型,
- 图中的顶点代表随机变量,
- 顶点间的连线代表随机变量间的相依关系,
- 在条件随机场中,随机变量Y 的分布为条件机率,给定的观察值则为随机变量 X。
隐马尔可夫模型和马尔可夫随机场都属于生成式模型,即对联合概率进行建模,
条件随机场则是对条件分布进行建模。
- CRF试图在给定观测值序列后,对状态序列的概率分布进行建模,即P(y | x)。
CRF也通过团以及势函数的概念来定义条件概率P(y | x)。
在给定观测值序列的条件下,链式条件随机场主要包含两种团结构:单个状态团及相邻状态团,通过引入特征函数便可以定义出目标条件概率:
5、 学习与推断
对于生成式模型,通常我们都是先对变量的联合概率分布进行建模,接着再求出目标变量的边际分布(marginal distribution),那如何从联合概率得到边际分布呢?这便是学习与推断。
两种精确推断的方法:变量消去与信念传播。
5.1 变量消去
变量消去利用条件独立性来消减计算目标概率值所需的计算量,它通过运用乘法与加法的分配率,将对变量的积的求和问题转化为对部分变量交替进行求积与求和的问题,从而将每次的运算控制在局部,达到简化运算的目的。
5.2 信念传播
若将变量求和操作看作是一种消息的传递过程,
信念传播可以理解成:一个节点在接收到所有其它节点的消息后才向另一个节点发送消息,同时当前节点的边际分布正比于他所接收的消息的乘积:
只需要经过下面两个步骤,便可以完成所有的消息传递过程:
- 指定一个根节点,从所有的叶节点开始向根节点传递消息,直到根节点收到所有邻接结点的消息(从叶到根);
- 从根节点开始向叶节点传递消息,直到所有叶节点均收到消息(从根到叶)。
6、 LDA话题模型
话题模型主要用于处理文本类数据,其中隐狄利克雷分配模型(Latent Dirichlet Allocation,简称LDA)是话题模型的杰出代表。在话题模型中,有以下几个基本概念:词(word)、文档(document)、话题(topic)。
在现实任务中,一般我们可以得出一个文档的词频分布,但不知道该文档对应着哪些话题,LDA话题模型正是为了解决这个问题。具体来说:LDA认为每篇文档包含多个话题,且其中每一个词都对应着一个话题。因此可以假设文档是通过如下方式生成:
参考文献
《机器学习》周志华
标签:结点,概率,机器,变量,模型,马尔可夫,势函数,节点 来源: https://www.cnblogs.com/caolanying/p/16631838.html