编程语言
首页 > 编程语言> > 【机器学习系列】EM算法第三讲:由Jensen Inequality推导EM算法

【机器学习系列】EM算法第三讲:由Jensen Inequality推导EM算法

作者:互联网


作者:CHEONG

公众号:AI机器学习与知识图谱

研究方向:自然语言处理与知识图谱


阅读本文之前,首先注意以下两点:

1、机器学习系列文章常含有大量公式推导证明,为了更好理解,文章在最开始会给出本文的重要结论,方便最快速度理解本文核心。需要进一步了解推导细节可继续往后看。

2、文中含有大量公式,若读者需要获取含公式原稿Word文档,可关注公众号后回复:EM算法第三讲,本文主要介绍如何通过Jensen Inequality推导出EM算法的优化公式。



一、EM算法解决的问题


通俗些说,EM算法就是求含有隐变量 z z z的概率模型 p ( x , z ∣ θ ) p(x,z|\theta) p(x,z∣θ)中的参数 θ \theta θ。对于求参数问题我们很容易想到最大似然估计法MLE,但MLE是针对比较简单的概率模型 p ( x ∣ θ ) p(x|\theta) p(x∣θ)可直接使用MLE求出参数的解析解,MLE参数最大化公式所示:

在这里插入图片描述

对于含有隐变量的概率模型 p ( x , z ∣ θ ) p(x,z|\theta) p(x,z∣θ),隐变量 z z z的概率分布是未知的,无法使用MLE求出解析解,因此使用EM算法来求解参数的近似解。对于概率密度 p ( x , z ∣ θ ) p(x,z|\theta) p(x,z∣θ)参数求解公式如下:

在这里插入图片描述



二、由Jensen Inequality推导EM算法


Jesen不等式: 先简单介绍一下Jesen不等式,Jesen不等式和凸函数、凹函数的定义是相关的,下面直接给出结论:

在这里插入图片描述

首先看凸函数Convex Function,凸函数上任意两点的割线位于函数的上方,对应公式为:

在这里插入图片描述

Jesen不等式就是等上式的推广和泛化:

在这里插入图片描述

在概率论中,如果把 λ i \lambda_i λi​看成为离散变量 x i x_i xi​的概率分布,则上式可写成,其中E是均值:

在这里插入图片描述

而如果 λ i \lambda_i λi​看成为连续变量 x i x_i xi​的概率分布,则公式可表达成:

在这里插入图片描述

接下来再看凹函数,凹函数上任意两点的割线位于函数的下方,所以只需要将上面的性质的符号反转便是凹函数中具有的性质,直接给出Jesen不等式在凹函数中的体现:

在这里插入图片描述

在了解了Jesen不等式之后,接下来进行EM算法的推导:

在这里插入图片描述

因为log是凹函数,结合Jesen不等式性质有:

在这里插入图片描述

假设:

在这里插入图片描述

将上式两边同时对 Z Z Z求积分

在这里插入图片描述

所以求得:

在这里插入图片描述

至此我们求出了分布 q ( Z ) q(Z) q(Z),就是后验概率 p ( Z ∣ X , θ ) p(Z|X,\theta) p(Z∣X,θ),所以有:

在这里插入图片描述

所以对于参数 θ \theta θ

在这里插入图片描述

其中 q ( Z ) q(Z) q(Z)为后验分布 p ( Z ∣ X , θ ) p(Z|X,\theta) p(Z∣X,θ),至此借助Jesen不等式推导出了EM算法的优化公式。



三、往期精彩


【知识图谱系列】Over-Smoothing 2020综述

【知识图谱系列】基于生成式的知识图谱预训练模型

【知识图谱系列】基于2D卷积的知识图谱嵌入

【知识图谱系列】基于实数或复数空间的知识图谱嵌入

【知识图谱系列】自适应深度和广度图神经网络模型

【知识图谱系列】知识图谱多跳推理之强化学习

【知识图谱系列】知识图谱的神经符号逻辑推理

【知识图谱系列】动态时序知识图谱EvolveGCN

【知识图谱系列】多关系神经网络CompGCN

【知识图谱系列】探索DeepGNN中Over-Smoothing问题

【知识图谱系列】知识图谱表示学习综述 | 近30篇优秀论文串讲

【知识图谱系列】动态知识图谱表示学习综述 | 十篇优秀论文导读

【面经系列】八位硕博大佬的字节之旅

【机器学习系列】机器学习中的两大学派

各大AI研究院共35场NLP算法岗面经奉上

干货 | Attention注意力机制超全综述

干货 | NLP中的十个预训练模型

干货|一文弄懂机器学习中偏差和方差

FastText原理和文本分类实战,看这一篇就够了

Transformer模型细节理解及Tensorflow实现

GPT,GPT2,Bert,Transformer-XL,XLNet论文阅读速递

机器学习算法篇:最大似然估计证明最小二乘法合理性

Word2vec, Fasttext, Glove, Elmo, Bert, Flair训练词向量教程+数据+源码


原稿获取请关注公众号后回复:EM算法第三讲,原创不易,有用就点个赞呀!

标签:EM,Jesen,系列,Jensen,图谱,知识,算法
来源: https://blog.csdn.net/feilong_csdn/article/details/117188480