其他分享
首页 > 其他分享> > 潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)

潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)

作者:互联网

文章目录


潜在狄利克雷分配(latent Dirichlet allocation,LDA),作为基于贝叶斯学习的话题模型,是潜在语义分析、概率潜在语义分析的扩展,于2002年由Blei等提出。LDA在文本数据挖掘、图像处理、生物信息处理等领域被广泛使用。

LDA模型是文本集合的生成概率模型

LDA的文本集合的生成过程如下:

LDA模型是含有隐变量的概率图模型

1. 狄利克雷分布

狄利克雷分布(Dirichlet distribution)是一种多元连续随机变量的概率分布,是贝塔分布(beta distribution)的扩展。在贝叶斯学习中,狄利克雷分布常作为多项分布的先验分布使用。

定义:

多元连续随机变量 θ=(θ1,θ2,...,θk)\theta = (\theta_1,\theta_2,...,\theta_k)θ=(θ1​,θ2​,...,θk​) 的概率密度函数为:
p(θα)=Γ(i=1kαi)i=1kΓ(αi)i=1kθiαi1i=1kθi=1,θi0,αi>0,θDir(α)p(\theta|\alpha) = \frac{\Gamma \bigg(\sum\limits_{i=1}^k \alpha_i\bigg)}{\prod\limits_{i=1}^k \Gamma(\alpha_i)} \prod\limits_{i=1}^k \theta_i^{\alpha_i-1}\quad \sum\limits_{i=1}^k \theta_i = 1, \theta_i\ge 0,\alpha_i >0,记作\theta \sim Dir(\alpha)p(θ∣α)=i=1∏k​Γ(αi​)Γ(i=1∑k​αi​)​i=1∏k​θiαi​−1​i=1∑k​θi​=1,θi​≥0,αi​>0,记作θ∼Dir(α)
Γ(s)=0xs1exdx,s>0伽马函数,\Gamma(s) = \int_0^{\infty} x^{s-1}e^{-x}dx, \quad s>0伽马函数,Γ(s)=∫0∞​xs−1e−xdx,s>0
伽马函数性质:
Γ(s+1)=sΓ(s)\Gamma(s+1) = s\Gamma(s)Γ(s+1)=sΓ(s)
sss 是自然数时,有 Γ(s+1)=s!\Gamma(s+1) = s!Γ(s+1)=s!

2. 潜在狄利克雷分配模型

在这里插入图片描述
LDA模型是概率图模型:

利用LDA进行话题分析,就是对给定文本集合,学习到每个文本的话题分布,以及每个话题的单词分布

3. 学习推理

LDA模型的学习与推理不能直接求解。

4. sklearn.decomposition.LatentDirichletAllocation

sklearn.decomposition.LatentDirichletAllocation官网介绍

class sklearn.decomposition.LatentDirichletAllocation(n_components=10, 
doc_topic_prior=None, topic_word_prior=None, learning_method='batch',
learning_decay=0.7, learning_offset=10.0, max_iter=10, batch_size=128, 
evaluate_every=-1, total_samples=1000000.0, perp_tol=0.1, 
mean_change_tol=0.001, max_doc_update_iter=100, n_jobs=None, verbose=0, 
random_state=None)

n_components, optional (default=10),话题数量

实践参考:https://www.cnblogs.com/pinard/p/6908150.html

标签:LDA,Dirichlet,Latent,狄利克,话题,分布,theta,文本
来源: https://blog.csdn.net/qq_21201267/article/details/105884879