首页 > TAG信息列表 > topic-modeling

python-Gensim LDA-默认迭代次数

我想知道gensim的LDA(潜在Dirichlet分配)算法中的默认迭代次数.我认为文档中没有讨论这一点. (迭代次数由初始化LdaModel时的参数迭代表示).谢谢 !解决方法:在python / Lib / site-packages目录中检查了模块的文件.构造函数是这样的- def __init__(self, corpus=None, num_topics=1

python – 基于主题的文本和用户相似性

我希望使用他们的主题表示来计算用户和文本文档之间的相似性.即每个文档和用户由主题向量(例如,神经科学,技术等)以及该主题与用户/文档的相关程度来表示. 我的目标是计算这些向量之间的相似性,以便我可以找到类似的用户,文章和推荐文章. 我曾尝试使用Pearson Correlation,但是一旦

python – TopicModel:如何按主题模型“主题”查询文档?

下面我创建了一个完全可重现的示例来计算给定DataFrame的主题模型. import numpy as np import pandas as pd data = pd.DataFrame({'Body': ['Here goes one example sentence that is generic', 'My car drives really fast and I have no brakes'

将Python字符串传递给Mallet以进行主题建模

我正在使用BeautifulSoup构建一个与HTML中的元数据一起收集的文本语料库.如果我可以从Python中调用Mallet并让它从Python字符串中模拟主题,而不是从目录中的文本文件中进行建模,那将会非常有用.这样我就可以将Mallet定位的n个关键字放入每个文件中. 我收到一条消息,说我跑的时候已

如何使用gensim使用训练有素的LDA模型预测新查询的主题?

我使用gensim训练了一个用于LDA主题建模的语料库. 浏览gensim网站上的教程(这不是整个代码): question = 'Changelog generation from Github issues?'; temp = question.lower() for i in range(len(punctuation_string)): temp = temp.replace(punctuation_string[i], '')