将Python字符串传递给Mallet以进行主题建模
作者:互联网
我正在使用BeautifulSoup构建一个与HTML中的元数据一起收集的文本语料库.如果我可以从Python中调用Mallet并让它从Python字符串中模拟主题,而不是从目录中的文本文件中进行建模,那将会非常有用.这样我就可以将Mallet定位的n个关键字放入每个文件中.
我收到一条消息,说我跑的时候已经认出了Mallet:
from nltk.classify import mallet
from subprocess import call
mallet.config_mallet("malletdir/mallet-2.0.7/bin")
但是我对接下来的步骤没有任何好运,甚至不确定Mallet是否接受除保存文件以外的任何内容.
我无法找到任何我真正理解的文档.有人看过这个可摘文件吗? (NLTK书没有进入Mallet).我也很乐意学习Python中任何其他主题建模方法,我可以在没有深入Python知识的情况下进行操作.
对不起,这是我的第一个牛仔竞技表演.
解决方法:
如果您仍在寻找解决方案:Gensim(一个Python主题建模/机器学习包)有一个Mallet的包装器,它易于使用且记录良好. Here是一些Gensim教程和一个特定的tutorial用于Mallet包装器.您可能还想阅读一些安装说明(主要是关于设置Java内存的部分)here,然后您就可以开始了.
标签:python,nlp,nltk,topic-modeling,mallet 来源: https://codeday.me/bug/20190629/1322547.html