Python-Whoosh:索引MS文档,PDF
作者:互联网
我想使用python进行文档搜索. Solr不能走,因为Java托管是一个约束.
因此,飞快移动似乎是显而易见的选择.但这似乎并不本地索引doc或pdf文件(如Solr可以).如何使其直接索引这些文件?
解决方法:
Whoosh只需从这些文档中提取文本即可.尽管Whoosh库不会为您提取内容,但有些Python库会为您提取文本,例如pdf挖掘程序,catdoc或反词.
有关更多信息,请参见这两个讨论:
> Best way to extract text from a Word doc without using
COM/automation?
> How to extract just plain text from .doc & .docx files? (unix)
标签:whoosh,python 来源: https://codeday.me/bug/20191102/1990908.html