编程语言
首页 > 编程语言> > Python-Whoosh:索引MS文档,PDF

Python-Whoosh:索引MS文档,PDF

作者:互联网

我想使用python进行文档搜索. Solr不能走,因为Java托管是一个约束.

因此,飞快移动似乎是显而易见的选择.但这似乎并不本地索引doc或pdf文件(如Solr可以).如何使其直接索引这些文件?

解决方法:

Whoosh只需从这些文档中提取文本即可.尽管Whoosh库不会为您提取内容,但有些Python库会为您提取文本,例如pdf挖掘程序,catdoc或反词.

有关更多信息,请参见这两个讨论:

> Best way to extract text from a Word doc without using
COM/automation?

> How to extract just plain text from .doc & .docx files? (unix)

标签:whoosh,python
来源: https://codeday.me/bug/20191102/1990908.html