编程语言
首页 > 编程语言> > php-使用Algolia搜索(提取文本)PDF文件

php-使用Algolia搜索(提取文本)PDF文件

作者:互联网

对于拥有大量PDF文件的客户来说,这只是一个推测性想法.

Algolia在其常见问题解答中说,要搜索PDF文件,您首先需要从文件中提取文本.您将如何处理?

我设想的系统工作方式是:

>客户通过CMS上传PDF
> CMS调用某些服务/程序来
提取文字
> Algolia对提取的内容进行索引并以某种方式
链接到原始PDF

它应该是一个自动化的系统,因为客户端不必告诉它建立索引.
它将用PHP构建,可能是Laravel在Ubuntu上运行.

哪些软件/服务可以从PDF提取文本,将其“链接”到PDF文件需要魔术吗?

我也很高兴就可能解决此问题的其他搜索服务提出建议.

解决方法:

幸运的是,从pdf提取文本是一个已被多次讨论的主题.在命令行上,您可以使用pdftotext(在Linux或Mac上可用),或者在您的代码中将库命名为Apache Tika(可以找到PHP wrapper).

为避免记录中出现过多杂音,建议您拆分文本并为每个段落创建一个记录.然后,您可以使用Algolia的distinct功能对结果进行重复数据删除.

您应该已经在某处具有指向文件的链接,只需将它们存储在记录中,然后在前端,您可以轻松地使用例如autocomplete.jsinstantsearch.js创建指向它们的链接.

标签:algolia,search,php
来源: https://codeday.me/bug/20191026/1939479.html