php-使用Algolia搜索(提取文本)PDF文件
作者:互联网
对于拥有大量PDF文件的客户来说,这只是一个推测性想法.
Algolia在其常见问题解答中说,要搜索PDF文件,您首先需要从文件中提取文本.您将如何处理?
我设想的系统工作方式是:
>客户通过CMS上传PDF
> CMS调用某些服务/程序来
提取文字
> Algolia对提取的内容进行索引并以某种方式
链接到原始PDF
它应该是一个自动化的系统,因为客户端不必告诉它建立索引.
它将用PHP构建,可能是Laravel在Ubuntu上运行.
哪些软件/服务可以从PDF提取文本,将其“链接”到PDF文件需要魔术吗?
我也很高兴就可能解决此问题的其他搜索服务提出建议.
解决方法:
幸运的是,从pdf提取文本是一个已被多次讨论的主题.在命令行上,您可以使用pdftotext(在Linux或Mac上可用),或者在您的代码中将库命名为Apache Tika
(可以找到PHP wrapper).
为避免记录中出现过多杂音,建议您拆分文本并为每个段落创建一个记录.然后,您可以使用Algolia的distinct
功能对结果进行重复数据删除.
您应该已经在某处具有指向文件的链接,只需将它们存储在记录中,然后在前端,您可以轻松地使用例如autocomplete.js或instantsearch.js创建指向它们的链接.
标签:algolia,search,php 来源: https://codeday.me/bug/20191026/1939479.html