系统相关
首页 > 系统相关> > linux – 用于检查PDF的BASH脚本是ocr’d

linux – 用于检查PDF的BASH脚本是ocr’d

作者:互联网

不知道从哪里开始真的

我有一个超过8000 PDf的Linux服务器,需要知道哪些PDF已经过了,哪些没有.

正在考虑某种脚本调用XPDF检查pdf,但老实说不确定这是否可行

在此先感谢您的帮助

解决方法:

确保安装了命令行工具pdffonts. (这有两个版本:一个作为xpdf-utils的一部分发布,另一个作为poppler-utils的一部分.)

所有由扫描页面组成的PDF都不会使用任何字体(既不是嵌入式字体也不是非嵌入式字体).

命令行

pdffonts /path/to/scanned.pdf

然后不会显示该文件的任何字体信息.

这可能已足以让您将文件分成两个不同的集合.

如果您的PDF具有混合的扫描页面和“普通”页面(或已修改的页面),那么您将不得不扩展和完善上述简单方法.有关详细信息,请参阅man pdffonts或pdffonts –help.

标签:bash,linux,pdf,xpdf
来源: https://codeday.me/bug/20190902/1793517.html