linux – 用于检查PDF的BASH脚本是ocr’d
作者:互联网
不知道从哪里开始真的
我有一个超过8000 PDf的Linux服务器,需要知道哪些PDF已经过了,哪些没有.
正在考虑某种脚本调用XPDF检查pdf,但老实说不确定这是否可行
在此先感谢您的帮助
解决方法:
确保安装了命令行工具pdffonts. (这有两个版本:一个作为xpdf-utils的一部分发布,另一个作为poppler-utils的一部分.)
所有由扫描页面组成的PDF都不会使用任何字体(既不是嵌入式字体也不是非嵌入式字体).
命令行
pdffonts /path/to/scanned.pdf
然后不会显示该文件的任何字体信息.
这可能已足以让您将文件分成两个不同的集合.
如果您的PDF具有混合的扫描页面和“普通”页面(或已修改的页面),那么您将不得不扩展和完善上述简单方法.有关详细信息,请参阅man pdffonts或pdffonts –help.
标签:bash,linux,pdf,xpdf 来源: https://codeday.me/bug/20190902/1793517.html