linux – 如何栅格化PDF中的所有文本?
作者:互联网
你知道什么时候你有一个pdf,这是一个文件的扫描,它是一个非常大的文件,因为它只是存储扫描文件的图片?
还有OCR工具可以帮助您制作一个只存储文本的文档吗?
好吧,我需要反过来!假设我有一个用pdflatex生成的完美的pdf文档,我需要把它变成这样一个“巨大的”pdf,它在纸上打印时看起来完全相同(具有一定的dpi值),但它只是原始图片.
我最初的想法是将pdf转换为一系列JPG,然后再转换成PDF,但也许有一些规范的方法呢?
如果你想知道我为什么要做这样的事情:我目前仍然使用网络打印机,这不是由我维护的,它会随机丢弃打印文件中的字符!所以,直到有人弄清楚那里有什么问题,我希望这是一种解决方法.
解决方法:
您可以测试基于图像的PDF是否也受到污染.首先将PDF转换为(多页)TIFF,例如与ghostscript:
gs -sDEVICE=tiffg4 -o sample.tif sample.pdf
然后将TIFF转换为PDF,例如:
tiff2pdf -z -f -F -pA4 -o sample-img.pdf sample.tif
这导致PDF文件中的页面是图像而不是文本.
或者,如果您的系统支持打印TIFF文件,请尝试直接打印.
还有pdf2ps选项可以将PDF转换为PS,如果有效,可能会更好.
标签:pdftk,linux,pdf,ocr 来源: https://codeday.me/bug/20190815/1662211.html