系统相关
首页 > 系统相关> > linux – 如何栅格化PDF中的所有文本?

linux – 如何栅格化PDF中的所有文本?

作者:互联网

你知道什么时候你有一个pdf,这是一个文件的扫描,它是一个非常大的文件,因为它只是存储扫描文件的图片?

还有OCR工具可以帮助您制作一个只存储文本的文档吗?

好吧,我需要反过来!假设我有一个用pdflatex生成的完美的pdf文档,我需要把它变成这样一个“巨大的”pdf,它在纸上打印时看起来完全相同(具有一定的dpi值),但它只是原始图片.

我最初的想法是将pdf转换为一系列JPG,然后再转换成PDF,但也许有一些规范的方法呢?

如果你想知道我为什么要做这样的事情:我目前仍然使用网络打印机,这不是由我维护的,它会随机丢弃打印文件中的字符!所以,直到有人弄清楚那里有什么问题,我希望这是一种解决方法.

解决方法:

您可以测试基于图像的PDF是否也受到污染.首先将PDF转换为(多页)TIFF,例如与ghostscript

gs -sDEVICE=tiffg4 -o sample.tif sample.pdf

然后将TIFF转换为PDF,例如:

tiff2pdf -z -f -F -pA4 -o sample-img.pdf sample.tif

这导致PDF文件中的页面是图像而不是文本.

或者,如果您的系统支持打印TIFF文件,请尝试直接打印.

还有pdf2ps选项可以将PDF转换为PS,如果有效,可能会更好.

标签:pdftk,linux,pdf,ocr
来源: https://codeday.me/bug/20190815/1662211.html