编程语言
首页 > 编程语言> > php-如何确定是否扫描了.pdf文件的内容

php-如何确定是否扫描了.pdf文件的内容

作者:互联网

因此,我有一个.pdf文件,我需要能够确定它是否是通过扫描为PDF而创建的.我正在尝试确定它是否是pdf文件,我可以将其显示为文本.

我有PHP& Zend可供我使用.
我想我可能可以使用Zend的

$pdf->properties['Producer']

但我不确定100%.

有什么办法可以确保我正在处理哪种.pdf文件?

解决方法:

对我来说听起来很难.周围有成千上万个不同的“生产者” ID,其中许多都支持从任何类型的源(无论是通过扫描,来自传真,文字处理机还是其他方式)生成PDF.创建PDF文件的方法有很多,您将永远无法追溯到哪里.

如果要确定是否可以将其显示为文本,为什么不尝试从中提取一些实际的文本呢?如果已扫描(或任何其他类型的嵌入式图像),则该文本应该没有或只有很少的文本内容.但是,随后有OCR程序创建了扫描的PDF,并且该文件还带有机器可读的文本.您想如何处理?

您的最终目标是什么?

标签:zend-pdf,zend-framework,php
来源: https://codeday.me/bug/20191210/2100120.html