在 Python 中使用 icode9-PDF
作者:互联网
什么叫PDF?
解决PDF文档和处理别的格式文件不一样。APortableDocumentFormat(PDF)是一种二进制文件文件格式,能够利用计算机载入。它最开始由Adobe建立,目前是由国际标准化组织(ISO)管理工作的开放标准。PDF文档不单单是文字的结合;而且也是二进制格式数据集合。数据信息能是一切文件格式,包含文字、图象、报表和媒体工具,如声频视频。可是,它无法被改动。这是存放文本文档的兴起文件格式,因为他便于分享或打印出。相关详细资料,客户程序相关PDF格式wiki百科文章内容。
设定
我假定Python早已组装在您的设备上。要是没有,请转至官网并免费下载。你需要2个库去处理PDF文档。第一个是PyPDF2,一个用以载入和调整PDF文件信息Python库。第二个是用以建立PDF文件信息FPDF。PyPDF2是解决目前PDF文档的优质程序包,但是你不能使用它建立一个新的PDF文档。你将应用FPDF建立一个新的PDF文档。
留意:假如你采用的是Python2,你能应用PyPDF(旧版的PyPDF2)。在这篇文章中,我们将应用PyPDF2和Python3,虽然大家可以应用PyPDF2或PyPDF4。它们都做同样的事,而且与Python3适配。仅需掉换导进句子就可以。
使我们逐渐此组装。使用pip或conda 组装PyPDF2和FPDF(如果你采用的是Anaconda)。
pipinstallpypdf2fpdf2
大家可以应用下列指令查验组装。
$pipshowpypdf2fpdf
Name:PyPDF2
Version:1.26.0
Summary:PDFtoolkit
Home-page:http://mstamy2.github.com/PyPDF2
Author:MathieuFenniak
Author-email:biziqe@mathieu.fenniak.netLicense:UNKNOWN
Location:c:\\users\\giri\\python3.9\\lib\\site-packages
Requires:
Required-by:
---
Name:fpdf
Version:1.7.2
Summary:SimplePDFgenerationforPython
Home-page:http://code.google.com/p/pyfpdf
Author:OlivierPLATHEYportedbyMax
Author-email:maxpat78@yahoo.it
License:LGPLv3+
Location:c:\\users\\giri\\python3.9\\lib\\site-packages
Requires:
Required-by:
迅速表明:你可以在这里寻找编码的一体化文件目录与工作实例。
解决PDF文档
那你现在早已装上PyPDF2和FPDF,让我们开始吧。最先,使我们看一下获取相关PDF文件信息信息内容。大家可以应用PyPDF2的PdfFileReader类。它容许您阅读文章PDF文件信息具体内容。此方法以词典的方式回到PDF文件信息数据库。除此之外,该函数公式回到PDF文档中的总页数。大家可以应用此信息内容对当前PDF文档实行各种各样自动化技术每日任务(如依据页码或创作者数排列等)。getDocumentInfoPdfFileReadergetNumPages
pdf_info.py
##Import
fromPyPDF2importPdfFileReader
##Setup
pdf=PdfFileReader(open('pdf_path',"rb"))
info=pdf.getDocumentInfo()
number_of_pages=pdf.getNumPages()
##Extractinginformation
pdf_info=f"""
Informationabout{info.title}:
Author:{info.author}
Creator:{info.creator}
Producer:{info.producer}
Subject:{info.subject}
Title:{info.title}
Numberofpages:{number_of_pages}
"""
print(pdf_info)
大家可以见到具体如下的导出:
InformationaboutTestPDF:
Author:Giridhar
Creator:Honeybadger
Producer:PyFPSF1.7.2http://pyfpdf.googlecode.com/
Subject:TestPDFcreatedusingPyPDF2
Title:TestPDF
Numberofpages:1
您可以参考一下文本文档掌握全部不一样的方式和主要参数。