如何在 Python 中验证PDF、Excel 和 MS Word 文档类型
作者:互联网
文档验证 API
本文的目的是重点介绍三种 API 解决方案,它们可用于验证各种文档处理应用程序中三种独立且极为常见的文档类型:PDF、Excel XLSX 和Microsoft Word DOCX。这些 API 都可以免费使用,需要一个免费的 API 密钥和几行代码(下面以Python 格式提供)为了您的方便)致电他们的服务。虽然验证上面列出的每种文档类型的过程是唯一的,但每个 API 提供的响应主体都是标准化的,这使得识别是否在每种文档类型中发现错误以及如果是,与该错误相关的警告变得高效和直接. 下面,我将快速概述上述每个文档验证 API 响应中提供的一般信息:
DocumentIsValid
– 此响应包含一个简单的布尔值,指示所讨论的文档是否基于其编码有效。PasswordProtected
– 此响应提供一个布尔值,指示所讨论的文档是否包含密码保护(如果意外,则可能表明存在潜在的安全威胁)。ErrorCount
– 此响应提供一个整数,反映在相关文档中检测到的错误数量。WarningCount
– 此响应指示 API 响应产生的警告数,与错误计数无关。ErrorsAndWarnings
– 此响应类别包括有关文档中识别的每个错误的更多详细信息,包括错误描述、错误路径、错误 URI(统一资源标识符,例如 URL 或 URN)和IsError
布尔值。
示范
要使用上面提到的三个 API 中的任何一个,第一步是使用pip
下面提供的命令安装 Python SDK:
pip install cloudmersive-convert-api-client
安装完成后,我们可以将注意力转向调用每个 API 服务的各个函数。
要调用 PDF 验证 API,我们可以使用以下代码:
Python1、从 __future__ 导入 print_function
2、导入 时间
3、导入 cloudmersive_convert_api_client
4、来自 cloudmersive_convert_api_client。休息 导入 ApiException
5、从 pprint 导入 pprint
6
7、# 配置API密钥授权:Apikey
8、配置= cloudmersive_convert_api_client。配置()
9、配置。api_key [ 'Apikey' ] = 'YOUR_API_KEY'
10
11
12
13、# 创建 API 类的实例
14、api_instance = cloudmersive_convert_api_client。ValidateDocumentApi(cloudmersive_convert_api_client.ApiClient (配置))_
15、input_file = '/path/to/inputfile' # 文件 | 要对其执行操作的输入文件。
16
17、尝试:
18、# 验证 PDF 文档文件
19、api_response = api_instance。validate_document_pdf_validation (输入文件)
20、pprint ( api_response )
21、除了 ApiException 作为 e:
22、print ( "调用 ValidateDocumentApi->validate_document_pdf_validation 时出现异常: %s\n" % e )
要调用 Microsoft Excel XLSX 验证 API,我们可以改用以下代码:
Python1、从 __future__ 导入 print_function
2、导入 时间
3、导入 cloudmersive_convert_api_client
4、来自 cloudmersive_convert_api_client。休息 导入 ApiException
5、从 pprint 导入 pprint
6、的
7、# 配置API密钥授权:Apikey
8、配置= cloudmersive_convert_api_client。配置()
9、配置。api_key [ 'Apikey' ] = 'YOUR_API_KEY'
10
11
12
13、# 创建 API 类的实例
14、api_instance = cloudmersive_convert_api_client。ValidateDocumentApi(cloudmersive_convert_api_client.ApiClient (配置))_
15、input_file = '/path/to/inputfile' # 文件 | 要对其执行操作的输入文件。
16
17、尝试:
18、# 验证 Excel 文档 (XLSX)
19、api_response = api_instance。validate_document_xlsx_validation (输入文件)
20、pprint ( api_response )
21、除了 ApiException 作为 e:
22、print ( "调用 ValidateDocumentApi->validate_document_xlsx_validation 时出现异常: %s\n" % e )
最后,要调用 Microsoft Word DOCX 验证 API,我们可以使用下面提供的最终代码片段:
Python1、从 __future__ 导入 print_function
2、导入 时间
3、导入 cloudmersive_convert_api_client
4、来自 cloudmersive_convert_api_client。休息 导入 ApiException
5、从 pprint 导入 pprint
6、的
7、# 配置API密钥授权:Apikey
8、配置= cloudmersive_convert_api_client。配置()
9、配置。api_key [ 'Apikey' ] = 'YOUR_API_KEY'
10
11
12
13、# 创建 API 类的实例
14、api_instance = cloudmersive_convert_api_client。ValidateDocumentApi(cloudmersive_convert_api_client.ApiClient (配置))_
15、input_file = '/path/to/inputfile' # 文件 | 要对其执行操作的输入文件。
16、
17、尝试:
18、# 验证 Word 文档 (DOCX)
19、api_response = api_instance。validate_document_docx_validation (输入文件)
20、pprint ( api_response )
21、除了 ApiException 作为 e:
22、print ( "调用 ValidateDocumentApi->validate_document_docx_validation 时出现异常: %s\n" % e )
请注意,虽然这些 API 在其文档验证过程中确实提供了一些基本的安全优势(即识别文件上的意外密码保护,这是通过网络偷偷窃取恶意文件的常用方法- 密码可以提供给毫无戒心的下游用户),它们不构成完整的安全 API,例如那些专门寻找隐藏在文件中的病毒、恶意软件和其他形式的恶意内容的 API。在进入或离开您的文件存储系统之前,应始终通过特定的安全相关服务(即带有病毒和恶意软件签名的服务)对任何文档(尤其是来自内部网络之外的文档)进行彻底审查。
标签:python文件安全性验证,PDF文档验证,Excel文件验证,MSWord 来源: