其他分享
首页 > 其他分享> > 如何在 Python 中验证PDF、Excel 和 MS Word 文档类型

如何在 Python 中验证PDF、Excel 和 MS Word 文档类型

作者:互联网

随着互联网的普及,使用互联网进行文档传送、共享已经成为了各行各业的基本操作,随之而来的就是各种文档安全性、完整性问题,今天我们介绍一个能够在python中使用的api,用于很方便的帮助我们在接收文件时进行完整性、安全性、合规性的检测。该api是免费的,大家快跟随icode9小编一起来看看吧
 

文档验证 API

本文的目的是重点介绍三种 API 解决方案,它们可用于验证各种文档处理应用程序中三种独立且极为常见的文档类型:PDF、Excel XLSX 和Microsoft Word DOCX。这些 API 都可以免费使用,需要一个免费的 API 密钥和几行代码(下面以Python 格式提供)为了您的方便)致电他们的服务。虽然验证上面列出的每种文档类型的过程是唯一的,但每个 API 提供的响应主体都是标准化的,这使得识别是否在每种文档类型中发现错误以及如果是,与该错误相关的警告变得高效和直接. 下面,我将快速概述上述每个文档验证 API 响应中提供的一般信息:

示范

要使用上面提到的三个 API 中的任何一个,第一步是使用pip下面提供的命令安装 Python SDK:

pip install cloudmersive-convert-api-client

安装完成后,我们可以将注意力转向调用每个 API 服务的各个函数。  

要调用 PDF 验证 API,我们可以使用以下代码:

Python
1、 __future__ 导入 print_function
2、导入 时间

3、导入 cloudmersive_convert_api_client
4、来自 cloudmersive_convert_api_client休息 导入 ApiException
5、 pprint 导入 pprint
6
7、# 配置API密钥授权:Apikey

8、配置= cloudmersive_convert_api_client配置()
9、配置api_key [ 'Apikey' ] = 'YOUR_API_KEY'
10
11
12
13、# 创建 API 类的实例
14、api_instance = cloudmersive_convert_api_clientValidateDocumentApicloudmersive_convert_api_client.ApiClient 配置))_

15、input_file = '/path/to/inputfile' # 文件 | 要对其执行操作的输入文件。
16
17、尝试

18、# 验证 PDF 文档文件
19、api_response = api_instancevalidate_document_pdf_validation (输入文件)
20、pprint ( api_response )
21、除了 ApiException 作为 e
22print ( "调用 ValidateDocumentApi->validate_document_pdf_validation 时出现异常: %s\n" % e )

要调用 Microsoft Excel XLSX 验证 API,我们可以改用以下代码:

Python
1、 __future__ 导入 print_function
2、导入 时间
3、导入 cloudmersive_convert_api_client
4、来自 cloudmersive_convert_api_client休息 导入 ApiException
5、 pprint 导入 pprint
6、
7、# 配置API密钥授权:Apikey
8、配置= cloudmersive_convert_api_client配置()
9、配置api_key [ 'Apikey' ] = 'YOUR_API_KEY'
10
11
12
13、# 创建 API 类的实例
14、api_instance = cloudmersive_convert_api_clientValidateDocumentApicloudmersive_convert_api_client.ApiClient 配置))_
15、input_file = '/path/to/inputfile' # 文件 | 要对其执行操作的输入文件。
16
17、尝试
18、# 验证 Excel 文档 (XLSX)
19、api_response = api_instancevalidate_document_xlsx_validation (输入文件)
20、pprint ( api_response )
21、除了 ApiException 作为 e
22
print ( "调用 ValidateDocumentApi->validate_document_xlsx_validation 时出现异常: %s\n" % e )

最后,要调用 Microsoft Word DOCX 验证 API,我们可以使用下面提供的最终代码片段:

Python
1、 __future__ 导入 print_function
2、导入 时间
3、导入 cloudmersive_convert_api_client
4、来自 cloudmersive_convert_api_client休息 导入 ApiException
5、 pprint 导入 pprint
6、
7、# 配置API密钥授权:Apikey
8、配置= cloudmersive_convert_api_client配置()
9、配置api_key [ 'Apikey' ] = 'YOUR_API_KEY'
10
11
12
13、# 创建 API 类的实例
14、api_instance = cloudmersive_convert_api_clientValidateDocumentApicloudmersive_convert_api_client.ApiClient 配置))_
15、input_file = '/path/to/inputfile' # 文件 | 要对其执行操作的输入文件。
16、
17、尝试
18、# 验证 Word 文档 (DOCX)
19、api_response = api_instancevalidate_document_docx_validation (输入文件)
20、pprint ( api_response )
21、除了 ApiException 作为 e
22
print ( "调用 ValidateDocumentApi->validate_document_docx_validation 时出现异常: %s\n" % e )

请注意,虽然这些 API 在其文档验证过程中确实提供了一些基本的安全优势(即识别文件上的意外密码保护,这是通过网络偷偷窃取恶意文件的常用方法- 密码可以提供给毫无戒心的下游用户),它们不构成完整的安全 API,例如那些专门寻找隐藏在文件中的病毒、恶意软件和其他形式的恶意内容的 API。在进入或离开您的文件存储系统之前,应始终通过特定的安全相关服务(即带有病毒和恶意软件签名的服务)对任何文档(尤其是来自内部网络之外的文档)进行彻底审查。

标签:python文件安全性验证,PDF文档验证,Excel文件验证,MSWord
来源: