编程语言
首页 > 编程语言> > 使用Python,如何从Google文档读取纯文本?

使用Python,如何从Google文档读取纯文本?

作者:互联网

我正在尝试从Python脚本中读取Google Doc的原始文本/内容(只是一个普通文档,而不是电子表格或演示文稿),但到目前为止收效甚微.

这是我尝试过的:

import gdata.docs.service
client = gdata.docs.service.DocsService()
client.ClientLogin('email', 'password')
q = gdata.docs.service.DocumentQuery()
q.AddNamedFolder('email', 'Folder Name')
feed = client.Query(q.ToUri())
doc = feed.entry[0] # extract one of the documents

但是,此变量doc的类型为gdata.docs.DocumentListEntry,似乎不包含任何内容,而只是包含有关文档的元信息.

我在这里做错什么了吗?有人可以指出我正确的方向吗?谢谢!

解决方法:

DocumentQuery不会返回所有带有其内容的文档,这将是永远的.它只是返回文档列表,以及每个文档的元数据. (实际上,IIRC您可以通过这种方式获得预览页,因此,如果您的文档只有一页就足够了……)

然后,您需要在单独的请求中下载内容. content元素具有一个类型(MIME类型)和一个src(指向实际数据的URL).您可以下载该src并进行解析.但是,您可以通过添加exportFormat参数来覆盖默认类型,因此您无需执行任何解析.

请参阅文档中的Downloading documents and files部分,其中有一个示例,显示了如何下载文档并指定格式. (它在.NET中而不是Python中,并且使用HTML而不是纯文本,但是您应该能够弄清楚它.)

标签:download,google-docs,google-docs-api,python
来源: https://codeday.me/bug/20191031/1974640.html