编程语言
首页 > 编程语言> > Python Goose无法提取日期

Python Goose无法提取日期

作者:互联网

我正在使用Python Goose.你可以在this link找到它

我想提取已发布的日期,但是当我运行时:

g = Goose()
entity = g.extract(url="mylink")
date = entity.publish_date

我有结果没有

我在许多网站上尝试过它,结果是无

有什么建议?

解决方法:

我刚刚查看了源代码的相关部分:crawler.py
publish_date提取目前已被注释掉

# TODO
# article.publish_date = config.publishDateExtractor.extract(doc)

进一步检查发现,如果您取消注释上述行,您将能够定义自定义日期提取器.但是,Goose中没有实现默认日期提取器.请参阅此方法:https://github.com/grangier/python-goose/blob/master/goose/configuration.py中的set_publishdate_extractor

标签:python,goose
来源: https://codeday.me/bug/20190709/1408146.html