编程语言
首页 > 编程语言> > python – 如何使用Universal Feed Parser删除html标签?

python – 如何使用Universal Feed Parser删除html标签?

作者:互联网

该文档列出了默认允许/删除的标记:

http://www.feedparser.org/docs/html-sanitization.html

但它没有说明如何指定要删除的其他标签.

有没有办法使用Universal Feed Parser进行此操作,或者您是否需要使用自己的正则表达式和/或类似美丽的汤进行进一步处理?

解决方法:

我快速查看了代码,我认为没有办法直接覆盖它们.但是您可以覆盖feedparser._HTMLSanitizer.acceptable_elements,这是在执行feedparser.parse之前不会删除的标记列表

标签:python,django,parsing,feeds
来源: https://codeday.me/bug/20190827/1743569.html