html解析器python
作者:互联网
我正在尝试解析一个网站.我正在使用HTMLParser模块.问题是我想解析第一个< a href =“”>评论之后:<!-/ topOfPage-> ;,但我真的不知道该怎么做.因此,我在文档中发现有一个称为handle_comment的函数,但是我还没有找到如何正确使用它的方法.我有以下几点:
import HTMLParser
class LinkFinder(HTMLParser.HTMLParser):
def __init__(self, *args, **kwargs):
# Can't use super() - HTMLParser is an old-style class
HTMLParser.HTMLParser.__init__(self, *args, **kwargs)
self.in_linktag = False
self.url_cache = []
def handle_comment(self,data):
if data == "topOfPage":
print data
def handle_starttag(self, tag, attrs):
if tag == "a" and any("href" == t[0] for t in attrs): # found link
self.in_linktag = True
self.url_cache.append([dict(attrs)['href']])
def handle_endtag(self, tag):
if tag == "a" and self.in_linktag: # ignore '<a name=""...'
self.in_linktag = False
def handle_data(self, data):
if self.in_linktag:
self.url_cache[-1].append(data)
TESTDATA = """
< html>
< body>
< div>
< ul>
< !-- /topOfPage -->
< tr >
< td class="empty-cell-left"> </td>
< td class="image">
< a href="http://test" rel="nofollow">
< ul>
< /div>
< /body>
< /html>
"""
def main():
lf = LinkFinder()
lf.feed(TESTDATA)
lf.close()
print lf.url_cache
if __name__ == "__main__":
main()
怎么做?
解决方法:
您需要一个附加变量来指示解析器刚刚到达注释,以便您可以保存引用后的第一个链接中的引用.
def __init__(self, *args, **kwargs):
# ...
self.first_link_after_comment = False
然后,当您遇到评论时,必须切换标志.
def handle_comment(self, data):
if data.strip() == '/topOfPage':
self.first_link_after_comment = True
处理开始标记时,如果解析未超过注释,则要确保使其通过
def handle_starttag(self, tag, attrs):
if not self.first_link_after_comment:
return
# ...
相反,当您处理结束标签时,您想确认任务已经完成.
def handle_endtag(self, tag):
if tag == 'a' and self.in_linktag: # ignore '<a name=""...'
self.in_linktag = False
self.first_link_after_comment = False
最后,当您追加数据时,只需确保它不仅是一个空字符串或仅包含空格.
def handle_data(self, data):
if self.in_linktag and data.strip():
self.url_cache[-1].append(data)
你在这里.
$your_script.py
[['http://test']]
标签:html-parsing,python 来源: https://codeday.me/bug/20191202/2086186.html