其他分享
首页 > 其他分享> > 信息提取的一般方法

信息提取的一般方法

作者:互联网

方法一

完整解析信息的标记形式,再提取关键信息
需要标记解析器(bs4库的标签树遍历)
优点:信息解析准确
缺点:提取过程繁琐,速度慢

方法二

无视标记形式,直接搜索关键信息
对信息的文本查找函数即可
优点:提取过程简洁,速度较快
缺点:提取结果准确性与信息内容相关

融合方法

结合形式解析与搜索方法,提取关键信息
需要标记解析器及文本查找函数

实例

提取HTML中所有URL链接

思路:1.搜索到所有的标签
2.解析a标签格式,提取href后的链接内容

#获取demo源代码
import requests
r=requests.get("页面链接")
r.text
demo=r.text
from bs4 import BeautifulSoup
soup=BeautifulSoup(demo,"html.parser")
#获取页面所有url
for link in soup.find_all('a'):
    print(link.get('href'))

标签:提取,标记,demo,一般,信息,信息提取,标签,解析,方法
来源: https://www.cnblogs.com/flyall/p/16252563.html