其他分享
首页 > 其他分享> > html解析库BeautifulSoup

html解析库BeautifulSoup

作者:互联网

安装:

apt  install python-bs4

pip install beautifulsoup4

下载源码:https://pypi.python.org/pypi/beautifulsoup4/  之后使用python  setup.py install安装

 

apt  install python-lxml

easy_install  lxml

pip install  lxml

 

apt  install  python-html5lib

easy_install  html5lib

pip  install  html5lib

 

解析器比较

解析器使用方法优势

劣势

python标准库BeautifulSoup(markup,"html.parser")

python的内置标准库

执行速度适中

文档容错能力强

python2.7.3或者3.2.2之前的版本文档容错能力差
lxml  html解析器BeautifulSoup(markup,"lxml")

速度快

文档容错能力强

需要安装C语言库
lxml html解析器

BeautifulSoup(markup,["lxml","xml"])

BeautifulSoup(markup,"xml")

速度快

唯一支持xml的解析器

需要安装C语言库
html5libBeautifulSoup(markup,"html5lib")

最好的容错性

以浏览器的方式解析文档

生成html5格式文档

速度慢

不依赖外部扩展

来源:python爬虫开发与项目实战

 

 

标签:解析器,lxml,python,markup,BeautifulSoup,html,install,解析
来源: https://blog.csdn.net/linuxvfast/article/details/117623423