其他分享
首页 > 其他分享> > 解析库的使用

解析库的使用

作者:互联网

ch4. 解析库的使用

使用pyquery

1. 基本方法

from pyquery import PyQuery as pq
doc = pq(html)
print(doc)

PyQuery对象可以接受的参数有

PyQuery对象用于后续的进行选择、筛选等操作

2. CSS选择器

用于解析的html格式的字符串html

html = '''
<div class = "wrap">
<div id = "container">
<ul class = "list">
<li class = "item-1"><a href = "link2.html">second item</a></li?
<li class = "item-0 active"><a href = "link3.html"><span class = "bold">third item</span></a></li>
<li class = "item-1 active"><a href = link4.html"><forth item</a></li>
<li class = "item-0"><a href = "link5.html">fifth item</a></li>
</ul>
</div>
</div>
'''	
from pyquery import PyQuery as pq
doc = pq(html)
doc('#container .list li')
print(doc)

3. 查找结点的函数

其中括号中传入的参数仍为CSS选择器的语法,即仍为:doc('#container .list li')

4. 结合选择器进行遍历

在查询结果不止一条时,需要通过遍历来完成更高的操作要求。

doc = pq(html)
lis = doc('li').items()
for aNode in lis:
    print(aNode)

5. 对查询结果进行进一步的操作

​ 可以进行的操作包括

1. 获取属性
2. 获取文本
3. 移除/添加class
4. 对节点内容修改、添加与删除

标签:pq,name,doc,item,html,使用,解析,节点
来源: https://www.cnblogs.com/dysonxxxxx/p/16581937.html