首页 > 其他分享> > XPath语法和lxml模块

XPath语法和lxml模块

2022-05-08 02:32:05 作者：互联网

什么是XPath？

xpath（XML Path Language）是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。

Chrome插件XPath Helper。

安装方法：

Firefox插件Try XPath。

在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。

使用//获取整个页面当中的元素，然后写标签名，然后在写谓语进行提取，比如：

//title[@lang='en']

//标签[@属性名='属性值']

# 如果想获取html标签下的body标签

html/body

只要book标签带有属性都可以通过//book[@*]匹配到

通过在路径表达式中使用|运算符，可以选取若干个路径

# 选取所有book元素以及book元素下所有的title元素

//bookstore/book|//book/title

/和//的区别：/代表只获取子节点，//获取子孙节点，一般//用的比较多，当然也要视情况而定
contains：有时候某个属性中包含了多个值，那么可以使用contains函数，示例如下：
```
//title[contains(@lang,'en')]
```
谓词中下标是从1开始的，不是从0开始的

lxml 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。
lxml和正则一样，也是用 C 实现的，是一款高性能的 Python HTML/XML 解析器，我们可以利用之前学习的XPath语法，来快速的定位特定元素以及节点信息。

标签：XPath,lxml,li,item,html,result,模块,print
来源： https://www.cnblogs.com/haiqinai/p/16244697.html