HTML网页解析提取工具lxml和XPath

文章内容如有错误或排版问题，请提交反馈，非常感谢！

在数据抓取过程中，经常遇到需要解析HTML中的内容，常用的是用正则表达式，今天主要介绍lxml工具及xpath的语法。

lxml简介

lxml是一款高性能Python XML库，它天生支持XPath 1.0、XSLT 1.0、定制元素类，甚至Python风格的数据绑定接口。它构建在两个C库之上：libxml2和libxslt。它们为执行解析、序列化和转换等核心任务提供了主要动力。Linux环境下安装相对简单，只需执行pip install lxml即可。

lxml在Windows下的安装

在Windows下安装Scrapy时也会遇到lxml无法安装问题。报如下信息错误：

‘xslt-config’不是内部或外部命令，也不是可运行的程序或批处理文件

没有找到VC编译器而无法安装，取代方法

解决方案，到https://www.lfd.uci.edu/~gohlke/pythonlibs/下载与安装编译好的二进制包。

lxml用法

首先我们利用它来解析HTML代码，先来一个小例子来感受一下它的基本用法：

from lxml import etree
text='''
<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
<br>
</ul>
</div>
'''
html = etree.HTML(text)
result = etree.tostring(html)
print(result)

首先我们使用lxml的etree库，然后利用etree.HTML初始化，然后我们将其打印出来。这里体现了lxml的一个非常实用的功能就是自动修正html代码，lxml因为继承了libxml2的特性，具有自动修正HTML代码的功能。所以输出结果：

<html><body><div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
<br/>
</li></ul>
</div>
</body></html>

不仅补全了li标签，修改了br标签，还添加了body，html标签。

除了直接读取字符串，还支持从文件读取内容。利用parse方法来读取文件：

from lxml import etree

html = etree.parse('test.html')
result = etree.tostring(html)
print(result)

可以得到相同的结果。

在lxml中使用xpath（具体xpath是什么下面会详细介绍）非常的简单，如下：

from lxml import etree

text='''
<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
<br>
</ul>
</div>
'''
html = etree.HTML(text)
result = html.xpath('//li/a/text()')
print(result)

输出结果为：

['first item', 'second item', 'third item', 'fourth item', 'fifth item']

xpath简介

XPath是一门在XML文档中查找信息的语言。XPath可用来在XML文档中对元素和属性进行遍历。XPath是W3C XSLT标准的主要元素，并且XQuery和XPointer都构建于XPath表达之上。

XPath使用路径表达式在XML文档中选取节点。节点是通过沿着路径或者step来选取的。下面列出了最有用的路径表达式：

表达式	描述
nodename	选取此节点的所有子节点。
/	从根节点选取。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.	选取当前节点。
..	选取当前节点的父节点。
@	选取属性。

下面的表格中，我们已列出了一些路径表达式以及表达式的结果：

路径表达式
bookstore	选取 bookstore 元素的所有子节点。
/bookstore	选取根元素 bookstore。注释：假如路径起始于正斜杠(/)，则此路径始终代表到某元素的绝对路径！
bookstore/book	选取属于 bookstore 的子元素的所有 book 元素。
//book	选取所有 book 子元素，而不管它们在文档中的位置。
bookstore//book	选择属于 bookstore 元素的后代的所有 book 元素，而不管它们位于 bookstore 之下的什么位置。
//@lang	选取名为 lang 的所有属性。

谓语用来查找某个特定的节点或者包含某个指定的值的节点。谓语被嵌在方括号中。在下面的表格中，我们列出了带有谓语的一些路径表达式，以及表达式的结果：

路径表达式	结果
/bookstore/book[1]	选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()]	选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1]	选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()<3]	选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang]	选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang=’eng’]	选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00]	选取 bookstore 元素的所有 book 元素，且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]/title	选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

XPath 通配符可用来选取未知的 XML 元素。

通配符	描述
*	匹配任何元素节点。
@*	匹配任何属性节点。
node()	匹配任何类型的节点。

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

路径表达式	结果
/bookstore/*	选取 bookstore 元素的所有子元素。
//*	选取文档中的所有元素。
//title[@*]	选取所有带有属性的 title 元素。

通过在路径表达式中使用”|”运算符，您可以选取若干个路径。在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

路径表达式	结果
//book/title\|//book/price	选取 book 元素的所有 title 和 price 元素。
//title\|//price	选取文档中的所有 title 和 price 元素。
/bookstore/book/title\|//price	选取属于 bookstore 元素的 book 元素的所有 title 元素，以及文档中所有的 price 元素。

下面列出了可用在 XPath 表达式中的运算符：

运算符	描述	实例	返回值
\|	计算两个节点集	//book\|//cd	返回所有拥有 book 和 cd 元素的节点集
+	加法	6+4	10
–	减法	6–4	2
*	乘法	6*4	24
div	除法	8 div 4	2
=	等于	price=9.80	如果 price 是 9.80，则返回 true。如果 price 是 9.90，则返回 false。
!=	不等于	price!=9.80	如果 price 是 9.90，则返回 true。如果 price 是 9.80，则返回 false。
<	小于	price<9.80	如果 price 是 9.00，则返回 true。如果 price 是 9.90，则返回 false。
<=	小于或等于	price<=9.80	如果 price 是 9.00，则返回 true。如果 price 是 9.90，则返回 false。
>	大于	price>9.80	如果 price 是 9.90，则返回 true。如果 price 是 9.80，则返回 false。
>=	大于或等于	price >= 9.80	如果price是9.90，则返回true。如果price是9.70，则返回false。
or	或	price = 9.80 or price = 9.70	如果price是9.80，则返回true。如果price是9.50，则返回false。
and	与	price > 9.00 and price < 9.90	如果price是9.80，则返回true。如果price是8.50，则返回false。
mod	计算除法的余数	5 mod 2	1

HTML网页解析提取工具lxml和XPath

lxml简介

lxml用法

xpath简介

Node.Js 版本管理工具nvm-windows

Win 11安装部署OpenClaw教程

国内外编程OJ网站整理

发表回复取消回复

HTML网页解析提取工具lxml和XPath

lxml简介

lxml用法

xpath简介

Node.Js 版本管理工具nvm-windows

Win 11安装部署OpenClaw教程

国内外编程OJ网站整理

发表回复 取消回复

发表回复取消回复