May14, 2026

XPath 选择器

XPath 选择器是一种结构化查询表达式，允许程序识别并提取 HTML 或 XML 文档中的特定节点。

定义

XPath 选择器利用 XML 路径语言遍历文档的分层树状结构，并根据标签、属性、文本内容或位置定位元素。它将网页视为嵌套结构，使开发者能够向上、向下或横向遍历 DOM 以精确定位元素。XPath 常用于网络爬虫和自动化工具中，当 CSS 选择器无法满足需求时，可用于提取数据或与元素交互。由于可以引用父节点和兄弟节点关系并根据复杂条件过滤，XPath 在标识符不一致或结构动态变化的页面中特别有用。然而，如果底层 HTML 频繁变化，复杂的 XPath 表达式可能会变得脆弱。

优点

可以向上和向下遍历文档树，实现灵活的元素定位
支持基于文本和属性的选择，实现精确提取
当 CSS 选择器无法表达复杂关系时非常有用
与 Selenium 和 Scrapy 等爬虫和自动化库兼容

缺点

语法比 CSS 选择器更冗长且更难阅读
页面 HTML 结构变化时表达式容易失效
在大型文档中性能可能落后于简单选择器类型
对不熟悉树状结构遍历逻辑的初学者来说学习曲线更陡峭

使用场景

从类名和 ID 不一致的页面中提取产品详情
在 Selenium 等测试框架中自动化浏览器操作
抓取需要父级或兄弟级上下文的层级数据
定位缺乏稳定属性的文本丰富元素