深入理解 XPath:XML 和 HTML 文档的利器
XPath(XML Path Language)是一种用于在 XML 和 HTML 文档中定位节点的语言。它常用于 XML 解析、Web 数据抓取(如 Selenium 或 Scrapy)以及配置文件解析。本文将带你深入了解 XPath 的语法、功能及其在实际中的应用。
目录
- 一、什么是 XPath?
- XPath 的核心概念:
- 二、XPath 的基本语法
- 1. **绝对路径和相对路径**
- 2. **通配符**
- 3. **谓词**
- 4. **轴(Axes)**
- 三、常用函数
- 1. **字符串函数**
- 2. **数值函数**
- 四、XPath 实战案例
- 1. **提取 HTML 页面中的特定数据**
- 2. **使用 Selenium 自动化抓取**
- 五、XPath 的优化技巧
- 1. **避免绝对路径**
- 2. **利用唯一属性**
- 3. **减少层级嵌套**
- 六、XPath 与 CSS 选择器的对比
- 七、总结
一、什么是 XPath?
XPath 是 W3C 标准的一部分,主要用于在 XML 和 HTML 文档中通过路径表达式导航。它支持强大的查询功能,可以通过标签、属性、文本内容等多种方式快速定位节点。
XPath 的核心概念:
- 节点:文档的基本构成,包括元素节点、属性节点、文本节点等。
- 路径:用类似文件系统路径的方式表示节点的位置。
- 谓词:通过条件筛选节点。
二、XPath 的基本语法
XPath 使用路径表达式来选择节点。以下是一些常用的表达式和用法:
1. 绝对路径和相对路径
-
绝对路径:以
/开头,从根节点开始选择。/html/body/div匹配从根节点到
div的完整路径。 -
相对路径:以
//开头,从任意位置匹配符合条件的节点。//div匹配文档中所有的
div节点。
2. 通配符
*:匹配任意节点。/html/body/* # 匹配 body 下的所有子节点@*:匹配任意属性。//div[@*] # 匹配具有任意属性的 div 节点
3. 谓词
谓词使用 [] 表示,用于过滤节点。
- 按索引匹配:
//div[1] # 匹配第一个 div 节点 - 按属性匹配:
//div[@class='content'] # 匹配 class 属性为 'content' 的 div 节点 - 按文本内容匹配:
//div[text()='Hello World'] # 匹配内容为 'Hello World' 的 div 节点
4. 轴(Axes)
轴用于指定节点的关系,如父节点、兄弟节点、子节点等。
parent:选择父节点。//div/parent::bodychild:选择子节点。/html/body/child::divfollowing-sibling:选择后续兄弟节点。//div/following-sibling::p
三、常用函数
XPath 提供了许多函数,用于进一步处理节点和属性:
1. 字符串函数
contains:检查是否包含子字符串。//div[contains(@class, 'header')]starts-with:检查是否以某字符串开头。//div[starts-with(@id, 'main')]substring:提取子字符串。//div[substring(@id, 1, 4) = 'main']
2. 数值函数
position:返回节点的索引。//li[position()=2] # 匹配第二个 li 节点last:返回最后一个节点的索引。//li[last()]
四、XPath 实战案例
1. 提取 HTML 页面中的特定数据
假设我们有以下 HTML 结构:
<div class="product"><p class="name">iPhone 15</p><p class="price">$999</p>
</div>
使用 XPath,我们可以轻松提取产品名称和价格:
- 产品名称:
//div[@class='product']/p[@class='name']/text() - 产品价格:
//div[@class='product']/p[@class='price']/text()
2. 使用 Selenium 自动化抓取
在 Selenium 中使用 XPath,可以快速定位和操作元素:
from selenium import webdriverdriver = webdriver.Chrome()
driver.get('https://example.com')# 定位元素
product_name = driver.find_element(By.XPATH, "//p[@class='name']").text
print(product_name)
五、XPath 的优化技巧
1. 避免绝对路径
绝对路径容易因页面结构变化而失效,建议优先使用相对路径:
//div[@class='content']//a[text()='Learn More']
2. 利用唯一属性
优先选择具有唯一标识(如 id)的元素:
//*[@id='unique-id']
3. 减少层级嵌套
尽量简化路径层级,避免多余的节点:
//div[contains(@class, 'header')]/a
六、XPath 与 CSS 选择器的对比
| 功能 | XPath | CSS 选择器 |
|---|---|---|
| 精准定位属性 | //div[@class='content'] | div.content |
| 子节点定位 | //div/child::p | div > p |
| 支持兄弟节点关系 | //div/following-sibling::p | 不支持 |
| 支持逆向选择 | //p/parent::div | 不支持 |
| 文本内容筛选 | //div[text()='Hello'] | 不支持 |
XPath 功能强大,但语法相对复杂;CSS 选择器简单直观,但功能有限。
七、总结
XPath 是处理 XML 和 HTML 数据的强大工具,其灵活的路径表达式和丰富的函数支持使其成为 Web 抓取和自动化测试的核心技术之一。在实际应用中,熟练掌握 XPath 的基本语法和函数,并根据场景选择最佳策略,可以极大提升效率。
希望本文对你理解和使用 XPath 提供了帮助!
相关文章:
深入理解 XPath:XML 和 HTML 文档的利器
XPath(XML Path Language)是一种用于在 XML 和 HTML 文档中定位节点的语言。它常用于 XML 解析、Web 数据抓取(如 Selenium 或 Scrapy)以及配置文件解析。本文将带你深入了解 XPath 的语法、功能及其在实际中的应用。 目录 一、什…...
DDR5 中的数据反馈判决均衡(DFE):全面解析与展望
目录 一、引言二、DFE原理三、DFE架构四、实现方案五、测试方法六、DFE效果七、成本与收益八、具体应用九、技术发展趋势十、参考文献 一、引言 DDR5 作为新一代内存标准,其中的数据反馈判决均衡(DFE)技术更是引人注目。DFE即判决反馈均衡&a…...
Axure高保真数据可视化大屏图表组件库
推出了一款高保真数据可视化大屏图表组件库,旨在为用户提供丰富的图表类型,使数据呈现更加直观、生动。本文将详细介绍该组件库中的各类图表元件,包括面积图、折线图、柱状图、条形图、圆环图、雷达图、仪表图以及综合类图表,以满…...
100个问题学 langchain 入门 (1/10)
100个问题学 langchain 入门 (1/10) 文章目录 100个问题学 langchain 入门 (1/10)前言**问题 1** 什么是 langchain,解决什么问题?**问题 2** LangChain 的核心组件有哪些?请列举并简要说明每个组件的作用。**问题 3** 在 LangChain 中&#…...
0001.基于springmvc简易酒店管理系统后台
一.系统架构 springmvcjsplayuimysql 二.功能特性 简单易学习,虽然版本比较老但是部署方便,tomcat环境即可启用;代码简洁,前后端代码提供可统一学习;祝愿您能成尽快为一位合格的程序员,愿世界没有BUG; …...
每日一题 326. 3 的幂
326. 3 的幂 简单 class Solution { public:bool isPowerOfThree(int n) {while(n > 3){if(n % 3 0){n n/3;}else{return false;}}return n 1;} };...
解码数据有序之道——常见排序算法总结
本文整理了常见的排序算法,采用c编码,并对其时间复杂度作以了分析。 1. 冒泡排序(Bubble Sort) 实现思路: 从数组的第一个元素开始,依次比较相邻的两个元素。如果当前元素大于下一个元素,则交…...
C语言实现图片文件的复制
在C语言中,直接处理图片文件(如JPEG、PNG等)的复制,通常涉及到文件I/O操作。这些图片文件是二进制文件,因此需要使用二进制模式读取和写入文件。 图片文件复制代码: #include <stdio.h> #include&l…...
一、windows上配置ninja环境
Ninja是Google的一名程序员推出的注重速度的构建工具,一般在Unix/Linux上的程序通过make/makefile来构建编译,而Ninja通过将编译任务并行组织,大大提高了构建速度。下面介绍了windows上配置Ninja环境。 1.下载Ninja ninja官网地址࿱…...
我们来编程 -- win11多jdk版本切换
题记 售前的酒喝到位了调研需求及文档整理出来了开发要入场了,真惨啊!年底了,手里活干的好好的,因为flyback在项目地,硬是被安排进来了拥抱变化,我呸…不得不切换系统,构建代码,一股…...
JAVA 图形界面编程 AWT篇(1)
前言 为了应对JAVA课设,小编走上了java的图形界面编程的道路,通过博客分享自己的学习历程,并进行笔记的记录。 AWT(Abstract Window Toolkit)介绍 AWT(抽象窗口工具包)是 Java 最早的图形用户界…...
C语言 字符串输入输出函数、scanf(“%[^\n]“,)可输入空格 、fgets删除换行符
字符串输入函数: scanf("%s",数组名) gets(数组名) fgets() --- 文件流输入函数 函数原型: int scanf( const char *format, ...…...
【蓝桥杯每日一题】推导部分和——带权并查集
推导部分和 2024-12-11 蓝桥杯每日一题 推导部分和 带权并查集 题目大意 对于一个长度为 ( N ) 的整数数列 A 1 , A 2 , ⋯ , A N A_1, A_2, \cdots, A_N A1,A2,⋯,AN ,小蓝想知道下标 ( l ) 到 ( r ) 的部分和 ∑ i l r A i A l A l 1 ⋯ A r \sum_{…...
Linux 磁盘满了怎么办?快速排查和清理方法
当 Linux 磁盘满了,会导致系统无法正常运行,比如无法写入文件、服务停止、甚至系统崩溃。因此,快速排查并清理磁盘空间是非常重要的。以下是详细的排查和解决步骤: 一、快速定位磁盘占用原因 1. 检查磁盘使用情况 使用 df 命令查…...
【专题】2024年中国新能源汽车用车研究报告汇总PDF洞察(附原数据表)
原文链接: https://tecdat.cn/?p38564 本年度,国家及地方政府持续发力,推出诸多政策组合拳,全力推动汽车产业向更高质量转型升级,积极鼓励消费升级,并大力推行以旧换新等惠民生、促发展举措。尤为引人注目…...
数据结构之链表笔试题详解
一:移除链表元素 我们很容易就可以想到一个解决方案:再创建一个链表,把不是val的结点拿过来尾插。 这样确实可以但是,我们每次尾插都需要遍历一遍整个链表,这样时间复杂度就变成了O(n^2), 因此我们不妨设…...
结构化的Prompt
资源库: AI 提示词-WayToAGI精选高效的AI提示词库,助力创作者和开发者解锁人工智能的潜力。通过我们的提示词和策略,优化您的AI工具使用效率,激发创意思维,提升产出质量。https://www.waytoagi.com/prompts?tag6 结构…...
【数字化】华为数字化转型架构蓝图
导读:华为的数字化转型规划团队在2016年年底基于对愿景的系统诠释,整合出了数字化转型架构蓝图。该蓝图共分为5层,旨在通过数字化转型实现客户交互方式的转变、作战方式的转变、公司各平台业务能力的数字化、服务化以及运营模式的转变。 目录…...
最新全开源IM即时通讯系统源码(PC+WEB+IOS+Android)部署指南
全开源IM(即时通讯)系统源码部署是一个复杂但系统的过程,涉及多个组件和步骤。以下是一个详细的部署指南,旨在帮助开发者或系统管理员成功部署一个全开源的IM系统,如OpenIM。 IM即时通讯系统源码准备工作 …...
go 跨平台打包
GOARCH是Go语言中的一个环境变量,用于指定目标平台的底层架构。在Go的交叉编译过程中,GOARCH决定了编译出的二进制文件将在哪种硬件架构上运行。 GOARCH的常见值 amd64:64位 x86 架构386:32位 x86 架构arm&am…...
Video2X:让模糊视频焕然一新的AI视频增强神器
Video2X:让模糊视频焕然一新的AI视频增强神器 【免费下载链接】video2x A machine learning-based video super resolution and frame interpolation framework. Est. Hack the Valley II, 2018. 项目地址: https://gitcode.com/GitHub_Trending/vi/video2x …...
在ABAQUS中用SPH模拟倒酒过程,超有趣的小探索
ABAQUS模拟倒酒过程,酒用sph模拟最近在玩ABAQUS,突发奇想试试模拟倒酒过程,酒用SPH(光滑粒子流体动力学)方法来模拟,那效果简直绝了,跟大家分享分享我的折腾经历。 为啥选SPH模拟酒?…...
解决多显示器显示错乱难题:SetDPI带来的视觉一致性变革
解决多显示器显示错乱难题:SetDPI带来的视觉一致性变革 【免费下载链接】SetDPI 项目地址: https://gitcode.com/gh_mirrors/se/SetDPI 问题诊断:当多显示器成为工作障碍 为什么专业人士的多屏工作站反而降低效率?摄影师小林的修图软…...
MTKClient深度应用指南:联发科设备底层调试与系统修复全解析
MTKClient深度应用指南:联发科设备底层调试与系统修复全解析 【免费下载链接】mtkclient MTK reverse engineering and flash tool 项目地址: https://gitcode.com/gh_mirrors/mt/mtkclient 问题诊断:联发科设备典型故障与解决方案 识别设备无法…...
用OpenCV 4.8.0和C++从零搭建增量式三维重建系统:手把手教你处理多张图片生成稀疏点云
从零构建三维视觉系统:OpenCV与C实战指南 三维重建技术正在改变我们与数字世界的交互方式。想象一下,仅用手机拍摄的几张照片就能重建出物体的三维模型——这正是计算机视觉领域最激动人心的应用之一。本文将带你深入OpenCV 4.8.0的底层实现,…...
节出来的 00 后,没做聊天壳子,先盯上了你的 Enter 键
字节出来的 00 后,没做聊天壳子,先盯上了你的 Enter 键你以为桌面 AI 助手还停留在「我问一句,它答一句」的阶段,这帮 00 后已经想把事做得更狠一点了。AirJelly 最近放出内测版,路子很野。它不是单纯陪你聊天…...
OpenClaw安全沙箱:Qwen3-32B镜像的权限隔离实验
OpenClaw安全沙箱:Qwen3-32B镜像的权限隔离实验 1. 为什么需要安全沙箱 当我第一次看到OpenClaw能够直接操作我的电脑文件时,既兴奋又担忧。兴奋的是它能够帮我自动化处理大量重复工作,担忧的是如果AI不小心执行了rm -rf这样的危险命令怎么…...
ESP-NOW低功耗传感网络框架:节点-主机架构与AES-GCM加密实现
1. EspNowNetwork 项目概述EspNowNetwork 是一套面向 ESP32 系列 SoC(包括 ESP32-S2、ESP32-C3、ESP32-C6)的模块化固件框架,专为构建低功耗、高可靠性的点对多点无线传感网络而设计。其核心目标并非替代 Wi-Fi 或 BLE 协议栈,而是…...
OpenFontRender:嵌入式MCU的轻量级TTF字体渲染库
1. OpenFontRender 库深度解析:面向嵌入式微控制器的 TTF 字体渲染引擎OpenFontRender 是一款专为资源受限微控制器设计的开源 TTF(TrueType Font)字体渲染库,其核心目标是在 Arduino IDE 生态下实现高质量、可定制、跨平台的矢量…...
OpenClaw高Token消耗解决方案:Qwen3-4B-Thinking本地化部署指南
OpenClaw高Token消耗解决方案:Qwen3-4B-Thinking本地化部署指南 1. 当OpenClaw遇上Token消耗困境 上周我尝试用OpenClaw自动整理半年的技术笔记时,遇到了一个棘手问题——任务执行到一半突然中断了。查看日志才发现,仅仅是"读取文件→…...
