当前位置: 首页 > news >正文

精通Python爬虫中的XPath:从安装到实战演示

🔸 插件安装

首先,我们需要安装用于处理XPath的库lxml。在命令行中运行以下命令:

pip install lxml

🔹 lxml是一个强大的库,支持XPath查询和XML处理,是爬虫开发中的重要工具。


🔸 DOM节点学习

DOM(Document Object Model)是XML和HTML文档的编程接口。它将文档作为树结构处理,每个节点表示文档的一部分。常见的节点类型包括:

  • 元素节点:表示HTML或XML标签,例如<div>
  • 属性节点:表示元素的属性,例如class="example"
  • 文本节点:表示元素或属性中的文本内容。

🔹 理解DOM结构是使用XPath查询的基础,下面是一个简单的HTML文档示例:

<html><body><div class="content"><h1>标题</h1><p>这是一个段落。</p><a href="http://example.com">链接</a></div></body>
</html>

🔸 XPath语法学习

XPath(XML Path Language)是一种用于在XML文档中选择节点的语言。它提供了多种方式来查找和筛选节点。以下是一些常用的XPath表达式:

  • / :从根节点选取。
  • // :从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
  • . :选取当前节点。
  • .. :选取当前节点的父节点。
  • @ :选取属性。

🔹 常用XPath表达式示例:

  • //div:选取所有<div>元素。
  • //div[@class='content']:选取所有class属性值为content<div>元素。
  • //a/@href:选取所有<a>元素的href属性值。

🔸 XPath定位文章数据

在爬虫中,XPath可以用来精确定位和提取网页中的数据。以下是一个实际示例,展示如何使用XPath定位文章标题和链接:

import requests
from lxml import etree# 发送HTTP请求获取网页内容
url = 'http://example.com'
response = requests.get(url)
html_content = response.content# 解析HTML文档
tree = etree.HTML(html_content)# 使用XPath定位文章标题和链接
titles = tree.xpath('//h1/text()')
links = tree.xpath('//a/@href')# 打印结果
print(f"Titles: {titles}")
print(f"Links: {links}")

🔹 在这个示例中,我们使用requests库获取网页内容,并用lxml库的etree模块解析HTML文档。通过XPath表达式提取文章标题和链接,方便快捷。


🔸 实战演示

让我们结合以上知识,进行一个实际的爬虫示例,爬取并解析一篇文章的标题、作者和内容。

import requests
from lxml import etree# 发送HTTP请求获取网页内容
url = 'https://example.com/article'
response = requests.get(url)
html_content = response.content# 解析HTML文档
tree = etree.HTML(html_content)# 使用XPath定位文章标题、作者和内容
title = tree.xpath('//h1[@class="article-title"]/text()')[0]
author = tree.xpath('//span[@class="author"]/text()')[0]
content = tree.xpath('//div[@class="article-content"]/p/text()')# 打印结果
print(f"Title: {title}")
print(f"Author: {author}")
print(f"Content: {' '.join(content)}")

🔹 在这个示例中,我们爬取一个文章页面,并通过XPath定位文章标题、作者和内容,最后将结果打印出来。


🔸 总结

🔹 通过这次学习,我们掌握了XPath的基本语法、DOM节点的学习方法,以及如何在实际爬虫中使用XPath定位和提取数据。掌握这些技巧,能够帮助我们在开发爬虫时更加高效、精准地提取网页中的信息。

相关文章:

精通Python爬虫中的XPath:从安装到实战演示

&#x1f538; 插件安装 首先&#xff0c;我们需要安装用于处理XPath的库lxml。在命令行中运行以下命令&#xff1a; pip install lxml&#x1f539; lxml是一个强大的库&#xff0c;支持XPath查询和XML处理&#xff0c;是爬虫开发中的重要工具。 &#x1f538; DOM节点学习 …...

redis的使用场景

目录 1. 热点数据缓存 1.1 什么是缓存&#xff1f; 1.2 缓存的原理 1.3 什么样的数据适合放入缓存中 1.4 哪个组件可以作为缓存 1.5 java使用redis如何实现缓存功能 1.5.1 需要的依赖 1.5.2 配置文件 1.5.3 代码 1.5.4 发现 1.6 使用缓存注解完成缓存功能 2. 分布式锁…...

记录new Date()的各种方法以及时间差的计算方法

new Date().toLocaleDateString() —— 2024/8/2new Date().toLocaleTimeString() —— 10:21:48new Date().toLocaleString() —— 2024/8/2 10:21:48new Date().toLocaleDateString() —— Fri Aug 02 2024new Date().toDateString() —— Fri Aug 02 2024new Date…...

vue项目创建+eslint+Prettier+git提交规范(commitizen+hooks+husk)

# 步骤 1、使用 vue-cli 创建项目 这一小节我们需要创建一个 vue3 的项目&#xff0c;而创建项目的方式依然是通过 vue-cli 进行创建。 不过这里有一点大家需要注意&#xff0c;因为我们需要使用最新的模板&#xff0c;所以请保证你的 vue-cli 的版本在 4.5.13 以上&#xff…...

从Docker拉取镜像一直失败超时?这些解决方案帮你解决烦恼

设置国内源&#xff1a; 提示&#xff1a;常规方案&#xff08;作用不大&#xff09; 阿里云提供了镜像源&#xff1a;https://cr.console.aliyun.com/cn-hangzhou/instances/mirrors 登录后你会获得一个专属的地址 使用命令设置国内镜像源&#xff1a;通过vim /etc/docker/d…...

R语言大尺度空间数据分析模拟预测及可视化:地统计与空间自相关、空间数据插值、机器学习空间预测、空间升降尺度、空间模拟残差订正、空间制图等

目录 专题一 R语言空间数据介绍及数据挖掘关键技术 专题二 R语言空间数据高级处理技术 专题三 R语言多维时空数据处理技术、数据清洗整合和时间序列分析 专题四 R语言地统计与空间自相关、空间插值方法 专题五 R语言机器学习与空间模型预测及不确定性评估 专题六 R语言空…...

深入理解Java内存管理机制

Java内存管理是Java开发中一个至关重要的主题。理解内存管理机制不仅有助于编写高效的代码&#xff0c;还可以帮助我们避免常见的内存问题&#xff0c;如内存泄漏和内存不足。本篇博客将详细介绍Java内存管理机制&#xff0c;并通过代码示例帮助读者更好地理解这一过程。 1. J…...

Helm 学习之路,一文弄懂

1. 什么是 Helm 1.1 概述 Helm 是 Kubernetes 应用程序的包管理器,和redhat中yum 管理包类似. 1.2 架构图v3 1.3 下载 官当 最新版本 官方github curl -LO https://get.helm.sh/helm-v3.15.2-linux-amd64.tar.gz 1.4 安装 解压 #由于是二进制,直接解压到/usr/local/b…...

【面试题解答】一个有序数组 nums ,原地删除重复出现的元素

面试题解答 仅供学习 文章目录 面试题解答题目一、python代码1.1 代码1.2 示例用法1.2.1 示例11.2.2 示例2 二、讲解2.1 初始化2.2 遍历2.3 返回 题目 要解决这个问题&#xff0c;可以使用双指针方法进行原地修改&#xff0c;以确保每个元素最多出现两次。 一、python代码 1.1…...

【数据结构算法经典题目刨析(c语言)】随机链表的复制(图文详解)

&#x1f493; 博客主页&#xff1a;C-SDN花园GGbond ⏩ 文章专栏&#xff1a;数据结构经典题目刨析(c语言) 目录 一、题目描述 二、思路分析 三、代码实现 一、题目描述 二、思路分析 要完成一个带随机指针的链表的复制&#xff0c;有一个巧妙的办法:分三步走 1.完成节…...

cqyjldfx

CVE-2023-27179 靶标介绍&#xff1a; GDidees CMS v3.9.1及更低版本被发现存在本地文件泄露漏洞&#xff0c;漏洞通过位于 /_admin/imgdownload.php 的 filename 参数进行利用。攻击者可以通过向 filename 参数传递恶意输入来下载服务器上的任意文件。 提示有本地文件泄露&a…...

大数据——HBase原理

摘要 HBase 是一个开源的、非关系型的分布式数据库系统&#xff0c;主要用于存储海量的结构化和半结构化数据。它是基于谷歌的 Bigtable 论文实现的&#xff0c;运行在 Hadoop 分布式文件系统&#xff08;HDFS&#xff09;之上&#xff0c;并且可以与 Hadoop 生态系统的其他组…...

《电视技术》是什么级别的期刊?是正规期刊吗?能评职称吗?

问题解答 问&#xff1a;《电视技术》是不是核心期刊&#xff1f; 答&#xff1a;不是&#xff0c;是知网收录的第一批认定学术期刊。 问&#xff1a;《电视技术》级别&#xff1f; 答&#xff1a;国家级。主管单位&#xff1a;中国电子科技集团公司 主办单位&#xff…...

网络编程 --------- 2、socket网络编程接口

1、什么是socket 套接字 socke套接字是一个编程的接口 (网络编程的接口)、是一种特殊的文件描述符 (read/write)&#xff0c;不局限于TCP/IP 。socket是独立于具体协议的网络编程接口这个接口是位于 应用层和传输层之间 。 类型&#xff1a; (1)流式套接字 SOCK_ST…...

C# Deconstruct详解

总目录 前言 该文来源于探索弃元的使用&#xff0c;由弃元了解到元组&#xff0c;由元组又了解到解构方法Deconstruct。 另外本文中 解构和析构一个意思&#xff0c;不要在意&#xff01; 一、Deconstruct是什么&#xff1f; 1. 关于元组 如果我们想了解Deconstruct 的使用&…...

Java 面试常见问题之——为什么重写equals时必须重写hashCode方法

Java 面试常见问题之——为什么重写equals时必须重写hashCode方法 当重写 equals 方法时&#xff0c;通常也应该重写 hashCode 方法&#xff0c;原因主要有以下几点&#xff1a; 一致性原则&#xff1a;根据 Java 的约定&#xff0c;如果两个对象通过 equals 方法比较返回 tr…...

后端给的树形结构 递归 改造成阶联选择器所需要的lable、value结构

赋值&#xff1a;this.newTreeData this.renameFields(this.treeData) 递归方法&#xff1a;renameFields (tree) {return tree.map(node > {// 创建一个新对象来存放修改后的字段名const newNode {value: node.id,label: node.title,// 如果有子节点&#xff0c;则递归处理…...

文献阅读:基于拓扑结构模型构建ICI收益诊断模型

介绍 Custom scoring based on ecological topology of gut microbiota associated with cancer immunotherapy outcome是来自法国Gustave Roussy Cancer Campus的Laurence Zitvogel实验室最近发表在cell的关于使用肠道微生物拓扑结构预测免疫治疗疗效的文章。 该研究提供基于…...

Python文献调研(四)QtDesigner的布局

一、新建项目&#xff1a; 1.打开pycharm&#xff0c;新建一个Python项目 &#xff08;1&#xff09;右键项目列表区&#xff0c;找到我们之前配置好的外部工具&#xff0c;点击Pyside6 QtDesigner 打开Qt Designer后会是这个界面&#xff1a; &#xff08;2&#xff09;此时…...

CentOS Linux release 7.9.2009 中sudo命令未找到

先在 Windows 环境中下载 sudo 的安装包 下载安装包&#xff1a;https://www.sudo.ws/releases/stable/ 然后把安装包拷贝的 Centos 中&#xff0c;cd 进入安装包所在的目录执行下面的命令&#xff1a; 格式&#xff1a;rpm -Uhv xxxxx.rpm rpm -Uhv sudo-logsrvd-1.9.15-6.…...

OpenClaw+GLM-4.7-Flash学习助手:自动整理课程笔记与生成复习题

OpenClawGLM-4.7-Flash学习助手&#xff1a;自动整理课程笔记与生成复习题 1. 为什么需要自动化学习助手&#xff1f; 去年备考研究生时&#xff0c;我每天要处理3-4小时的课程视频。最痛苦的不是听课本身&#xff0c;而是课后整理&#xff1a;手动截取关键片段、转录字幕、标…...

RK3568 NPU RKNN(五):RKNN-ToolKit2性能与内存评估实战解析

1. 环境准备与工具链搭建 在开始RKNN-ToolKit2的性能与内存评估之前&#xff0c;我们需要先搭建完整的开发环境。这里以野火LubanCat开发板为例&#xff0c;具体硬件配置为RK3568芯片4GB内存版本。开发主机建议使用Ubuntu 20.04系统&#xff0c;确保Python版本在3.6-3.8之间。 …...

别再拷贝sxs文件夹了!Win10教育版1903安装.NET 3.5最简方案(实测有效)

彻底解决Win10安装.NET 3.5报错0x800F081F的高效方案 每次在Win10上安装.NET Framework 3.5时遇到0x800F081F错误&#xff0c;都让人抓狂。网上那些让你拷贝sxs文件夹的教程&#xff0c;99%都在误导人。作为一位经历过无数次失败的老手&#xff0c;我要分享的是经过上百次验证的…...

【Python时序预测实战】基于贝叶斯优化的Transformer单变量时序预测模型构建与调优

1. 为什么选择Transformer做时序预测&#xff1f; 我第一次用Transformer做销量预测时&#xff0c;心里其实挺没底的。毕竟这玩意儿原本是搞自然语言处理的&#xff0c;就像拿菜刀削苹果——工具不太对口。但当我看到预测结果比传统LSTM提升了23%的准确率时&#xff0c;立刻真香…...

深度解析ConcurrentHashMap设计演进:从分段锁到无锁化的并发之路

在Java并发编程领域&#xff0c;ConcurrentHashMap绝对是“并发容器扛鼎之作”——它既解决了HashMap并发环境下的数据不一致&#xff08;死循环、数据丢失&#xff09;问题&#xff0c;又突破了Hashtable全表锁的性能瓶颈&#xff0c;成为高并发场景下K-V存储的首选。自JDK1.5…...

实战指南:用快马为django项目生成定制化vmware开发环境,开箱即用

实战指南&#xff1a;用快马为Django项目生成定制化VMware开发环境&#xff0c;开箱即用 在实际开发场景中&#xff0c;虚拟机环境需要与具体项目需求紧密结合。最近我在做一个Django项目时&#xff0c;发现每次换电脑或重装系统都要重新配置开发环境&#xff0c;特别浪费时间…...

STM32温湿度监控系统设计与实现

## 1. 工业生产线温湿度监控系统设计### 1.1 系统架构设计 基于STM32F103C8T6微控制器的工业级温湿度监控系统采用三层架构&#xff1a; - **感知层**&#xff1a;3个DHT22数字温湿度传感器 - **控制层**&#xff1a;STM32F103C8T6最小系统板 - **云平台层**&#xff1a;ESP826…...

Arduino轻量级哈希表UnorderedMap实战指南

1. 项目概述UnorderedMap是一款专为 Arduino 平台设计的轻量级哈希表&#xff08;Hash Table&#xff09;实现&#xff0c;其核心目标是在资源极度受限的微控制器环境中提供高效、可靠、内存可控的键值对&#xff08;Key-Value Pair&#xff09;存储能力。它并非 C STLstd::uno…...

基于STM32与ADC的锂电池电量监测系统设计

1. 锂电池电量监测为什么需要STM32和ADC&#xff1f; 做嵌入式开发的朋友应该都遇到过这样的需求&#xff1a;设备用锂电池供电&#xff0c;需要实时显示剩余电量。比如手持设备、智能家居控制器或者无人机&#xff0c;电量显示都是刚需功能。但锂电池的特性决定了直接测量电量…...

摆脱论文困扰!高效论文写作全流程AI论文写作软件推荐(2026 最新)

论文写作全流程可拆解为文献调研→选题/开题→大纲/初稿→文献综述→降重/去AI味→润色/格式→查重/投稿七大环节&#xff0c;2026年AI论文写作软件按环节精准匹配&#xff0c;兼顾中文适配、降重能力、去AI痕迹、学术合规四大核心需求&#xff0c;覆盖免费/付费、通用/垂直场景…...