当前位置：首页 > news >正文

【parsel】------- PYTHON爬虫基础4

news 2026/5/22 2:26:55

parsel 这个库可以对 HTML 和 XML 进行解析，并支持使用 XPath 和 CSS Selector 对内容进行提取和修改，同时它还融合了正则表达式提取的功能。

内容目录

from parsel import Selector
==提取节点==
- 提取 class 包含 item-0 的节点
==提取文本==
- 获取提取到的所有 li 节点的文本内容
- 提取文本时get 和 getall 的区别
==提取属性==

from parsel import Selector

提取节点

提取 class 包含 item-0 的节点

python3环境下输入：

html = '''
<div><ul><li class="item-0">first item</li><li class="item-1"><a href="link2.html">second item</a></li><li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li><li class="item-1 active"><a href="link4.html">fourth item</a></li><li class="item-0"><a href="link5.html">fifth item</a></li></ul></div>
'''
from parsel import Selector
selector = Selector(text=html)   # 将 HTML 字符串，赋值为 selector 变量
# print(selector)# 提取 class 包含 item-0 的节点
# css方法
items = selector.css('.item-0')
print(len(items), type(items), items)   # 结果是一个可迭代对象 SelectorList
# xpath方法
items2 = selector.xpath('//li[contains(@class, "item-0")]')
print(len(items2), type(items2), items2)

知识点：

将 HTML 字符串，赋值为 selector 变量：selector = Selector(text=html)。
css方法提取 class 包含 item-0 的节点：selector.css(‘.item-0’)。
xpath方法提取 class 包含 item-0 的节点：selector.xpath(‘//li[contains(@class, “item-0”)]’)。
两种方法返回的结果都是一个可迭代对象 SelectorList，长度都为3，具体结果看输出。

结果输出为：

3 <class 'parsel.selector.SelectorList'> [<Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' item-0 ')]" data='<li class="item-0">first item</li>\n  ...'>, <Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' item-0 ')]" data='<li class="item-0 active"><a href="li...'>, <Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' item-0 ')]" data='<li class="item-0"><a href="link5.htm...'>]
3 <class 'parsel.selector.SelectorList'> [<Selector xpath='//li[contains(@class, "item-0")]' data='<li class="item-0">first item</li>\n  ...'>, <Selector xpath='//li[contains(@class, "item-0")]' data='<li class="item-0 active"><a href="li...'>, <Selector xpath='//li[contains(@class, "item-0")]' data='<li class="item-0"><a href="link5.htm...'>]

提取文本

获取提取到的所有 li 节点的文本内容

for item in items:text = item.xpath('.//text()').get()  # 仍是一个可迭代对象 SelectorListprint(text)

知识点：

遍历 items , 利用xpah 提取所有 li 节点的文本内容：text = item.xpath(‘.//text()’).get() ，结果如下。

结果输出为：

first item
third item
fifth item

提取文本时get 和 getall 的区别

# 提取 SelectorList 里面对应的结果，可以使用 get 或 getall 方法 
# xpath 方法
result = selector.xpath('//li[contains(@class, "item-0")]//text()').get()
print(result)    
result = selector.xpath('//li[contains(@class, "item-0")]//text()').getall()
print(result)
# css 方法
result = selector.css('.item-0 *::text').get()  # *用来提取第一个子节点
print(result)
result = selector.css('.item-0 *::text').getall()  # *用来提取所有子节点
print(result)

知识点：

get 和 getall 对于xpath和css都通用。
get() ：用来提取第一个子节点
getall() ：用来提取所有子节点

结果输出为：

first item
['first item', 'third item', 'fifth item']
first item
['first item', 'third item', 'fifth item']

提取属性

# 提取属性########################################
result = selector.css('.item-0.active a::attr(href)').get()
print(result)
result = selector.xpath('//li[contains(@class, "item-0") and contains(@class, "active")]/a/@href').get()
print(result)
result = selector.css('.item-0').re('link.*')  
# re 方法在这里遍历了所有提取到的 Selector 对象，然后根据传入的正则表达式查找出符合规则的节点源码并以列表的形式返回。
print(result)
result = selector.css('.item-0 *::text').re('.*item')  
# 调用 css 方法时已经提取了进一步的结果，比如提取了节点文本值，那么 re 方法就只会针对节点文本值进行提取
print(result)
result = selector.css('.item-0').re_first('<span class="bold">(.*?)</span>')   # 输出的结果就是小括号部分对应的结果
print(result)

结果输出为：

link3.html
link3.html
['link2.html">second item</a></li>', 'link3.html"><span class="bold">third item</span></a></li>', 'link4.html">fourth item</a></li>', 'link5.html">fifth item</a></li>', 'link3.html"><span class="bold">third item</span></a></li>', 'link4.html">fourth item</a></li>', 'link5.html">fifth item</a></li>', 'link5.html">fifth item</a></li>']
['first item', 'third item', 'fifth item']
third item

【parsel】------- PYTHON爬虫基础4

parsel 这个库可以对 HTML 和 XML 进行解析，并支持使用 XPath 和 CSS Selector 对内容进行提取和修改，同时它还融合了正则表达式提取的功能。内容目录 from parsel import Selector提取节点提取 class 包含 item-0 的节点提取文本获取提取到的所有 li…...

编程日记 2023/6/7 1:30:24

MySQL数据库从入门到精通学习第8天(表数据的查询)

表数据的查询基本查询语句单表查询聚合函数查询多表连接查询子查询合并查询结果定义表和字段的别名使用正则表达式查询基本查询语句 SELECT 语句非常的强大，是最常用的查询语句。他具有一个固定的格式，如下： SELECT 查询的内容 FROM 数据…...

编程日记 2023/6/7 1:25:23

什么是IPAM？如何使用IPAM来管理IP地址和DHCP？

在计算机网络中，IPAM（IP Address Management）是一种用于管理IP地址和DHCP（Dynamic Host Configuration Protocol）的工具或系统。IPAM旨在简化和集中管理IP地址分配、子网划分和DHCP配置等任务。本文将详细介绍IPAM的概…...

编程日记 2023/6/7 1:20:21

PCIE学习

目录一、PCIE结构1、层次结构2、数据包TLPDLLP PCIE寄存器配置1、基址寄存器的作用2、基址寄存器的位置三、PCIE读取数据一、PCIE结构 1、层次结构绝大多数的总线或者接口，都是采用分层实现的。PCIe也不例外，它的层次结构如下： PCIe定…...

编程日记 2023/6/7 1:15:20

商业智力，Social焕新｜数说故事重磅发布“SocialGPT”，国内首个专注Social领域的商业大模型

AGI时代的到来，市场风云变幻，世界正在经历着一场技术革命的颠覆性洗礼。 2023年6月6日6时，数说故事正式对外发布数说故事“SocialGPT”，国内首个专注Social领域的商业大模型。数说故事“SocialGPT”大家昵称它为“社牛”大模型&a…...

编程日记 2023/6/7 1:10:19

STM32HAL库RS485-ModBus协议控制伺服电机

STM32HAL库RS485-ModBus协议控制伺服电机一个月前，接手了一个学长的毕设小车，小车采用rs485通信的modbus协议驱动轮毂电机，与往常我学习的pwm控制电机方法大相径庭，在这里以这篇博客记录下该学习过程。小车主要架构电机型号 …...

编程日记 2023/6/7 1:05:18

【医学图像】图像分割系列.3 （uncertainty）

介绍几篇使用不确定性引导的医学图像分割论文：UA-MT（MICCAI2019），SSL4MIS（MICCAI2021），UG-MCL（AIIM2022）. Uncertainty-aware Self-ensembling Model for Semi-supervise…...

编程日记 2023/6/7 1:00:17

Java有线程安全的set吗?

在Java中，有线程安全的Set实现。一个常用的线程安全的Set实现是ConcurrentSkipListSet。ConcurrentSkipListSet是一个有序的集合，基于跳表(SkipList)的数据结构实现。它提供了线程安全的操作，并且具有较好的性能。接下来笔者用一段简单的Jav…...

编程日记 2023/6/7 0:55:16

《HelloGitHub》第 86 期

兴趣是最好的老师，HelloGitHub 让你对编程感兴趣！ 简介 HelloGitHub 分享 GitHub 上有趣、入门级的开源项目。 https://github.com/521xueweihan/HelloGitHub 这里有实战项目、入门教程、黑科技、开源书籍、大厂开源项目等，涵盖多种编程语言 …...

编程日记 2023/6/7 0:50:15

LDGRB-01 3BSE013177R1 将数字输入和继电器输出结合

LDGRB-01 3BSE013177R1包的一部分是全面的通信选项，包括Modbus主/从或CS31，这种产品很少提供。128kB的用户内存和0.1秒/指令的程序处理时间只是AC500-eCo令人印象深刻的性能的两个例子。除了与现有AC500系列的互操作性，AC500-eCo系统还使用基…...

编程日记 2023/6/7 0:45:14

手动计算校正年龄、性别后的标准化死亡率 (SMR)

分析队列人群有无死亡人数超额，通常应用标准人群死亡率来校正，即刻观察到中的实际死亡数（D）与定一个标准的死亡人数（E），D与E之比称为死亡比（standarized Mortality ratio&#xff0c…...

编程日记 2023/6/7 0:40:13

Java组合模式：构建多层次公司组织架构

在现实生活中，常常会遇到用树形结构组织的一些场景，比如国家省市，学校班级，文件目录，分级导航菜单，以及典型的公司组织架构，整个层次结构自顶向下呈现一颗倒置的树。这种树形结构在面向对象的世…...

编程日记 2023/6/7 0:35:12

Langchain-ChatGLM：基于本地知识库问答

文章目录 ChatGLM与Langchain简介ChatGLM-6B简介ChatGLM-6B是什么ChatGLM-6B具备的能力ChatGLM-6B具备的应用 Langchain简介Langchain是什么Langchain的核心模块Langchain的应用场景 ChatGLM与Langchain项目介绍知识库问答实现步骤ChatGLM与Langchain项目特点项目主体结构项目…...

编程日记 2023/6/7 0:30:11

设计模式十适配器模式

适配器模式适配器模式是一种结构型设计模式。作用：当接口无法和类匹配到一起工作时，通过适配器将接口变换成可以和类匹配到一起的接口。（注：适配器模式主要解决接口兼容性问题） 适配器的优点与缺点： 优…...

编程日记 2023/6/7 0:25:10

1.6 初探JdbcTemplate操作

一、JdbcTemplate案例演示 1、创建数据库与表 （1）创建数据库执行命令：CREATE DATABASE simonshop DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci; 或者利用菜单方式创建数据库 - simonshop 打开数据库simonshop &#x…...

编程日记 2023/6/7 0:20:09

为什么要用线程池？

线程池是一种管理和复用线程资源的机制，它由一个线程池管理器和一组工作线程组成。线程池管理器负责创建和销毁线程池，以及管理线程池中的工作线程。工作线程则负责执行具体的任务。线程池的主要作用是管理和复用线程资源，避免了线程的频繁…...

编程日记 2023/6/7 0:15:07

c语言的预处理和编译

预处理文件包含当预处理器发现#include指令时，会查看后面的文件名并把文件的内容包含到当前文件中两种写法尖括号：引用的是编译器的库路径里面的头文件。双引号：引用的是程序目录中相对路径中的头文件，如果找不到再去上面…...

编程日记 2023/6/7 0:10:05

网络安全必学 SQL 注入

1.1 .Sql 注入攻击原理 SQL 注入漏洞可以说是在企业运营中会遇到的最具破坏性的漏洞之一，它也是目前被利用得最多的漏洞。要学会如何防御 SQL 注入，首先我们要学习它的原理。针对 SQL 注入的攻击行为可描述为通过在用户可控参数中注入 SQL 语法&#x…...

编程日记 2023/6/7 0:05:03

Docker基础知识详解

✅作者简介：热爱Java后端开发的一名学习者，大家可以跟我一起讨论各种问题喔。 🍎个人主页：Hhzzy99 🍊个人信条：坚持就是胜利！ 💞当前专栏：文章 🥭本文内容&am…...

编程日记 2023/6/7 0:00:02

腾讯、阿里入选首批“双柜台证券”，港股市场迎盛夏升温？

6月5日，香港交易所发布公告，将于6月19日在香港证券市场推出“港币－人民币双柜台模式”，当日确定有21只证券指定为双柜台证券。同时，港交所还表示，在双柜台模式推出前，更多证券或会被接纳并加入双…...

编程日记 2023/6/6 23:55:00

Godot 4.x RTS游戏开发实战：从MVP内核到千单位性能优化

1. 这不是又一个“Godot入门教程”，而是一份专为RTS开发者准备的实战切片你有没有试过在Godot里拖一个Unit节点，加个move_and_slide()，然后兴冲冲地拉出十个单位——结果它们像被磁铁吸住一样挤成一团，路径重叠、碰撞卡死、指令延…...

编程新知 2026/5/22 2:21:35

为什么你的双色调总像PPT？揭秘Midjourney v6中未公开的--tint权重衰减算法与Gamma校准阈值

更多请点击： https://kaifayun.com 第一章：双色调视觉失真的本质归因双色调视觉失真并非单纯由显示设备或图像压缩引发的表层现象，其根本源于人眼视锥细胞响应函数与数字色彩空间映射之间的结构性不匹配。当图像被强制量化为仅含两种色调&a…...

编程新知 2026/5/22 2:01:57

基于java的畅阅读系统小程序设计与实现(源码+数据库+文档)

畅阅读系统小程目录基于java的畅阅读系统小程序设计与实现一、前言二、系统功能设计三、系统实现四、数据库设计 1、实体ER图五、核心代码六、论文参考七、最新计算机毕设选题推荐八、源码获取： 博主介绍：✌️大厂码农|毕设布道师&a…...

编程新知 2026/5/22 1:48:41

谷歌收录怎么做比较快？Shopify过滤5个无效参数提升商品页收录

一个拥有5000个SPU的Shopify独立站，在Google Search Console后台的网页报告中，未收录网页数量高达45000个。索引分配明细标明，超过32000个URL带有“已抓取 - 目前未索引”标签。谷歌浏览器爬虫每天分配给该站点的抓取请求固定在4000次左右。检…...

编程新知 2026/5/22 0:56:17

雷达信号体制识别

雷达信号体制识别摘要本文档基于工程中的信号识别流水线入口脚本及其所依赖的核心模块，系统梳理该工程如何实现雷达脉冲信号的体制分类（Signal Type Recognition）。该流水线采用“脉冲检测 → 脉冲描述字提取 → 脉内特征分析 → 驻留段分段…...

编程新知 2026/5/22 0:44:06

【AI绘画构图生死线】：为什么你的提示词再精准也出不了大片？——透视层级、视觉动线与负空间权重分配全拆解

更多请点击： https://kaifayun.com 第一章：AI绘画构图的底层认知革命传统构图理论建立在人眼视觉经验与经典美学范式之上，而AI绘画的构图逻辑则根植于高维特征空间中的统计分布、注意力权重映射与跨模态对齐机制。当用户输入“晨雾中的孤松…...

编程新知 2026/5/22 0:07:39

零基础掌握GVAS解析与游戏存档编辑：解锁Unreal Engine数据处理新姿势

零基础掌握GVAS解析与游戏存档编辑：解锁Unreal Engine数据处理新姿势【免费下载链接】uesave Rust library and CLI to read and write Unreal Engine save files 项目地址: https://gitcode.com/gh_mirrors/ue/uesave Unreal Engine游戏存档修改不再困难&a…...

编程新知 2026/5/21 23:45:03

如何免费获取百度文库文档：三步实现纯净打印保存的实用技巧

如何免费获取百度文库文档：三步实现纯净打印保存的实用技巧【免费下载链接】baidu-wenku fetch the document for free 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wenku 你是否经常在百度文库找到完美的学习资料或工作报告，却因为需要…...

编程新知 2026/5/21 21:29:53