当前位置：首页 > news >正文

【自用】Python爬虫学习（二）：网页解析的三种方式（re、bs4、xpath）

news 2026/4/3 14:23:38

Python爬虫学习（二）

网页解析的三种方式
- 1.正则表达式-re解析
- - 常用表达：
  - re常用函数：
  - 在html中的运用：
- 2.BeautifulSoup解析
- - 常用语法：
  - 用法举例：
- 3.xpath解析
- - 示例代码1：
  - 示例代码2：

网页解析的三种方式

1.正则表达式-re解析

常用表达：

正则表达式常用字符：
===============常用元字符：===============
.       匹配除换行符以外的任意字符
\w      匹配字母或数字或下划线
\s      匹配任意的空白符
\d      匹配数字
\n      匹配一个换行符
\t      匹配一个制表符^       匹配字符串的开始
$       匹配字符串的结尾\W      匹配非字母或数字或下划线
\D      匹配非数字
\S      匹配非空白符a|b     匹配字符a或字符b
()      匹配括号内的表达式，也表示一个组
[...]   匹配字符组中的字符
[^...]  匹配除了字符组中字符的所有字符===============量词：控制前面的元字符出现的次数===============
*       重复零次或更多次
+       重复一次或更多次
?       重复零次或一次
{n}     重复n次
{n,}    重复n次或更多次
{n,m}   重复n到m次===============贪婪匹配和情性匹配===============
.*      贪婪匹配
.*?     情性匹配

re常用函数：

import re# re.findall(正则表达式，字符串)，:匹配字符串中所有的符合正则的内容，返回的结果是一个列表
print("===============findall():===============")
lis = re.findall(r'\d+', '我的电话号码是10086，小明的电话是10010')
print(lis)
# ['10086', '10010']# finditer()：匹配字符串中所有的内容【返回的是选代器】，从迭代器中拿到内容需要：group()，效率更高
print("===============finditer():===============")
it = re.finditer(r'\d+', "我的电话号是：10086，小明的电话是：10010")
for i in it:print(i.group())
# 10086
# 10010# search()找到一个结果就返回，返回的是match对象，拿数据需要.group()
print("===============search():===============")
s = re.search(r'\d+', "我的电话号是：10086，小明的电话是：10010")
print(s.group())
# 10086# match是从头开始匹配
print("===============match():===============")
m = re.match(r'\d+', "10086，小明的电话是：10010")
print(m.group())
# 10086# 预加载正则表达式
print("===============预加载正则表达式:===============")
obj = re.compile(r"\d+")
ret = obj.finditer("我的电话号是：10085，小明的电话是：10000")
for it in ret:print(it.group())
# 10085
# 10000

在html中的运用：

import retext = """
<div class='jay'><span id='1′>郭某某</span></div>
<div class='jj'><span id='2′>宋某某</span></div>
<div class='jolin'><span id='3′>李某某</span></div>
<div class='sylar'><span id='4′>范某某</span></div>
<div class='tory'><span id='5′>刘某某</span></div>"""
# (?P<分组名字>正则)可以单独从正则匹配的内容中进一步提取内容，re.S的作用是让.能匹配换行符
obj = re.compile(r"<div class='.*?><span id='(?P<num>\d+)′>(?P<name>.*?)</span></div>", re.S)result = obj.finditer(text)
for it in result:print(it.group())# <div class ='jay' > < span id='1′>郭某某</span></div>print(it.group('name'))# 郭某某print(it.group('num'))# 1

2.BeautifulSoup解析

常用语法：

"""
-如何实例化BeautifulSoup对象：-from bs4 import BeautifulSoup-对象的实例化：-1.将本地的htmL文档中的数据加载到该对象中fp=open('./test.html','r',encoding='utf-8')soup=BeautifulSoup(fp,'lxml')2.将互联所网上获取的页面源码加载到该对象中page_text=response.textsoup=BeautifulSoup(page_text,'lxml')-提供的用于数据解析的方法和属性：-soup.tagName:返回的是文档中第一次出现的tagName对应的标签-soup.find():-find('tagName'):等同于soup.div-属性定位-soup.find('div',class_/id/attr='song')-soup.find_all('tagName'):返回符合要求的所有标签(列表)-select:-select('某种选择器(id,class,标签……选择器)')，返回的是一个列表。-层级选择器：-soup.select('.tang>ul>li>a'):>表示的是一个层级-soup.select('.tang>ul a'):空格表示的多个层级-获取标签之间的文本数据：-soup.a.text/string/get_text()-text/get_text()：可以获取某一个标签中所有的文本内容-string：只可以获取该标签下面直系的文本内容·-获取标签中属性值：-soup.a['href']"""

用法举例：

import requests
from bs4 import BeautifulSoupurl = ''
hearders = {'User-Agent': ''
}
resp = requests.get(url=url, headers=hearders)
# 对象的实例化
soup = BeautifulSoup(resp.text, 'lxml')
# 标签定位
# 返回的是文档中第一次出现的tagName对应的标签
div_first1 = soup.find('div')
div_first2 = soup.div
# div_first1与div_first2效果一样# 属性定位
# 写法1，添加下划线'class_'规避关键字class
soup.find('div', class_='song')
# 写法2，写成字典形式
soup.find('div', attrs={"class": "song"})# 返回符合要求的所有标签(列表)
soup.find_all('tagName')# 层级选择器,返回的是一个列表
# >表示的是一个层级
soup.select('.tang > ul > li > a')
# 空格表示的多个层级
soup.select('.tang > ul a')# 获取标签之间的文本数据
"""
……
<div><p>段落</p>内容测试<a href='www.baidu.com'>百度</a><a href='www.bing.com'>必应</a>
</div>
……
"""
# 可以获取某一个标签中所有的文本内容
div_text1 = soup.div.text  # 结果包含：段落 内容测试 百度 必应
div_text2 = soup.div.get_text()  # 结果包含：段落 内容测试 百度 必应# 只可以获取该标签下面直系的文本内容
# <a href='wwww.baidu.com'>百度</a>
a_text3 = soup.a.string  # 百度# 获取标签中属性值：
# 获取<a href='wwww.baidu.com'>百度</a>中的href链接文本
# 方法1
web_links = soup.a['href']  # wwww.baidu.com
# 方法2
web_page = BeautifulSoup(resp.text, "html.parser")
div_list = web_page.find('div', class_='big-pic')
image_src = div_list.find('img').get('src')  # 用get拿到标签的对应属性

3.xpath解析

示例代码1：

from lxml import etreexml = """
<book><id>1</id><name>野花遍地香</name><price>1.23</price><nick>臭豆腐</nick><author><nick id="10086">周大强</nick><nick id="10010">周芷若</nick><nick class="joy">周杰伦</nick><nick class="jolin">蔡依林</nick><div><nick>惹了1</nick></div><span><nick>惹了2</nick><div><nick>惹了3</nick></div></span></author><partner><nick id="ppc">胖胖陈</nick><nick id="ppbc">胖胖不陈</nick></partner></book>"""tree = etree.XML(xml)
# result = tree.xpath("/book")
result = tree.xpath("/book/name/text()")  # ['野花遍地香']
# -/text()取的是标签中直系的文本内容;//text()标签中非直系的文本内容（所有的文本内容）result = tree.xpath("/book/author/nick/text()")
# ['周大强', '周芷若', '周杰伦', '蔡依林']
result = tree.xpath("/book/author/div/nick/text()")
# ['惹了1']
result = tree.xpath("/book/author//nick/text()")
# ['周大强', '周芷若', '周杰伦', '蔡依林', '惹了1', '惹了2', '惹了3']
result = tree.xpath("/book/author/*/nick/text()")
# *任意的节点，通配符，['惹了1', '惹了2']result = tree.xpath("/book//nick/text()")
# ['臭豆腐', '周大强', '周芷若', '周杰伦', '蔡依林', '惹了1', '惹了2', '惹了3', '胖胖陈', '胖胖不陈']print(result)

示例代码2：

"Test.html"文件内容如下所示：

<!DOCTYPE html>
<html lang="en">
<head><meta charset="UTF-8" /><title>Title</title>
</head>
<body>
<ul><li><a href="http://www.baidu.com">百度</a></li><li><a href="http://www.google.com">谷歌</a></li><li><a href="http://www.sogou.com">搜狗</a></li>
</ul>
<ol><li><a href="feiji">飞机</a></li><li><a href="dapao">大炮</a></li><li><a href="huoche">火车</a></li>
</ol><div class="job">李嘉诚</div>
<div class="common">胡辣汤</div></body>
</html>

from lxml import etree# 读取Test.html文件
tree = etree.parse("Test.html")
result = tree.xpath('/html')result1 = tree.xpath("/html/body/ul/li/a/text()")
# ['百度', '谷歌', '搜狗']
print(result1)# 注意这里的xpath的索引是从1开始的，li[1]代表取第一个，[]中数字代表索引
result2 = tree.xpath("/html/body/ul/li[1]/a/text()")
# ['百度']
print(result2)result3 = tree.xpath("/html/body/ol/li/a[@href='dapao']/text()")
# ['大炮']
print(result3)ol_li_list = tree.xpath("/html/body/ol/li")for li in ol_li_list:# 从每一个1i中提取到文字信息result = li.xpath("./a/text()")  # 在li中继续去寻找，相对查找，注意用./print(result)# 拿到属性值：@属性值result2 = li.xpath("./a/@href")  # 在li中继续去寻找，获取到属性href的值print(result2)print(tree.xpath("/html/body/ul/li/a/@href"))
# ['http://www.baidu.com', 'http://www.google.com', 'http://www.sogou.com']print(tree.xpath("/html/body/div/text()"))
# ['李嘉诚', '胡辣汤']

【自用】Python爬虫学习（二）：网页解析的三种方式（re、bs4、xpath）

Python爬虫学习（二） 网页解析的三种方式1.正则表达式-re解析常用表达：re常用函数：在html中的运用： 2.BeautifulSoup解析常用语法：用法举例： 3.xpath解析示例代码1：示例代码2&#xf…...

编程日记 2024/8/13 20:03:56

从零到一：家政保洁小程序搭建全攻略与功能作用深度解析

目录一、家政保洁小程序主要功能二、家政保洁小程序搭建教程 （一）前期准备 （二）注册与选择工具 （三）设计与开发 （四）测试与优化 （五）发布与推广一、…...

编程日记 2024/8/13 20:02:55

单元测试：为工程质量保驾护航

单元测试单元测试是软件开发过程中确保代码质量和正确性的关键手段。它指的是对软件中的最小可测试单元（通常是函数或方法）进行验证，确保其行为符合预期。基本概念单元测试：验证软件中最小单元（通常是函数或方法…...

编程日记 2024/8/13 20:01:53

江协科技STM32学习笔记

第01章 STM32简介及开发环境搭建 1.1 STM32简介 1.1.1 STM32F103C8T6 系列：主流系列STM32F1 内核：ARM Cortex-M3 主频：72MHz RAM：20K（SRAM） ROM：64K（Flash） 供电…...

编程日记 2024/8/13 20:00:52

RabbitMQ再回首--往事如梦

这文章你就读吧，越读越🥸，一读一个不吱声可靠的🐰警官：rabbitMQ，功能全面，不丢数据，体量小，容易堆积声明exchange channel . exchangeDeclare ( String exchange , …...

编程日记 2024/8/13 19:59:50

头狼择校小程序

综述介绍头狼择校，是头狼择™高校的简称，我们专注高校、大学的择校。倡导先嗅就业再择校，是预约工具和对话平台。帮您嗅招办、嗅教授、嗅学姐，预约择校有关的老师、顾问，助力考大学和考研的“双考”学生及家长了解就…...

编程日记 2024/8/13 19:55:45

【Electron】npm安装Electron项目失败报错问题和解决办法

前言闲来无事，便想着研究一下Electron，没想到安装直接就卡住了问题 npm ERR! RequestError: Hostname/IP does not match certificates altnames: Host: npm.taobao.org. is not in the certs altnames: DNS:*.tbcdn.cn, DNS:*.taobao.com, DNS:*.al…...

编程日记 2024/8/13 19:52:41

人工智能提示（prompt）工程入门

文章目录人工智能提示（prompt）工程入门一、目的二、使用1、角色2、提示3、上下文4、例子5、输入6、输出三、使用示例人工智能提示（prompt）工程入门一、目的对于当前的发达的人工智能，我们可以广泛使用&#xff0…...

编程日记 2024/8/13 19:50:39

【机器学习的基本思想】模型优化与评估

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈Python机器学习 ⌋ ⌋ ⌋ 机器学习是一门人工智能的分支学科，通过算法和模型让计算机从数据中学习，进行模型训练和优化，做出预测、分类和决策支持。Python成为机器学习的首选语言，…...

编程日记 2024/8/13 19:49:37

公司电脑监控软件推荐（一口气了解8款！）一起领略电脑监控界的刀光剑影！

企业的内部管理的需求日益复杂，电脑监控软件作为提升工作效率、保障数据安全的重要工具，其重要性不言而喻。今天，我们将带您一口气了解8款顶尖的公司电脑监控软件，包括国内知名的“安企神”以及多款来自海外的优秀产品&#xff0c…...

编程日记 2024/8/13 19:46:34

设备图纸资料管理系统：数字化转型下的高效协同与安全管理新篇章

在当今高度信息化的时代，设备图纸资料管理系统作为企业资产与知识管理的重要一环，正日益凸显其不可或缺的价值。这一系统集成了先进的数字化技术与管理理念，旨在实现设备图纸资料的高效存储、快速检索、安全共享及版本控制，为企业…...

编程日记 2024/8/13 19:44:32

ArcGIS基础：标注转注记及简单处理

注记是一个静态的标签图层，能够独立的保存为文件，并且具有计算功能； 标注是一个动态的标签图形，无法以文件的形式进行存储和计算； 2者各有优势和劣势，根据具体需求进行选择需要注意的是注记要存储在GDB…...

编程日记 2024/8/13 19:43:31

jQuery实现图片轮播效果

实现图片轮播效果，打开页面，每隔3秒切换至下一张图片；光标移入数字时，播放相应图片。思路： （1）获取需要轮播的图片和展示的div。 （2）使用animate设置left值&#xff…...

编程日记 2024/8/13 19:42:29

关于天地图新手使用

1分钟带你了解学习天地图适用新手天地图API (tianditu.gov.cn) 文档api 先去注册key 把脚本放到index.html文件里面  <script src="http://api.tianditu.gov.cn/api?v=4.0&tk=申请的key" type="text/javascr…...

编程日记 2024/8/13 19:41:28

STM32与Arduino和ESP32对比分析

在嵌入式系统领域，STM32、Arduino 和 ESP32 是三种广泛使用的微控制器平台。它们各自具有独特的优势，适用于不同类型的项目。本文将详细比较这些平台，帮助您了解它们之间的差异、优势以及可能的应用场景。一、架构与处理能力 STM32&#xf…...

编程日记 2024/8/13 19:40:27

125. 验证回文串【力扣(LeetCode) 】

一、题目描述如果在将所有大写字符转换为小写字符、并移除所有非字母数字字符之后，短语正着读和反着读都一样。则可以认为该短语是一个回文串。字母和数字都属于字母数字字符。给你一个字符串 s，如果它是回文串 ，返回 true &#xff1b…...

编程日记 2024/8/13 19:39:26

3年经验，面试测试岗20k都拿不到了吗？

我的情况大概介绍一下个人情况，女，本科，三年多测试工作经验，懂python，会写脚本，会selenium，会性能，然而到今天都没有收到一份offer！从年后就开始准备简历，年…...

编程日记 2024/8/13 19:38:25

【ML】强化学习（Reinforcement Learning）及其拆解

【ML】强化学习（Reinforcement Learning） 1. RL Outline 强化学习（Reinforcement Learning）概述1.1 RL的基本框架 2. RL 引入：从这个小游戏开始3. Policy Gradient 方法4. Actor-Critic 方法5. [奖励塑形（R…...

编程日记 2024/8/13 19:36:23

在宝塔面板下安装WordPress

宝塔面板是服务器管理好助手，尤其在Linux系统下，提高了管理的可视化，降低了Linux服务器的使用门槛。 WordPress是个非常好的博客系统，由于支持海量主题模板、各种类型的插件，因此已经成为建设各类网站的首选框架。今…...

编程日记 2024/8/13 19:32:17

纷享销客CRM AI产品架构概览、产品特色

一、纷享销客CRM AI产品架构概览纷享AI平台架构分为三个主要层次：AI基础设施层、AI平台层和AI应用层。每个层次都由一系列功能模块组成，旨在为客户提供强大的技术支持和灵活的解决方案。 1.Al基础设施层 AI基础设施层是整个AI平台的底层支撑&#xff…...

编程日记 2024/8/13 19:31:16

终极指南：如何使用Rust构建企业级数据脱敏系统

终极指南：如何使用Rust构建企业级数据脱敏系统在当今数据驱动的时代，企业面临着日益严格的隐私保护法规和数据安全挑战。数据脱敏作为保护敏感信息的关键技术，正成为企业数据治理的核心环节。本文将详细介绍如何利用Rust这一安全高效的系统编…...

编程新知 2026/4/3 14:03:32

三步打造个性化Android体验：从零开发Magisk主题模块

三步打造个性化Android体验：从零开发Magisk主题模块【免费下载链接】Magisk The Magic Mask for Android 项目地址: https://gitcode.com/GitHub_Trending/ma/Magisk 问题导向：为什么需要系统主题模块？ 你是否曾对千篇一律的Android…...

编程新知 2026/4/3 13:59:31

Pumba在Kubernetes中的实战部署：DaemonSet配置指南

Pumba在Kubernetes中的实战部署：DaemonSet配置指南【免费下载链接】pumba Chaos testing, network emulation, and stress testing tool for containers 项目地址: https://gitcode.com/gh_mirrors/pu/pumba Pumba是一款强大的容器混沌测试工具，…...

编程新知 2026/4/3 13:21:05

忍者像素绘卷应用场景：微信小程序‘忍者学院’像素头像认证系统

忍者像素绘卷应用场景：微信小程序忍者学院像素头像认证系统 1. 项目背景与价值微信小程序"忍者学院"作为一款面向动漫爱好者的社交平台，面临着用户头像个性化需求日益增长的挑战。传统头像系统存在两个核心痛点： 同质化严重&am…...

编程新知 2026/4/3 13:17:02

【29】软考软件设计师——SQL语句编写与优化深度精讲｜数据库大题延伸满分攻略

摘要：本文是《软件设计师50讲通关｜从零基础到工程师职称》专栏第29篇，承接第28篇ER图转关系模式核心内容，作为下午第2题数据库大题核心延伸必考模块，单模块累计占分5~8分，是数据库板块性价比极高的提分重点。全文超4000字深度拆解软考全部SQL高频考点：全覆盖多表连接底层…...

编程新知 2026/4/3 13:08:52

Qwen2.5-VL-7B-InstructGPU优化指南：视觉特征缓存机制与响应速度实测对比

Qwen2.5-VL-7B-Instruct GPU优化指南：视觉特征缓存机制与响应速度实测对比 1. 项目概述与优化背景 Qwen2.5-VL-7B-Instruct作为一款先进的多模态视觉-语言模型，在处理图像和文本交互任务时展现出强大能力。但在实际部署中，我们发现其GPU资源…...

编程新知 2026/4/3 12:46:36

智能文档处理新范式：Umi-OCR双层PDF功能让家庭与学生文档管理效率倍增

智能文档处理新范式：Umi-OCR双层PDF功能让家庭与学生文档管理效率倍增【免费下载链接】Umi-OCR OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维…...

编程新知 2026/4/3 11:56:12

提升编码效率：用快马平台调用codex自动生成常用工具函数库

提升编码效率：用快马平台调用codex自动生成常用工具函数库最近在开发一个前端项目时，发现每次都要重复写一些基础工具函数，比如日期格式化、对象深拷贝这些。虽然网上能找到现成的代码，但质量参差不齐，整合起来也很费…...

编程新知 2026/4/3 11:32:00

解锁音频频域密码：Spek声学频谱分析工具的全场景应用指南

解锁音频频域密码：Spek声学频谱分析工具的全场景应用指南【免费下载链接】spek Acoustic spectrum analyser 项目地址: https://gitcode.com/gh_mirrors/sp/spek 在数字音频处理领域，准确理解信号的频率特性是解决音质问题、优化音频体验的关键。…...

编程新知 2026/4/3 11:25:55

KKManager技术指南：从基础配置到效能优化的全方位实践

KKManager技术指南：从基础配置到效能优化的全方位实践【免费下载链接】KKManager Mod, plugin and card manager for games by Illusion that use BepInEx 项目地址: https://gitcode.com/gh_mirrors/kk/KKManager 一、价值定位：重新定义模组管理…...

编程新知 2026/4/3 9:56:57