当前位置：首页 > news >正文

Python爬虫之使用BeautifulSoup进行HTML Document文档的解析

news 2026/5/15 21:43:58

BeautifulSoup 是一个用于解析 HTML 和 XML 文档的 Python 库，它为开发者提供了一种简单的方式来查找、遍历和修改文档树。BeautifulSoup 特别擅长处理不规则或格式不佳的标记语言，可以自动更正无效的 HTML，因此在网页抓取（Web Scraping）中非常受欢迎。

【1】基本介绍

主要特点

易于使用：提供了直观的方法来导航、搜索和修改解析树。
容错性强：能够处理有缺陷的 HTML，并尝试生成最可能的解析结果。
多种解析器：支持 Python 标准库中的 HTML 解析器，以及第三方解析器如 lxml 和 html5lib。
链式调用：可以通过连续调用方法来构建查询，使得代码更加简洁和易读。

安装

你可以通过 pip 安装 BeautifulSoup：

pip install beautifulsoup4

如果需要安装额外的解析器，比如 lxml 或 html5lib，也可以通过 pip 安装：

pip install lxml
pip install html5lib

【2】基本用法

下面是一个简单的例子，展示如何使用 BeautifulSoup 来解析 HTML 内容并提取信息：

<!DOCTYPE html>
<html lang="en">
<head><meta charset="UTF-8"><title>Title</title>
</head>
<body><div><ul><li id="l1">张三</li><li id="l2">李四</li><li>王五</li><a href="" id="" class="a1">尚硅谷</a><span>嘿嘿嘿</span></ul></div><a href="" title="a2">百度</a><div id="d1"><span>哈哈哈</span></div><p id="p1" class="p1">呵呵呵</p>
</body>
</html>

lxml内核解析本地文件：

# 默认打开的文件的编码格式是gbk 所以在打开文件的时候需要指定编码
soup = BeautifulSoup(open('1.html',encoding='utf-8'),'lxml')

lxml内核解析网络文件：

url = 'https://www.starbucks.com.cn/menu/'
response = urllib.request.urlopen(url)
content = response.read().decode('utf-8')
soup = BeautifulSoup(content,'lxml')

BeautifulSoup 提供了多种方法来寻找文档中的元素：

find_all(name, attrs, recursive, string, limit, **kwargs)：查找所有符合条件的标签。
find(name, attrs, recursive, string, **kwargs)：查找第一个符合条件的标签。
select(selector)：使用 CSS 选择器来查找元素。
find_parent(name, attrs, **kwargs) 和 find_parents(name, attrs, **kwargs)：向上查找父级标签。
find_next_sibling(name, attrs, **kwargs) 和 find_next_siblings(name, attrs, **kwargs)：查找后面的兄弟标签。
find_previous_sibling(name, attrs, **kwargs) 和 find_previous_siblings(name, attrs, **kwargs)：查找前面的兄弟标签。

from bs4 import BeautifulSoup
# 默认打开的文件的编码格式是gbk 所以在打开文件的时候需要指定编码
soup = BeautifulSoup(open('1.html',encoding='utf-8'),'lxml')
# 根据标签名查找节点
# 找到的是第一个符合条件的数据
# print(soup.a)
# 获取标签的属性和属性值
# print(soup.a.attrs)

① find

# 返回的是第一个符合条件的数据
# print(soup.find('a'))# 根据title的值来找到对应的标签对象
# print(soup.find('a',title="a2"))# 根据class的值来找到对应的标签对象  注意的是class需要添加下划线
# print(soup.find('a',class_="a1"))

② find_all

返回的是一个列表并且返回了所有的a标签

# print(soup.find_all('a'))# 如果想获取的是多个标签的数据 那么需要在find_all的参数中添加的是列表的数据
# print(soup.find_all(['a','span']))# limit的作用是查找前几个数据
# print(soup.find_all('li',limit=2))

③ select（推荐）

# select方法返回的是一个列表  并且会返回多个数据
# print(soup.select('a'))# 可以通过.代表class  我们把这种操作叫做类选择器
# print(soup.select('.a1'))# print(soup.select('#l1'))

属性选择器—通过属性来寻找对应的标签

# 查找到li标签中有id的标签
# print(soup.select('li[id]'))# 查找到li标签中id为l2的标签
# print(soup.select('li[id="l2"]'))

层级选择器/后代选择器

# 找到的是div下面的li
# print(soup.select('div li'))# 子代选择器
#  某标签的第一级子标签
# 注意：很多的计算机编程语言中 如果不加空格不会输出内容  但是在bs4中 不会报错 会显示内容
# print(soup.select('div > ul > li'))# 找到a标签和li标签的所有的对象
# print(soup.select('a,li'))

获取节点内容

# obj = soup.select('#d1')[0]
# print(obj.string)
# print(obj.get_text())

如果标签对象中只有内容那么string和get_text()都可以使用，如果标签对象中除了内容还有标签那么string就获取不到数据，而get_text()是可以获取数据

我们一般情况下推荐使用get_text()。

节点的属性

# obj = soup.select('#p1')[0]
# name是标签的名字
# print(obj.name)
# 将属性值左右一个字典返回
# print(obj.attrs)# 获取节点的属性
obj = soup.select('#p1')[0]print(obj.attrs.get('class'))
print(obj.get('class'))
print(obj['class'])

Python爬虫之使用BeautifulSoup进行HTML Document文档的解析

BeautifulSoup 是一个用于解析 HTML 和 XML 文档的 Python 库，它为开发者提供了一种简单的方式来查找、遍历和修改文档树。BeautifulSoup 特别擅长处理不规则或格式不佳的标记语言，可以自动更正无效的 HTML，因此在网页抓取（Web Sc…...

编程日记 2024/12/12 15:54:46

vue.config.js配置参数说明新手教程

这篇文章主要是对vue.config.js配置文件的主要参数进行一下说明，方便使用时的查询， 下面进行介绍 1、vue.config.js vue.config.js 是一个可选的配置文件，如果项目的 (和 package.json 同级的) 根目录中存在这个文件，那么它会被…...

编程日记 2024/12/12 15:52:42

C# 关于加密技术以及应用(二)

AES（Advanced Encryption Standard）和 RSA（Rivest-Shamir-Adleman）是两种不同的加密算法，它们各自有特定的使用场景和优势。下面是它们的主要区别和适用场景： AES（高级加密标准） 特…...

编程日记 2024/12/12 15:50:40

视频中的某些片段如何制作GIF表情包？

动态表情包（GIF）已经成为我们日常沟通中不可或缺的一部分。GIF（Graphics Interchange Format），即图形交换格式，是一种支持多帧图像和透明度的位图文件格式。它最初由 CompuServe 公司在 1987 年推出&#x…...

编程日记 2024/12/12 15:48:37

图像识别 | Matlab基于卷积神经网络(CNN)的宝可梦识别源程序，GUI界面。附详细的运行说明。

图像识别 | Matlab基于卷积神经网络(CNN)的宝可梦识别源程序，GUI界面。附详细的运行说明。目录图像识别 | Matlab基于卷积神经网络(CNN)的宝可梦识别源程序，GUI界面。附详细的运行说明。预测效果基本介绍程序设计参考资料预测效果基本介绍 Matlab基…...

编程日记 2024/12/12 15:46:35

String【Redis对象篇】

🏆 作者简介：席万里 ⚡ 个人网站：https://dahua.bloggo.chat/ ✍️ 一名后端开发小趴菜，同时略懂Vue与React前端技术，也了解一点微信小程序开发。 🍻 对计算机充满兴趣，愿意并且希望学习更多的技…...

编程日记 2024/12/12 15:44:33

top命令和系统负载

1 top中的字段说明 top是一个实时系统监视工具，可以动态展现出 CPU 使用率、内存使用情况、进程状态等信息，注意这些显示的文本不能直接使用 > 追加到文件中。 [rootvv~]# top -bn 1 | head top - 20:08:28 up 138 days, 10:29, 4 users, load av…...

编程日记 2024/12/12 15:43:30

ES6 混合 ES5学习记录

基础数组 let arr [数据1，数据2，...数组n] 使用数组数组名[索引] 数组长度 arr.length 操作数组 arr.push() 尾部添加一个,返回新长度 arr.unshift() 头部添加一个,返回新长度 arr.pop() 删除最后一个,并返回该元素的值 shift 删除第一个单元…...

编程日记 2024/12/12 15:42:28

HTTP 状态码大全

常见状态码 200 OK # 客户端请求成功 400 Bad Request # 客户端请求有语法错误不能被服务器所理解 401 Unauthorized # 请求未经授权这个状态代码必须和WWW- Authenticate 报头域一起使用 403 Forbidden # 服务器收到请求但是拒绝提供服务 404 Not Found # 请求资源不存…...

编程日记 2024/12/12 15:40:26

Redis学习（13）| Redisson 看门狗机制深度解析

文章目录摘要1. 引言2. 看门狗的工作原理2.1 自动续期2.2 防止意外释放2.3 合理配置 3. 应用场景4. 最佳实践4.1 设置合理的lockWatchdogTimeout4.2 避免死锁4.3 监控和日志 5. 实现方式6. 使用示例7. 结论摘要 Redisson 是一个用于 Redis 的 Java 客户端，它提供…...

编程日记 2024/12/12 15:36:21

【开源大屏】玩转开源积木BI，从0到1设计一个大屏

积木 BI 重磅推出免费大屏设计器！功能超强大，操作超流畅，体验超酷炫。快来体验一下吧。让我们一起来看一下如何从0到1设计一个大屏。一、积木BI大屏介绍积木BI可视化数据大屏是一站式数据可视化展示平台，旨在帮助用户快速通…...

编程日记 2024/12/12 15:34:19

基于PCRLB的CMIMO雷达资源调度方法（MATLAB实现）

集中式多输入多输出CMIMO雷达作为一种新体制雷达，能够实现对多个目标的同时多波束探测，在多目标跟踪领域得到了广泛运用。自从2006年学者Haykin提出认知雷达理论，雷达资源分配问题就成为一个有实际应用价值的热点研究内容。本文基于目标跟踪的…...

编程日记 2024/12/12 15:33:17

PAT--1035 插入与归并

题目描述根据维基百科的定义： 插入排序是迭代算法，逐一获得输入数据，逐步产生有序的输出序列。每步迭代中，算法从输入序列中取出一元素，将之插入有序序列中正确的位置。如此迭代直到全部元素有序。归并排序进行如…...

编程日记 2024/12/12 15:31:14

Ubuntu20.04.6编译OpenWRT23.05.5错误

在Ubuntu20.04.6编译OpenWRT23.05.5时，会出现如下提示： fatal error: asm/types.h: No such file or directory 如果我们执行如下命令： sudo ln -s /usr/include/asm-generic /usr/include/asm 此时再次编译，会有如下提示&…...

编程日记 2024/12/12 15:29:56

一文说清flink从编码到部署上线

引言：目前flink的文章比较多，但一般都关注某一特定方面，很少有一个文章，从一个简单的例子入手，说清楚从编码、构建、部署全流程是怎么样的。所以编写本文，自己做个记录备查同时跟大家分享一下。本文以简单的mysql cdc为例展开说明。环境说明：MySQL：5.7；flink：1.14.0…...

编程日记 2024/12/12 15:24:00

【5G】5G Physical Layer物理层（一）

5G多址接入和物理层与长期演进（LTE）存在一些差异。在下行方向，5G与LTE相似，依旧采用正交频分多址（OFDMA）。而在上行方向，5G采用了OFDMA和单载波频分多址（SC-FDMA）&#x…...

编程日记 2024/12/12 15:20:13

GauHuman阅读笔记【3D Human Modelling】

笔记目录 1. 基本信息2. 理解（个人初步理解，随时更改）3. 精读SummaryResearch Objective(s)Background / Problem StatementMethod(s)EvaluationConclusionReferences1. 基本信息题目：GauHuman: Articulated Gaussian Splatting from Monocular Human Videos时间：2023.12…...

编程日记 2024/12/12 15:13:04

qemu安装arm64架构银河麒麟

qemu虚拟化软件，可以在一个平台上模拟另一个硬件平台，可以支持多种处理器架构。一、安装安装教程：https://blog.csdn.net/qq_36035382/article/details/125308044 下载链接：https://qemu.weilnetz.de/w64/2024/ 我下载的是 …...

编程日记 2024/12/12 14:57:47

在Elasticsearch (ES) 中，integer 和 integer_range的区别

在Elasticsearch (ES) 中，integer 和 integer_range 是两种不同的字段类型，它们用于存储和查询不同类型的数据。 Integer: integer 类型是用于存储32位整数值的简单数据类型。这个类型的字段适合用来表示单一的整数数值，例如用户的年龄、商品的数量等。支持标准的数值操作，…...

编程日记 2024/12/12 14:53:43

Playwright中Page类的方法

导航和页面操作 goto(url: str, **kwargs: Any): 导航到一个URL。 reload(**kwargs: Any): 重新加载当前页面。 go_back(**kwargs: Any): 导航到会话历史记录中的前一个页面。 go_forward(**kwargs: Any): 导航到会话历史记录中的下一个页面。 set_default_navigation_tim…...

编程日记 2024/12/12 14:51:40

如何构建一个基于YOLOv8的智慧化工地管理系统，用于工地要素分割与检测

如何构建一个基于YOLOv8的智慧化工地管理系统，用于工地要素分割与检测。该系统将涵盖10大要素（工人佩戴安全帽、不佩戴安全帽、预制构件、混凝土运输车、渣土车、搅拌车、挖掘机、压路车、推土车、装载车） 文章目录以下文字仅供参考&#xff…...

编程新知 2026/5/15 19:45:23

【最新 v2.7.1 版本】5 分钟搞定 OpenClaw Windows 环境部署配置

OpenClaw（小龙虾）Windows 一键部署保姆级教程 | 10 分钟搭建专属数字员工【点击下载最新OpenClaw安装包】前言 2026 年开源圈热门 AI 智能体 OpenClaw（昵称小龙虾），GitHub 星标突破 28 万，凭借本地运行 …...

编程新知 2026/5/15 19:10:21

STFT音高迁移：C++实现音频变调不变速的核心原理与工程实践

1. 项目概述：音频处理的“时间魔法师”如果你玩过音乐制作或者做过音频分析，肯定遇到过这样的场景：一段人声录音的音调有点低，你想把它调高一点，但又不想改变它说话的速度和节奏感。或者反过来，一段背景音乐…...

编程新知 2026/5/15 17:43:16

避开这些坑！用Python做模糊控制项目时，关于隶属函数和规则表的5个常见误区

避开这些坑！用Python做模糊控制项目时，关于隶属函数和规则表的5个常见误区第一次用Python实现模糊控制系统时，那种兴奋感我至今记得——仿佛打开了人工智能的另一扇门。但很快，这种兴奋就被各种报错和不符合预期的结果浇灭了。记…...

编程新知 2026/5/15 17:34:46

Windows微信QQ防撤回补丁：告别消息撤回烦恼的终极指南

Windows微信QQ防撤回补丁：告别消息撤回烦恼的终极指南【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁（我已经看到了，撤回也没用了） 项目地址: https://gitcode.co…...

编程新知 2026/5/15 17:10:16

CentOS 7/8 服务器根目录爆满？别慌，用LVM无损调整home空间给root（保姆级避坑指南）

CentOS服务器根目录空间告急？LVM动态扩容实战指南凌晨三点，服务器监控突然狂闪警报——根目录剩余空间不足5%！这种场景对于运维人员来说无异于一场噩梦。当关键业务系统因日志无法写入而濒临崩溃时，传统的重装系统或数据迁移方案…...

编程新知 2026/5/15 14:41:19

n8n工作流模板库：开箱即用的自动化解决方案与实战指南

1. 项目概述：一个为n8n设计的全功能工作流模板库如果你正在使用或者考虑使用n8n这个强大的工作流自动化工具，那么你很可能已经遇到了一个经典难题：从零开始构建一个复杂的工作流，既耗时又容易出错。你需要考虑节点如何连接、数据如…...

编程新知 2026/5/15 11:38:27

Nginx Server Configs地理位置路由：基于位置的内容分发终极指南

Nginx Server Configs地理位置路由：基于位置的内容分发终极指南【免费下载链接】server-configs-nginx Nginx HTTP server boilerplate configs 项目地址: https://gitcode.com/gh_mirrors/se/server-configs-nginx Nginx Server Configs是一套专业的Nginx …...

编程新知 2026/5/15 10:20:36

掌握Flash逆向工程：JPEXS免费反编译工具完全指南

掌握Flash逆向工程：JPEXS免费反编译工具完全指南【免费下载链接】jpexs-decompiler JPEXS Free Flash Decompiler 项目地址: https://gitcode.com/gh_mirrors/jp/jpexs-decompiler 在Flash技术逐渐淡出历史舞台的今天，无数经典的Flash动画、游戏…...

编程新知 2026/5/15 9:55:56

ARM PMU性能监控与PMOVSSET_EL0寄存器详解

1. ARM PMU性能监控体系概述在ARMv8/v9架构中，性能监控单元(Performance Monitoring Unit, PMU)是处理器微架构的重要组成部分，它为开发者提供了硬件级别的性能数据采集能力。PMU通过一组可编程的事件计数器和控制寄存器，使系统软件能够精确监…...

编程新知 2026/5/15 8:03:07