Beautiful Soup 入门指南:从零开始掌握网页解析
Beautiful Soup 入门指南:从零开始掌握网页解析
前言
在数据驱动的时代,网页数据是非常宝贵的资源。很多时候我们需要从网页上提取数据,进行分析和处理。Beautiful Soup 是一个非常流行的 Python 库,可以帮助我们轻松地解析和提取网页中的数据。本文将详细介绍 Beautiful Soup 的基础知识和常用操作,帮助初学者快速入门和精通这一强大的工具。
什么是 Beautiful Soup?
Beautiful Soup 是一个 Python 库,用于从 HTML 和 XML 文件中提取数据。它将复杂的文件结构转化为一个易于遍历和搜索的解析树,使我们能够轻松地查找、修改和提取数据。
安装 Beautiful Soup
在开始使用 Beautiful Soup 之前,我们首先需要安装它。你可以使用 pip
命令来安装:
pip install beautifulsoup4
pip install lxml # 可选的解析器,速度更快
基本使用
1. 加载 HTML 内容
首先,我们需要加载网页内容。你可以通过从文件中读取或通过 HTTP 请求获取 HTML 内容。这里我们使用一个简单的 HTML 示例文件:
<!DOCTYPE html>
<html>
<head><title>示例页面</title>
</head>
<body><h1 id="main-heading">欢迎来到示例页面</h1><p class="description">这里是一个简单的 HTML 示例。</p><a href="https://example.com" class="link">访问示例网站</a><ul><li>项目一</li><li>项目二</li><li>项目三</li></ul>
</body>
</html>
我们可以使用以下代码加载这个 HTML 内容:
from bs4 import BeautifulSouphtml_content = """
<!DOCTYPE html>
<html>
<head><title>示例页面</title>
</head>
<body><h1 id="main-heading">欢迎来到示例页面</h1><p class="description">这里是一个简单的 HTML 示例。</p><a href="https://example.com" class="link">访问示例网站</a><ul><li>项目一</li><li>项目二</li><li>项目三</li></ul>
</body>
</html>
"""soup = BeautifulSoup(html_content, 'lxml') # 使用 lxml 解析器
2. 查找元素
Beautiful Soup 提供了多种方法来查找元素:
- 通过标签名查找:
title_tag = soup.title
print(title_tag.text) # 输出:示例页面
- 通过属性查找:
heading_tag = soup.find('h1', id='main-heading')
print(heading_tag.text) # 输出:欢迎来到示例页面link_tag = soup.find('a', class_='link')
print(link_tag['href']) # 输出:https://example.com
- 查找所有符合条件的元素:
list_items = soup.find_all('li')
for item in list_items:print(item.text)
# 输出:
# 项目一
# 项目二
# 项目三
3. 遍历解析树
Beautiful Soup 允许我们轻松地遍历解析树:
- 父节点和子节点:
body_tag = soup.body
for child in body_tag.children:print(child) # 输出 body 的直接子节点
- 兄弟节点:
first_item = soup.find('li')
next_item = first_item.find_next_sibling('li')
print(next_item.text) # 输出:项目二
- 前后节点:
description = soup.find('p', class_='description')
previous_node = description.find_previous()
print(previous_node) # 输出 <h1 id="main-heading">欢迎来到示例页面</h1>
4. 修改和操作元素
我们还可以修改 HTML 内容:
- 修改标签内容:
heading_tag.string = 'Hello, Beautiful Soup!'
print(heading_tag) # 修改后的 h1 标签
- 添加新元素:
new_tag = soup.new_tag('p')
new_tag.string = '这是一个新段落。'
soup.body.append(new_tag)
print(soup.body) # 输出包含新段落的 body
进阶操作
1. CSS 选择器
除了基本的查找方法,Beautiful Soup 还支持 CSS 选择器:
link_tag = soup.select_one('.link')
print(link_tag['href']) # 输出:https://example.comlist_items = soup.select('ul > li')
for item in list_items:print(item.text)
# 输出:
# 项目一
# 项目二
# 项目三
2. 处理复杂的 HTML 结构
Beautiful Soup 提供了灵活的解析和处理复杂 HTML 结构的能力。例如,处理嵌套的结构和动态内容:
nested_html = """
<div class="outer"><div class="inner"><p>嵌套内容</p></div>
</div>
"""nested_soup = BeautifulSoup(nested_html, 'lxml')
inner_div = nested_soup.select_one('.outer .inner')
print(inner_div.p.text) # 输出:嵌套内容
总结
Beautiful Soup 是一个功能强大的网页解析工具,适合初学者快速上手和精通。本文介绍了如何安装和使用 Beautiful Soup 进行基本的网页解析操作,包括查找元素、遍历解析树、修改和操作元素等。通过这些示例和操作,你可以轻松地从网页中提取所需的数据,进行进一步的分析和处理。
希望本文对你有所帮助,Happy Scraping!
相关文章:
Beautiful Soup 入门指南:从零开始掌握网页解析
Beautiful Soup 入门指南:从零开始掌握网页解析 前言 在数据驱动的时代,网页数据是非常宝贵的资源。很多时候我们需要从网页上提取数据,进行分析和处理。Beautiful Soup 是一个非常流行的 Python 库,可以帮助我们轻松地解析和提…...

网络通信---MCU移植LWIP
使用的MCU型号为STM32F429IGT6,PHY为LAN7820A 目标是通过MCU的ETH给LWIP提供输入输出从而实现基本的Ping应答 OK废话不多说我们直接开始 下载源码 LWIP包源码:lwip源码 -在这里下载 ST官方支持的ETH包:ST-ETH支持包 这里下载 创建工程 …...
Go-并行编程新手指南
Go 并行编程新手指南 在Go语言中,并行编程是充分利用多核CPU资源、提升程序性能的重要手段。它的核心概念包括goroutine和channel,这些特性使得Go在处理并发任务时表现出色。 goroutine:轻量级的并发执行单元 goroutine是Go并行编程的基础…...

基于Django的个人博客系统的设计与实现
【Django】基于Django的个人博客系统的设计与实现(完整系统源码开发笔记详细部署教程)✅ 目录 一、项目简介二、项目界面展示三、项目视频展示 一、项目简介 系统采用Python作为主要开发语言,结合Django框架构建后端逻辑,并运用J…...
Python爬虫获取custom-1688自定义API操作接口
一、引言 在电子商务领域,1688作为国内领先的B2B平台,提供了丰富的API接口,允许开发者获取商品信息、店铺信息等。其中,custom接口允许开发者进行自定义操作,获取特定的数据。本文将详细介绍如何使用Python调用1688的…...
kaggle-ISIC 2024 - 使用 3D-TBP 检测皮肤癌-学习笔记
问题描述: 通过从 3D 全身照片 (TBP) 中裁剪出单个病变来识别经组织学确诊的皮肤癌病例 数据集描述: 图像临床文本信息 评价指标: pAUC,用于保证敏感性高于指定阈值下的AUC 主流方法分析(文本) 基于CatBoo…...
滤波电路汇总
0、前言 1. 引言 滤波电路是电子系统中不可或缺的组成部分,其主要功能是选择性地通过或衰减特定频率范围内的信号。在现代电子技术中,滤波电路广泛应用于信号处理、通信系统、音频设备、电源设计等多个领域。通过滤波,可以去除信号中的噪声和干扰,提高信号的质量和稳定性…...

1.Template Method 模式
模式定义 定义一个操作中的算法的骨架(稳定),而将一些步骤延迟(变化)到子类中。Template Method 使得子类可以不改变(复用)一个算法的结构即可重定义(override 重写)该算法的某些特…...

MySQL分表自动化创建的实现方案(存储过程、事件调度器)
《MySQL 新年度自动分表创建项目方案》 一、项目目的 在数据库应用场景中,随着数据量的不断增长,单表存储数据可能会面临性能瓶颈,例如查询、插入、更新等操作的效率会逐渐降低。分表是一种有效的优化策略,它将数据分散存储在多…...

基于回归分析法的光伏发电系统最大功率计算simulink建模与仿真
目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 5.完整工程文件 1.课题概述 基于回归分析法的光伏发电系统最大功率计算simulink建模与仿真。选择回归法进行最大功率点的追踪,使用光强和温度作为影响因素,电压作为输出进行建模。…...
计算机毕业设计【任务书】怎么写?
1. 什么是毕业设计任务书 毕业设计任务书是学生在毕业设计初期向指导教师提交的文档,主要用于说明毕业设计的选题、研究内容、目标、方法、进度安排等。 2. 撰写任务书的步骤 2.1 确定选题 选题是撰写任务书的第一步。选题应结合自身兴趣、专业方向和实际应用需…...
GRAPHARG——学习
20250106 项目git地址:https://github.com/microsoft/graphrag.git 版本:1.2.0 ### This config file contains required core defaults that must be set, along with a handful of common optional settings. ### For a full list of available setti…...

【Rust自学】15.6. RefCell与内部可变性:“摆脱”安全性限制
题外话,这篇文章一共4050字,是截止到目前为止最长的文章,如果你能坚持读完并理解,那真的很强! 喜欢的话别忘了点赞、收藏加关注哦(加关注即可阅读全文),对接下来的教程有兴趣的可以…...
14.模型,纹理,着色器
模型、纹理和着色器是计算机图形学中的三个核心概念,用通俗易懂的方式来解释: 1. 模型:3D物体的骨架 通俗解释: 模型就像3D物体的骨架,定义了物体的形状和结构。 比如,一个房子的模型包括墙、屋顶、窗户等…...
【C语言分支与循环结构详解】
目录 ---------------------------------------begin--------------------------------------- 一、分支结构 1. if语句 2. switch语句 二、循环结构 1. for循环 2. while循环 3. do-while循环 三、嵌套结构 结语 -----------------------------------------end----…...

新项目上传gitlab
Git global setup git config --global user.name “FUFANGYU” git config --global user.email “fyfucnic.cn” Create a new repository git clone gitgit.dev.arp.cn:casDs/sawrd.git cd sawrd touch README.md git add README.md git commit -m “add README” git push…...

qt-QtQuick笔记之常见项目类简要介绍
qt-QtQuick笔记之常见项目类简要介绍 code review! 文章目录 qt-QtQuick笔记之常见项目类简要介绍1.QQuickItem2.QQuickRectangle3.QQuickImage4.QQuickText5.QQuickBorderImage6.QQuickTextInput7.QQuickButton8.QQuickSwitch9.QQuickListView10.QQuickGridView11.QQuickPopu…...

Continuous Batching 连续批处理
原始论文题目: Continuous Batching — ORCA: a distributed serving system for Transformer-based generative models 关键词: Continuous Batching, iteration-level scheduling, selective batching 1.迭代级调度(iteration-level scheduling) Orca系统又由几个关键…...

海外问卷调查渠道查如何设置:最佳实践+示例
随着经济全球化和一体化进程的加速,企业间的竞争日益加剧,为了获得更大的市场份额,对企业和品牌而言,了解受众群体的的需求、偏好和痛点才是走向成功的关键。而海外问卷调查才是获得受众群体痛点的关键,制作海外问卷调…...

把本地搭建的hexo博客部署到自己的服务器上
配置远程服务器的git 安装git 安装依赖工具包 yum install -y curl-devel expat-devel gettext-devel openssl-devel zlib-devel安装编译工具 yum install -y gcc perl-ExtUtils-MakeMaker package下载git,也可以去官网下载了传到服务器上 wget https://www.ke…...

中南大学无人机智能体的全面评估!BEDI:用于评估无人机上具身智能体的综合性基准测试
作者:Mingning Guo, Mengwei Wu, Jiarun He, Shaoxian Li, Haifeng Li, Chao Tao单位:中南大学地球科学与信息物理学院论文标题:BEDI: A Comprehensive Benchmark for Evaluating Embodied Agents on UAVs论文链接:https://arxiv.…...
mongodb源码分析session执行handleRequest命令find过程
mongo/transport/service_state_machine.cpp已经分析startSession创建ASIOSession过程,并且验证connection是否超过限制ASIOSession和connection是循环接受客户端命令,把数据流转换成Message,状态转变流程是:State::Created 》 St…...

SCAU期末笔记 - 数据分析与数据挖掘题库解析
这门怎么题库答案不全啊日 来简单学一下子来 一、选择题(可多选) 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B.分类和预测 C.数据预处理 D.数据流挖掘 A. 频繁模式挖掘:专注于发现数据中…...

Cinnamon修改面板小工具图标
Cinnamon开始菜单-CSDN博客 设置模块都是做好的,比GNOME简单得多! 在 applet.js 里增加 const Settings imports.ui.settings;this.settings new Settings.AppletSettings(this, HTYMenusonichy, instance_id); this.settings.bind(menu-icon, menu…...

【配置 YOLOX 用于按目录分类的图片数据集】
现在的图标点选越来越多,如何一步解决,采用 YOLOX 目标检测模式则可以轻松解决 要在 YOLOX 中使用按目录分类的图片数据集(每个目录代表一个类别,目录下是该类别的所有图片),你需要进行以下配置步骤&#x…...
鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个生活电费的缴纳和查询小程序
一、项目初始化与配置 1. 创建项目 ohpm init harmony/utility-payment-app 2. 配置权限 // module.json5 {"requestPermissions": [{"name": "ohos.permission.INTERNET"},{"name": "ohos.permission.GET_NETWORK_INFO"…...

Maven 概述、安装、配置、仓库、私服详解
目录 1、Maven 概述 1.1 Maven 的定义 1.2 Maven 解决的问题 1.3 Maven 的核心特性与优势 2、Maven 安装 2.1 下载 Maven 2.2 安装配置 Maven 2.3 测试安装 2.4 修改 Maven 本地仓库的默认路径 3、Maven 配置 3.1 配置本地仓库 3.2 配置 JDK 3.3 IDEA 配置本地 Ma…...
Typeerror: cannot read properties of undefined (reading ‘XXX‘)
最近需要在离线机器上运行软件,所以得把软件用docker打包起来,大部分功能都没问题,出了一个奇怪的事情。同样的代码,在本机上用vscode可以运行起来,但是打包之后在docker里出现了问题。使用的是dialog组件,…...

【笔记】WSL 中 Rust 安装与测试完整记录
#工作记录 WSL 中 Rust 安装与测试完整记录 1. 运行环境 系统:Ubuntu 24.04 LTS (WSL2)架构:x86_64 (GNU/Linux)Rust 版本:rustc 1.87.0 (2025-05-09)Cargo 版本:cargo 1.87.0 (2025-05-06) 2. 安装 Rust 2.1 使用 Rust 官方安…...
JS手写代码篇----使用Promise封装AJAX请求
15、使用Promise封装AJAX请求 promise就有reject和resolve了,就不必写成功和失败的回调函数了 const BASEURL ./手写ajax/test.jsonfunction promiseAjax() {return new Promise((resolve, reject) > {const xhr new XMLHttpRequest();xhr.open("get&quo…...