Beautiful Soup的使用
1、Beautiful Soup简介
Beautiful Soup是一个Python的一个HTML或XML的解析库,我们用它可以方便地从网页中提取数据。
Beautiful Soup 提供一些简单的、Python 式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以无须很多代码就可以写出一个完整的应用程序。 Beautifùl Soup 自动将输人文档转换为 Unicode 编码,将输出文档转换为 utf-8 编码。你不需要考虑编码方式,除非文档没有指定具体的编码方式,这时你仅仅需要说明一下原始编码方式就可以了。 Beautiful Soup 已成为和 Ixml、html5lib 一样出色的 Python 解释器,为用户灵活提供不同的解析策略或强劲的速度。
2、基本使用
1、导入库
from bs4 import BeautifulSoup
import requests
2、发送请求并获取HTML
url = 'https://XXXXXXXX.com' # 替换为你想要爬取的网页的 URL
response = requests.get(url)
response.raise_for_status() # 如果请求失败,则抛出异常
html_content = response.text
3、解析HTML
soup = BeautifulSoup(html_content, 'lxml') # 使用 lxml 解析器解析 HTML
4、查找标签
-
使用
.find()或.find_all()方法查找标签。 -
使用 CSS 选择器或标签名作为参数。
# 使用标签名查找
p_tags = soup.find_all('p') # 使用 CSS 选择器查找
div_with_class = soup.find('div', class_='some-class') # 注意:class 属性在 Python 中是关键字,所以使用 class_ 代替
5、获得标签内容
-
使用
.string属性获取单个标签的文本内容(仅当标签内只有一个文本节点时有效)。 -
使用
.get_text()方法获取标签及其所有子标签的文本内容。
# 获取单个标签的文本内容
content = div_with_class.string # 获取标签及其所有子标签的文本内容
all_text = p_tags[0].get_text()
6、获得标签属性
-
使用
['attribute_name']或.get('attribute_name')获取标签的属性值。
# 获取链接的 href 属性
href = soup.find('a')['href'] # 注意:如果找不到标签或标签没有该属性,则会抛出 KeyError 异常 # 更安全的方式是使用 .get() 方法,它会在找不到属性时返回 None
href = soup.find('a').get('href')
7、遍历标签
-
使用 for 循环遍历
.find_all()返回的标签列表。
for p in soup.find_all('p'): print(p.get_text())
相关文章:
Beautiful Soup的使用
1、Beautiful Soup简介 Beautiful Soup是一个Python的一个HTML或XML的解析库,我们用它可以方便地从网页中提取数据。 Beautiful Soup 提供一些简单的、Python 式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓…...
633. 平方数之和(中等)
633. 平方数之和 1. 题目描述2.详细题解3.代码实现3.1 Python3.2 Java内存溢出溢出代码正确代码与截图 1. 题目描述 题目中转:633. 平方数之和 2.详细题解 本题是167. 两数之和 II - 输入有序数组(中等)题目的变型,由两数之和变…...
GIT回滚
1. 使用 git revert git revert 命令会创建一个新的提交,这个提交会撤销指定提交的更改。这通常用于公共分支(如 main 或 master),因为它不会重写历史。 git revert HEAD # 撤销最近的提交 # 或者指定一个特定的提交哈希值 …...
BEVM基于OP-Stack发布首个以WBTC为GAS连接以太坊和比特币生态的中继链
为了更好的连接以太坊和比特币生态,BEVM团队正在基于OPtimism的OP Stack来构建一个以WBTC为GAS兼容OP-Rollup的中继链,这条中继链将作为一种完全去中心化的中间层,把以太坊上的主流资产(WBTC/ ETH/USDC/USDT等)引入到BEVM网络。 不仅如此&am…...
【vuejs】 $on、$once、$off、$emit 事件监听方法详解以及项目实战
1. Vue实例方法概述 1.1 vm.$on vm.$on是Vue实例用来监听自定义事件的方法。它允许开发者在Vue实例上注册事件监听器,当事件被触发时,指定的回调函数会被执行。 事件监听:vm.$on允许开发者绑定一个或多个事件到Vue实例上,并且可…...
如何下载植物大战僵尸杂交版,最全攻略来了
《植物大战僵尸杂交版》由热爱原版游戏的B站UP主“潜艇伟伟迷”独立开发,带来了创新的游戏体验。如果你是策略游戏的爱好者,下面这份全面的下载和游玩攻略将是你的理想选择。 游戏亮点: 杂交植物系统:结合不同植物特性,…...
小公司全栈是归宿吗?
在软件开发领域,特别是在小公司或初创公司中,全栈开发者的角色确实相对普遍和重要。然而,说“全栈是归宿”可能过于绝对,因为每个开发者的职业路径和兴趣点都是不同的。 以下是关于全栈开发在小公司的一些考虑: 需求…...
对https://registry.npm.taobao.org/tyarn的请求失败,原因:证书过期
今天安装yarn时,报错如下: request to https://registry.npm.taobao.org/yarn failed, reason: certificate has expired 原来淘宝镜像过期了,需要重新搞一下 记录一下解决过程: 1.查看当前npm配置 npm config list 2.清…...
Redisson-Lock-加锁原理
归档 GitHub: Redisson-Lock-加锁原理 Unit-Test RedissonLockTest 说明 源码类:RedissonLock // 加锁入口 Override public void lock() { lock(-1, null, false); }/*** 加锁实现 */ private void lock(long leaseTime, TimeUnit unit, boolean interruptib…...
deepspeed win11 安装
目录 git地址: aio报错: 编译 报错 ops已存在: 修改拷贝代码: git地址: Bug Report: Issues Building DeepSpeed on Windows Issue #5679 microsoft/DeepSpeed GitHub aio报错: setup.py 配置变量 os.environ[DISTUTILS_USE_SDK]=1 os.environ[DS_BUILD_AIO]=…...
Python列表函数append()和extend()的区别
Python列表提供了两个容易混淆的追加函数:append()和extend()。它们之间的使用区别如下: list.append(obj):对象进栈。将一个对象作为整体追加到列表最后,返回Nonelist.extend(iter):可迭代对象的元素逐个进栈。将一个…...
Spring AI 实现调用openAi 多模态大模型
什么是多模态? 多模态(Multimodal)指的是数据或信息的多种表现形式。在人工智能领域,我们经常会听到这个词,尤其是在近期大型模型(如GPT-4)开始支持多模态之后。 模态:模态是指数据的一种形式,例如文本、图像、音频等。每一种形式都是一种模态。多模态:多模态就是将…...
《妃梦千年》第十二章:层层迷雾
第十二章:层层迷雾 苏珊遭遇险境的消息让林清婉感到紧张。她知道,宫中有些人对她的势力感到威胁,试图通过伤害苏珊来打击她。林清婉决定采取更谨慎的措施保护自己和苏珊,同时查明幕后黑手的身份。 几天后,林清婉收到…...
java的字节符输出流基类、File Writer类和Buffered Writer类
一、字节符输出流基类:Writer 1.属于抽象类 2.常用方法 二、字节符输出流Flie Writer类 1.是writer类的子类 2.以字符为数据处理单元向文本文件中写数据 3.示例 4.实现步骤 三、BufferedWriter类 1.是Writer类的子类。 2.带有缓冲区 默认情况下,…...
qt 简单实验 一个可以向右侧拖拽缩放的矩形
1.概要 目的是设置一个可以拖拽缩放的矩形,这里仅用右侧的一个边模拟这个过程。就是为了抓住核心,这个便解决了,其他的边也是一样的。而这个更能体现原理。 2.代码 2.1 resizablerectangle.h #ifndef RESIZABLERECTANGLE_H #define RESIZ…...
Google Adsense----Wordpress插入谷歌广告
1.搭建个人博客,绑定谷歌search consol,注册adsense 详细可以参考这个视频b站视频 2.将个人博客网站关联到Adsense 在adsense里新加网站,输入你的博客网址,双击网站 将这段代码复制到header.php的里面 在wordpress仪表盘的外观-主题文件编辑器,找到header.php将代码复制,…...
2-17 基于matlab的改进的遗传算法(IGA)对城市交通信号优化分析
基于matlab的改进的遗传算法(IGA)对城市交通信号优化分析。根据交通流量以及饱和流量,对城市道路交叉口交通信号灯实施合理优化控制,考虑到交通状况的动态变化,及每个交叉口的唯一性。通过实时监测交通流量,…...
VOC格式转YOLO格式,xml文件转txt文件简单通用代码
目录 前言 思路介绍 代码 完整代码 拓展代码 前言 很多人在进行目标检测训练时习惯将得到的数据标注为XML文件的VOC格式,或者在网上获取的数据集被标注为XML文件,但是不同的标注工具进行的标注会产生不同的标注xml文件,这里我写了一种通用…...
STL迭代器的基础应用
STL迭代器的应用 迭代器的定义方法: 类型作用定义方式正向迭代器正序遍历STL容器容器类名::iterator 迭代器名常量正向迭代器以只读方式正序遍历STL容器容器类名::const_iterator 迭代器名反向迭代器逆序遍历STL容器容器类名::reverse_iterator 迭代器名常量反向迭…...
【SQL】数据操作语言(DML) - 删除数据:精细管理数据的利刃
目录 前言 DELETE语句的基础使用 删除指定记录 清空表与删除表数据的区别 注意 前言 在数据库管理的日常工作中,数据的删除是一项需要格外小心的操作,因为一旦数据被删除,往往难以恢复。数据操作语言(DML)中的DELETE语句&am…...
3.3 直连进阶:群晖与PC万兆/2.5G直连配置全解(兼顾内网高速与外网访问)
1. 为什么需要群晖与PC直连? 家里有NAS的朋友应该都遇到过这样的场景:想从PC往群晖里传几个大文件,结果发现速度只有100MB/s左右,一个10GB的电影要传将近两分钟。这其实就是千兆网络的瓶颈在作祟。传统的千兆网络理论速度是125MB…...
黑苹果EFI配置终极指南:3步实现完美macOS安装
黑苹果EFI配置终极指南:3步实现完美macOS安装 【免费下载链接】Hackintosh Hackintosh long-term maintenance model EFI and installation tutorial 项目地址: https://gitcode.com/gh_mirrors/ha/Hackintosh 如果你正在寻找一个简单高效的黑苹果EFI配置解决…...
5分钟搞定QQ群数据采集:零基础也能掌握的自动化神器
5分钟搞定QQ群数据采集:零基础也能掌握的自动化神器 【免费下载链接】QQ-Groups-Spider QQ Groups Spider(QQ 群爬虫) 项目地址: https://gitcode.com/gh_mirrors/qq/QQ-Groups-Spider 还在为手动收集QQ群信息而头疼吗?每天…...
Windows系统移植macOS光标主题:设计原理与安装实践
1. 项目概述:为Windows系统移植macOS光标主题如果你和我一样,长期在Windows和macOS双系统或双设备间切换工作,一定会对两者截然不同的光标设计有深刻的感受。macOS的光标以其简洁、圆润的线条和恰到好处的动画反馈,在视觉体验和操…...
从SVN到Git:老牌版本控制工具TortoiseSVN在2023年的生存指南与最佳实践
从SVN到Git:老牌版本控制工具TortoiseSVN在2023年的生存指南与最佳实践 当GitHub和GitLab成为开发者日常交流的代名词时,仍有许多团队在使用Subversion(SVN)管理代码库。这并非技术滞后,而是工具与场景的精准匹配——就…...
第70篇:Vibe Coding时代:AI Coding 平台运维手册,解决 Agent 上线后故障排查没有 SOP 的问题
第70篇:Vibe Coding时代:AI Coding 平台运维手册,解决 Agent 上线后故障排查没有 SOP 的问题 一、问题场景:Agent 平台上线了,但一出问题大家都不知道怎么查 当 AI Coding Agent 进入团队使用后,常见故障会越来越多: 1. 用户说任务一直不动 2. 任务状态卡在 RUNNING 3…...
SpringBoot多环境配置全解+配置优先级管控
企业级SpringBoot项目开发流程分为开发环境、测试环境、预发布环境、生产环境四大核心场景,不同环境数据库连接地址、端口号、日志级别、接口域名、加密密钥、线程池参数等配置完全不同。若所有环境共用一套配置,每次环境切换手动修改配置参数࿰…...
计网实验一
课程实验报告专 业:物联网工程 班 级:2303学 号:231040700302 姓 名:杜子健实验名称:实验一实验类型:实验实验日期:2025年11月12日一 实…...
AGENTS.md:为AI编码助手定制的项目说明书,提升人机协作效率
1. 项目概述:为什么你的项目需要一个“AI专属说明书”?如果你最近在尝试用GitHub Copilot、Cursor或者Claude Code来辅助开发,大概率遇到过这样的场景:你满怀期待地给AI下达一个指令,比如“帮我给这个React组件添加一个…...
Spring Boot 3.x 集成AD域实战:从SSL证书踩坑到密码重置,一篇讲透
Spring Boot 3.x 深度集成AD域实战:SSL证书配置与密码策略避坑指南 在企业级应用开发中,Active Directory(AD)集成是身份认证的核心环节。本文将带您深入Spring Boot 3.x与AD域集成的实战细节,特别聚焦于SSL证书配置和…...
