Python的解析网页
课前案例
通过requests模块爬取指定网站中的图片并保存到本地目录中。
上述案例采用的是同步方式下载图片,效率太低。异步方式如下(线程):
# target为目标函数;args中传入的是download函数的参数url threading.Thread(target=download,args=(url,)).start()
注意:args
为元组格式,如果传入一个参数注意后面必须跟着一个逗号;线程配置完毕之后记得调用start方法启动线程。
Beautiful Soup
什么是Beautiful Soup
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.
解析器
Beautiful Soup
支持Python
标准库中的HTML解析器,还支持一些第三方的解析器:
解析器 | 使用方法 | 优势 | 劣势 |
---|---|---|---|
Python标准库 | BeautifulSoup(markup, "html.parser") | Python的内置标准库执行速度适中文档容错能力强 | Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差 |
lxml HTML 解析器 | BeautifulSoup(markup, "lxml") | 速度快文档容错能力强 | 需要安装C语言库 |
lxml XML 解析器 | BeautifulSoup(markup, ["lxml-xml"])``BeautifulSoup(markup, "xml") | 速度快唯一支持XML的解析器 | 需要安装C语言库 |
html5lib | BeautifulSoup(markup, "html5lib") | 最好的容错性以浏览器的方式解析文档生成HTML5格式的文档 | 速度慢不依赖外部扩展 |
安装与配置
# 安装requests模块 pip install requests==2.10.0 # 安装beautiful soup4 pip install bs4 # 安装lxml解析器 pip install lxml
快速入门
将课件资料中的index.html
文件复制到python
项目中即可。
解析数据
标签
每个tag都有自己的名字,通过soup.name
来获取标签。
# 获取p标签 p = soup.p print(p) # 获取title标签 title = soup.title print(title)
注意:如果有多个相同的标签,则会返回第一个。
属性
一个标签可能有很多个属性。例如:标签 <b class="boldest">
有一个 class
的属性,值为 boldest
。标签的属性的操作方法与字典相同。
-
获取指定标签的单一属性,类似字典方式
# 获取p标签的class属性 attrs = soup.p["class"] print(attrs)
注意:最常见的多值的属性是 class (一个标签可以有多个CSS
的class
). 还有一些属性 rel
, rev
, accept-charset
, headers
, accesskey
. 在Beautiful Soup
中多值属性的返回类型是list
。
-
获取指定标签的单一属性,通过
attrs
方式
# 通过attrs获取p标签的id属性 id_ = soup.p.attrs["id"] print(id_)
-
获取指定标签的所有属性:
# 获取指定标签的所有属性 p_attrs = soup.p.attrs print(p_attrs)
标签内容
通过.text
和.string
获取标签节点的内容,也可以通过.strings
获取标签节点下的所有内容。
# 获取单个标签的内容 text = soup.p.text print(text) print(soup.p.string) # 获取该标签下所有的内容,返回generator生成器 strings = soup.div.strings for st in strings:print(st)
遍历文档树
子节点
标签小技巧获取层级子节点:
# tag小技巧获取层级子节点 print(soup.body.div.p)
.contents
:将标签的子节点以列表的方式输出
# 获取div标签下的所有子节点 print(soup.body.div.contents) # 获取div标签下的第二个子节点 print(soup.body.div.contents[1]) # 获取div标签下的第二个子节点的标签名 print(soup.body.div.contents[1].name) # 获取div标签下的第二个子节点的所有属性 print(soup.body.div.contents[1].attrs)
.children
:对标签的子节点进行循环
# 获取div下的的子节点 children = soup.body.div.children print(children) # 循环打印节点信息 for child in children:print(child)
.descendants
:对所有标签的子孙节点进行递归循环
descendants = soup.body.descendants for des in descendants:print(des)
更多内容请查看官网子节点。
父节点
.parent
:获取某个元素的父节点
print(soup.p.parent)
.parents
:递归得到元素的所有父辈节点
parents = soup.p.parents for p in parents:print(p)
更多内容请查看官网父节点。
兄弟节点
.next_sibling
:获取下级单个兄弟节点
print(soup.p.next_sibling.next_sibling)
.previous_sibling
:获取上级单个兄弟节点
print(soup.body.previous_sibling.previous_sibling)
注意:在使用.next_sibling
和.previous_sibling
获取单个兄弟节点时,兄弟节点之间存在顿号和换行符的可能!!!
更多内容请查看官网兄弟节点。
搜索文档树
find
find方法,语法格式如下:
find( name , attrs , recursive , string , **kwargs )
参数说明:
参数 | 说明 |
---|---|
name | 需要查找的标签名,可以是字符串、正则表达式、列表或True |
attrs | 需要查找的标签的属性,可以是字典类型或关键字参数 |
recursive | 是否递归地搜索子标签,默认为True ,即会搜索所有子孙标签 |
string | 需要查找的标签中包含的文本内容 |
kwargs | 其他属性条件 |
通过find
方法搜索指定的标签。
print(soup.find('p', class_="aa")) print(soup.find('p', class_="aa", id="username"))
注意:class类样式的处理。
True
可以匹配任何值,如下示例返回第一个节点:
print(soup.find(True))
更多内容请查看官网。
find_all
find_all()
方法的基本语法如下:
find_all(name=None, attrs={}, recursive=True, text=None, limit=None, **kwargs)
参数说明:
参数 | 说明 |
---|---|
name | 需要查找的标签名,可以是字符串、正则表达式、列表或True |
attrs | 需要查找的标签的属性,可以是字典类型或关键字参数 |
recursive | 是否递归地搜索子标签,默认为True ,即会搜索所有子孙标签 |
text | 需要查找的标签中包含的文本内容 |
limit | 限制返回的结果数量,可以传入一个整数值 |
返回值:
-
如果找到满足条件的元素,则返回一个包含这些元素的列表。
-
如果未找到满足条件的元素,则返回一个空列表。
find_add
方法搜索当前标签下所有子节点,并判断是否符合过滤器的条件。
all = soup.find_all('p') for a in all:print(a) print(soup.find_all(["p", "input"]))
更多内容请查看官网。
css选择器
Beautiful Soup
支持大部分的CSS
选择器。在 Tag
或 BeautifulSoup
对象的 .select()
方法中传入字符串参数, 即可使用CSS
选择器的语法找到标签:
print(soup.select("title")) print(soup.select("body div")) print(soup.select("p.aa"))
3.综合案例
通过requests
和Beautiful Soup4
模块结合实现小说网站内容爬虫案例。
相关文章:

Python的解析网页
课前案例 通过requests模块爬取指定网站中的图片并保存到本地目录中。 上述案例采用的是同步方式下载图片,效率太低。异步方式如下(线程): # target为目标函数;args中传入的是download函数的参数url threading.Threa…...

VBA技术资料MF159:实现某个区域内的数据滚动
我给VBA的定义:VBA是个人小型自动化处理的有效工具。利用好了,可以大大提高自己的工作效率,而且可以提高数据的准确度。“VBA语言専攻”提供的教程一共九套,分为初级、中级、高级三大部分,教程是对VBA的系统讲解&#…...

开源DMS文档管理系统 Nuxeo Vs Alfresco对比及 API 使用概述
1. 文档管理系统是什么 文档管理系统(DMS:Document Management System)是一种软件系统,用于组织、存储、检索和管理电子文档和文件。这些文件可以是各种格式的电子文档,如文本文档、电子表格、图像、音频或视频文件等…...
lambda函数实践
文章目录 1.简单实例2.lambda函数使用3.捕获列表的使用4.lambda表达式的应用1.简单实例 2.lambda函数使用 3.捕获列表的使用 4.lambda表达式的应用 #include <iostream> #include <vector>using namespace std;/** 1.简单实例* 2.lambda函数使用* 3.捕获列表的…...

[leetcode hot 150]第一百九十一题,位1的个数
题目: 编写一个函数,输入是一个无符号整数(以二进制串的形式),返回其二进制表达式中设置位的个数(也被称为汉明重量)。 这道题比较简单,直接对最后一位进行与1的与操作,然…...

gitea的git库备份与恢复
文章目录 gitea库的备份与恢复概述笔记实验环境更新git for windows更新 TortoiseGit备份已经存在的gitea的git库目录使用gitea本身来备份所有git库目录将gitea库恢复到新目录m1m2m3启动gitea - 此时已经恢复完成FETCH_HEAD 中有硬写位置再查一下app.ini, 是否改漏了。m1m2 总结…...
【强化学习05】从Q学习到深度Q学习
深度Q学习(Deep Q-Learning, DQN)是将深度学习与Q学习结合起来的一种强化学习方法,利用神经网络来近似Q值函数,解决传统Q学习在大规模或连续状态空间中的局限性。下面详细解释DQN的机理。 背景知识 Q学习 Q学习是一种值函数法&…...

FPGA实现多路并行dds
目录 基本原理 verilog代码 仿真结果 基本原理 多路并行dds,传统DDS的局限性在于输出频率有限。根据奈奎斯特采样定理,单路DDS的输出频率应小于系统时钟频率的一半。但是在很多地方,要使采样率保持一致,所以,为了…...

ArcgisPro3.1.5安装手册
ArcgisPro3.1.5安装手册 一、目录介绍: 二、安装教程: (1)安装顺序:最先安装运行环境(runtime6.0.5),接着安装install里面的文件,最后复制path里面的文件替换到软件bin文件夹下即可。 (2)具体安装步骤ÿ…...
三大主流框架
Web前端开发领域中,三大主流框架通常指的是: React:由Facebook开发的一个用于构建用户界面的JavaScript库。React以其组件化、声明式编程和虚拟DOM等特点而广受欢迎,能够高效地更新和渲染大型应用。 Vue.js:由尤雨溪创…...

【C++】:vector容器的底层模拟实现迭代器失效隐藏的浅拷贝
目录 💡前言一,构造函数1 . 强制编译器生成默认构造2 . 拷贝构造3. 用迭代器区间初始化4. 用n个val值构造5. initializer_list 的构造 二,析构函数三,关于迭代器四,有关数据个数与容量五,交换函数swap六&am…...

必看项目|多维度揭示心力衰竭患者生存关键因素(生存分析、统计检验、随机森林)
1.项目背景 心力衰竭是一种严重的公共卫生问题,影响着全球数百万人的生活质量和寿命,心力衰竭的病因复杂多样,既有个体生理因素的影响,也受到环境和社会因素的制约,个体的生活方式、饮食结构和医疗状况在很大程度上决定了其心力衰竭的风险。在现代社会,随着生活水平的提…...
centos安装Redis
在CentOS上安装Redis的步骤如下: 使用yum安装依赖库: sudo yum install -y gcc make 下载Redis源码: wget http://download.redis.io/releases/redis-6.0.9.tar.gz 解压Redis源码: tar xzf redis-6.0.9.tar.gz 编译Redis&…...
继承与多态2
2.5(杨.丹尼尔梁英文第11版P537:*13.12)(几何对象的面积求和)写一个方法,将数组中所有几何对象的面积求和。 方法签名是: 公共静态双求和区域(几何对象【】a) 编写一个测试程序&…...
在RT-Thread下为MPU手搓以太网MAC驱动-3
文章目录 MAC驱动支持不同的PHY芯片关于对PHY设备抽象的改进RT-Thread下PHY设备抽象接口的改进关于对PHY设备抽象的改进 这是个人驱动开发过程中做的一些记录,仅代表个人意见和理解,不喜勿喷 MAC驱动需要支持不同的PHY芯片 MAC驱动支持不同的PHY芯片 关…...
Cocos Creator 2D物理引擎的使用详解
前言 Cocos Creator是一款优秀的游戏开发工具,它提供了强大的2D物理引擎,帮助开发者轻松实现游戏中的物理效果。在本文中,我们将详细介绍Cocos Creator中2D物理引擎的使用方法,并通过代码实现来演示其具体应用。 对惹࿰…...

618局外人抖音:别人挤压商家“拼价格”,它默默联合商家“抢用户”?
文|新熔财经 作者|宏一 “618”来临之际,各电商平台和短视频平台早已打响了“促销大战”。不过,今年各大平台都更积极适应新的消费形式,调整了“大促动作”。 比如淘宝、京东带头取消了沿用十年之久的预售机制&…...

【Unity AR开发插件】五、运行示例程序
专栏 本专栏将介绍如何使用这个支持热更的AR开发插件,快速地开发AR应用。 链接: Unity开发AR系列 热更数据制作:制作热更数据-AR图片识别场景 插件简介 通过热更技术实现动态地加载AR场景,简化了AR开发流程,让用户可…...
JavaScript className 类名属性操作
在JavaScript中,可以通过className属性来操作HTML元素的类名。 添加类名:可以使用element.className "className"来添加一个类名到元素中。 var element document.getElementById("myElement"); element.className " newC…...

做场外个股期权怎么询价
做场外个股期权怎么询价?没有具体的哪家做市商是询价是最低的,个人投资者需要通过机构通道方询价进行对比,各券商的报价由询价机构方提供给到投资者,可以参考不同券商的报价进行比对,再决定是否进行投资。本文来自&…...
树莓派超全系列教程文档--(62)使用rpicam-app通过网络流式传输视频
使用rpicam-app通过网络流式传输视频 使用 rpicam-app 通过网络流式传输视频UDPTCPRTSPlibavGStreamerRTPlibcamerasrc GStreamer 元素 文章来源: http://raspberry.dns8844.cn/documentation 原文网址 使用 rpicam-app 通过网络流式传输视频 本节介绍来自 rpica…...

CocosCreator 之 JavaScript/TypeScript和Java的相互交互
引擎版本: 3.8.1 语言: JavaScript/TypeScript、C、Java 环境:Window 参考:Java原生反射机制 您好,我是鹤九日! 回顾 在上篇文章中:CocosCreator Android项目接入UnityAds 广告SDK。 我们简单讲…...
linux 下常用变更-8
1、删除普通用户 查询用户初始UID和GIDls -l /home/ ###家目录中查看UID cat /etc/group ###此文件查看GID删除用户1.编辑文件 /etc/passwd 找到对应的行,YW343:x:0:0::/home/YW343:/bin/bash 2.将标红的位置修改为用户对应初始UID和GID: YW3…...
【Nginx】使用 Nginx+Lua 实现基于 IP 的访问频率限制
使用 NginxLua 实现基于 IP 的访问频率限制 在高并发场景下,限制某个 IP 的访问频率是非常重要的,可以有效防止恶意攻击或错误配置导致的服务宕机。以下是一个详细的实现方案,使用 Nginx 和 Lua 脚本结合 Redis 来实现基于 IP 的访问频率限制…...

C++实现分布式网络通信框架RPC(2)——rpc发布端
有了上篇文章的项目的基本知识的了解,现在我们就开始构建项目。 目录 一、构建工程目录 二、本地服务发布成RPC服务 2.1理解RPC发布 2.2实现 三、Mprpc框架的基础类设计 3.1框架的初始化类 MprpcApplication 代码实现 3.2读取配置文件类 MprpcConfig 代码实现…...

算术操作符与类型转换:从基础到精通
目录 前言:从基础到实践——探索运算符与类型转换的奥秘 算术操作符超级详解 算术操作符:、-、*、/、% 赋值操作符:和复合赋值 单⽬操作符:、--、、- 前言:从基础到实践——探索运算符与类型转换的奥秘 在先前的文…...

7种分类数据编码技术详解:从原理到实战
在数据分析和机器学习领域,分类数据(Categorical Data)的处理是一个基础但至关重要的环节。分类数据指的是由有限数量的离散值组成的数据类型,如性别(男/女)、颜色(红/绿/蓝)或产品类…...

分布式光纤声振传感技术原理与瑞利散射机制解析
分布式光纤传感技术(Distributed Fiber Optic Sensing,简称DFOS)作为近年来迅速发展的新型感知手段,已广泛应用于边界安防、油气管道监测、结构健康诊断、地震探测等领域。其子类技术——分布式光纤声振传感(Distribut…...

SeaweedFS S3 Spring Boot Starter
SeaweedFS S3 Spring Boot Starter 源码特性环境要求快速开始1. 添加依赖2. 配置文件3. 使用方式方式一:注入服务类方式二:使用工具类 API 文档SeaweedFsS3Service 主要方法SeaweedFsS3Util 工具类方法 配置参数运行测试构建项目注意事项集成应用更多项目…...

MTK-Android12-13 Camera2 设置默认视频画质功能实现
MTK-Android12-13 Camera2 设置默认视频画质功能实现 场景:部分客户使用自己的mipi相机安装到我们主板上,最大分辨率为1280720,但是视频画质默认的是640480。实际场景中,在默认视频分辨率情况下拍出来的视频比较模糊、预览也不清晰…...