当前位置: 首页 > news >正文

python【多线程、单线程、异步编程】三个版本--在爬虫中的应用

并发编程在爬虫中的应用

之前的课程,我们已经为大家介绍了 Python 中的多线程、多进程和异步编程,通过这三种手段,我们可以实现并发或并行编程,这一方面可以加速代码的执行,另一方面也可以带来更好的用户体验。爬虫程序是典型的 I/O 密集型任务,对于 I/O 密集型任务来说,多线程和异步 I/O 都是很好的选择,因为当程序的某个部分因 I/O 操作阻塞时,程序的其他部分仍然可以运转,这样我们不用在等待和阻塞中浪费大量的时间。

下面我们以爬取“360图片”网站的图片并保存到本地为例,为大家分别展示使用单线程、多线程和异步 I/O 编程的爬虫程序有什么区别,同时也对它们的执行效率进行简单的对比。

“360图片”网站的页面使用了 Ajax 技术,这是很多网站都会使用的一种异步加载数据和局部刷新页面的技术。简单的说,页面上的图片都是通过 JavaScript 代码异步获取 JSON 数据并动态渲染生成的,而且整个页面还使用了瀑布式加载(一边向下滚动,一边加载更多的图片)。我们在浏览器的“开发者工具”中可以找到提供动态内容的数据接口,如下图所示,我们需要的图片信息就在服务器返回的 JSON 数据中。

在这里插入图片描述

例如,要获取“美女”频道的图片,我们可以请求如下所示的URL,其中参数ch表示请求的频道,=后面的参数值beauty就代表了“美女”频道,参数sn相当于是页码,0表示第一页(共30张图片),30表示第二页,60表示第三页,以此类推。

https://image.so.com/zjl?ch=beauty&sn=0

单线程版本

通过上面的 URL 下载“美女”频道共90张图片。

"""
example04.py - 单线程版本爬虫
"""
import osimport requestsdef download_picture(url):filename = url[url.rfind('/') + 1:]resp = requests.get(url)if resp.status_code == 200:with open(f'images/beauty/{filename}', 'wb') as file:file.write(resp.content)def main():if not os.path.exists('images/beauty'):os.makedirs('images/beauty')for page in range(3):resp = requests.get(f'https://image.so.com/zjl?ch=beauty&sn={page * 30}')if resp.status_code == 200:pic_dict_list = resp.json()['list']for pic_dict in pic_dict_list:download_picture(pic_dict['qhimg_url'])if __name__ == '__main__':main()

在 macOS 或 Linux 系统上,我们可以使用time命令来了解上面代码的执行时间以及 CPU 的利用率,如下所示。

time python3 example04.py 

下面是单线程爬虫代码在我的电脑上执行的结果。

python3 example04.py  2.36s user 0.39s system 12% cpu 21.578 total

这里我们只需要关注代码的总耗时为21.578秒,CPU 利用率为12%

多线程版本

我们使用之前讲到过的线程池技术,将上面的代码修改为多线程版本。

"""
example05.py - 多线程版本爬虫
"""
import os
from concurrent.futures import ThreadPoolExecutorimport requestsdef download_picture(url):filename = url[url.rfind('/') + 1:]resp = requests.get(url)if resp.status_code == 200:with open(f'images/beauty/{filename}', 'wb') as file:file.write(resp.content)def main():if not os.path.exists('images/beauty'):os.makedirs('images/beauty')with ThreadPoolExecutor(max_workers=16) as pool:for page in range(3):resp = requests.get(f'https://image.so.com/zjl?ch=beauty&sn={page * 30}')if resp.status_code == 200:pic_dict_list = resp.json()['list']for pic_dict in pic_dict_list:pool.submit(download_picture, pic_dict['qhimg_url'])if __name__ == '__main__':main()

执行如下所示的命令。

time python3 example05.py

代码的执行结果如下所示:

python3 example05.py  2.65s user 0.40s system 95% cpu 3.193 total

异步I/O版本

我们使用aiohttp将上面的代码修改为异步 I/O 的版本。为了以异步 I/O 的方式实现网络资源的获取和写文件操作,我们首先得安装三方库aiohttpaiofile,命令如下所示。

pip install aiohttp aiofile

aiohttp 的用法在之前的课程中已经做过简要介绍,aiofile模块中的async_open函数跟 Python 内置函数open的用法大致相同,只不过它支持异步操作。下面是异步 I/O 版本的爬虫代码。

"""
example06.py - 异步I/O版本爬虫
"""
import asyncio
import json
import osimport aiofile
import aiohttpasync def download_picture(session, url):filename = url[url.rfind('/') + 1:]async with session.get(url, ssl=False) as resp:if resp.status == 200:data = await resp.read()async with aiofile.async_open(f'images/beauty/{filename}', 'wb') as file:await file.write(data)async def fetch_json():async with aiohttp.ClientSession() as session:for page in range(3):async with session.get(url=f'https://image.so.com/zjl?ch=beauty&sn={page * 30}',ssl=False) as resp:if resp.status == 200:json_str = await resp.text()result = json.loads(json_str)for pic_dict in result['list']:await download_picture(session, pic_dict['qhimg_url'])def main():if not os.path.exists('images/beauty'):os.makedirs('images/beauty')loop = asyncio.get_event_loop()loop.run_until_complete(fetch_json())loop.close()if __name__ == '__main__':main()

执行如下所示的命令。

time python3 example06.py

代码的执行结果如下所示:

python3 example06.py  0.82s user 0.21s system 27% cpu 3.782 total

总结

通过上面三段代码执行结果的比较,我们可以得出一个结论,使用多线程和异步 I/O 都可以改善爬虫程序的性能,因为我们不用将时间浪费在因 I/O 操作造成的等待和阻塞上,而time命令的执行结果也告诉我们,单线程的代码 CPU 利用率仅仅只有12%,而多线程版本的 CPU 利用率则高达95%;单线程版本的爬虫执行时间约21秒,而多线程和异步 I/O 的版本仅执行了3秒钟。另外,在运行时间差别不大的情况下,多线程的代码比异步 I/O 的代码耗费了更多的 CPU 资源,这是因为多线程的调度和切换也需要花费 CPU 时间。至此,三种方式在 I/O 密集型任务上的优劣已经一目了然,当然这只是在我的电脑上跑出来的结果。如果网络状况不是很理想或者目标网站响应很慢,那么使用多线程和异步 I/O 的优势将更为明显,有兴趣的读者可以自行试验。

相关文章:

python【多线程、单线程、异步编程】三个版本--在爬虫中的应用

并发编程在爬虫中的应用 之前的课程,我们已经为大家介绍了 Python 中的多线程、多进程和异步编程,通过这三种手段,我们可以实现并发或并行编程,这一方面可以加速代码的执行,另一方面也可以带来更好的用户体验。爬虫程…...

大模型LLM相关面试题整理-位置编码-tokenizer-激活函数-layernorm

10 LLMs 位置编码篇 10.1.1 什么是位置编码? 位置编码是一种用于在序列数据中为每个位置添加位置信息的技术。在自然语言处理中,位置编码通常用于处理文本序列。由于传统的神经网络无法直接捕捉输入序列中的位置信息,位置编码的引入可以帮助…...

python在nacos注册微服务

安装 首先需要安装python的nacos sdk pip install nacos-sdk-python 注册 注册过程非常简单,需要注意的是,注册完要定时发送心跳,否则服务会被nacos删掉。 import nacos import timeSERVER_ADDRESSES "http://1.2.3.4:8848" …...

tuxera ntfs2024破解版mac电脑磁盘读写软件

大家都知道由于操作系统的原因,在苹果电脑上不能够读写NTFS磁盘,但是,今天小编带来的这款tuxera ntfs 2024 mac版,完美的解决了这个问题。这是一款在macOS平台上使用的磁盘读写软件,能够实现苹果Mac OS X系统读写Micro…...

【源码】C++坦克大战源码

文章目录 题目介绍你收到的所有文件源码效果展示报告内容 题目介绍 代码量:1450 语言:C 你收到的所有文件 其中一个是devc版本,也可以用visual stdio 运行。 源码效果展示 typedef struct //这里的出现次序指的是一个AI_ta…...

AIO开放接口平台免费畅享ChatGPT聊天、联网互动、学术等服务!更有DALL·E 3最强AI绘图功能!

免费畅享! AIO平台ChatGPT联网、聊天、学术等服务! AIO开放接口平台 | 服务介绍 ALL IN ONE (AIO)API服务是LLM(大语言模型)开放接口平台:持续接入各种主流的大模型接口,并提供简单、易用、统一的API交互…...

【python】屈小原现在要为学校写校庆贺文(CTGU百年校庆)

题目: """ 题目描述: 屈小原需要为学校的校庆写一篇贺文,共需写下n个字,但他目前只完成了1个字。屈小原可以进行两种操作: 在文档的末尾添加一个字,这样字数就会变为x1。 写下与当前字数相同…...

探索未来的视觉革命:卷积神经网络的崭新时代(二)

💗💗💗欢迎来到我的博客,你将找到有关如何使用技术解决问题的文章,也会找到某个技术的学习路线。无论你是何种职业,我都希望我的博客对你有所帮助。最后不要忘记订阅我的博客以获取最新文章,也欢…...

博客后台模块续更(三)

四、后台模块-动态路由 实现了这个动态路由功能之后,就能在浏览器web页面登录进博客管理后台了 1. 接口分析 后台系统需要能实现不同的用户权限可以看到不同的功能,即左侧的导航栏 请求方式 请求地址 请求头 GET /getRouters 需要token请求头 …...

第十二届蓝桥杯模拟赛第三期

A填空题 问题描述 请问在 1 到 2020 中&#xff0c;有多少个数与 2020 互质&#xff0c;即有多少个数与 2020 的最大公约数为 1。 参考答案 800 public class Main {public static void main(String[] args) {int ans0;for(int i1;i<2020;i) {if(gcd(2020,i)1) {ans;}}…...

2023年浙大MEM考前80天上岸经验分享

时间过得真快&#xff0c;转眼间已经是十月份了。回想起去年这个时候&#xff0c;我还在为考研而感到焦虑不安。然而&#xff0c;如今我已经在浙大MEM项目学习了一个多月的时间了。在这一个月的学习过程中&#xff0c;我不仅学到了许多专业知识&#xff0c;还结识了很多志同道合…...

增加并行度后,发现Flink窗口不会计算的问题。

文章目录 前言一、现象二、结论三、解决 前言 窗口没有关闭计算的问题&#xff0c;一直困扰了很久&#xff0c;经过多次验证&#xff0c;确定了问题的根源。 一、现象 Flink使用了window&#xff0c;同时使用了watermark &#xff0c;并且还设置了较高的并行度。生产是设置了…...

使用 JMeter 和 Docker 进行服务存根

用于性能测试的服务存根&#xff1a;简介 随着测试项目的复杂性不断增加&#xff0c;越来越多的被测系统的测试流程受到依赖系统的影响。当我说“依赖系统”时&#xff0c;我指的是&#xff1a; 不受当前开发影响的遗留系统 属于另一个组织的第三方服务 您的组织开发的系统&am…...

《王道计算机考研——操作系统》学习笔记总目录+思维导图

本篇文章是对《王道计算机考研——操作系统》所有知识点的笔记总结归档和计算机网络的思维导图 学习视频&#xff1a;王道计算机考研 操作系统 408四件套【计网、计组、操作系统、数据结构】完整课堂PPT 思维导图 &#xff08;求Star~&#xff09;&#xff1a;【王道考研】计…...

多模态及图像安全的探索与思考

前言 第六届中国模式识别与计算机视觉大会&#xff08;The 6th Chinese Conference on Pattern Recognition and Computer Vision, PRCV 2023&#xff09;已于近期在厦门成功举办。通过参加本次会议&#xff0c;使我有机会接触到许多来自国内外的模式识别和计算机视觉领域的研究…...

基础算法相关笔记

排序 最好情况下&#xff1a; 冒泡排序 最坏时间复杂度 O ( n 2 ) O(n^2) O(n2)。 插入排序 最坏时间复杂度为 O ( n 2 ) O(n^2) O(n2)&#xff0c;最优时间复杂度为 O ( n ) O(n) O(n)。 平均情况下&#xff1a; 快速排序 最坏时间复杂度为 O ( n 2 ) O(n^2) O(n2)&…...

Mac电脑无法识别移动硬盘怎么办?

很多人都喜欢在Mac电脑上办公、学习&#xff0c;但有时我们将移动硬盘连接Mac电脑时&#xff0c;却会发现电脑无法识别移动硬盘。那么&#xff0c;Mac电脑无法识别移动硬盘怎么办呢&#xff1f; Mac无法识别移动硬盘的原因 导致Mac不识别移动硬盘的原因有很多&#xff0c;你可…...

14Maven与Tomcat面试题

1MAVEN Maven是一个基于项目对象模型&#xff08;POM&#xff09;的项目管理工具&#xff0c;它可以帮助开发者自动化构建、依赖管理、项目报告等。Maven通过一个中央信息片段能够管理项目的构建、报告和文档等步骤&#xff0c;同时也能够管理项目的依赖。Maven的核心概念是POM…...

会议OA小程序【首页布局】

目录 一. Flex布局介绍 1.1 什么是Flex布局 1.2 基本概念 1.3 Flex属性 二. 会议OA首页轮播图的实现 配置 Mock工具 swiper 效果展示 三. 会议OA首页会议信息布局 index.js index.wxml index.wxss 首页整体效果展示 一. Flex布局介绍 布局的传统解决方案&#x…...

高效表达三步

一、高效表达 高效表达定主题搭架子填素材 第一&#xff1a; 1个核心主题&#xff0c;让别人秒懂你的想法 &#xff08;表达要定主题&#xff09; 第二&#xff1a; 3种经典框架&#xff0c;帮你快速整理表达思路 第三&#xff1a; 2种表达素材&#xff0c;让发言更具说服力…...

nli-distilroberta-base新手入门:句子关系判断的3个实用场景

nli-distilroberta-base新手入门&#xff1a;句子关系判断的3个实用场景 1. 认识nli-distilroberta-base nli-distilroberta-base是一个基于DistilRoBERTa模型的自然语言推理(NLI)服务&#xff0c;专门用于判断两个句子之间的关系。它可以帮助我们快速分析文本之间的逻辑关联…...

Gemma-3-12B-IT精彩案例分享:从初学者提问到完整函数实现的全过程

Gemma-3-12B-IT精彩案例分享&#xff1a;从初学者提问到完整函数实现的全过程 1. 引言&#xff1a;为什么这个案例值得一看&#xff1f; 如果你正在寻找一个能真正帮你写代码、解答疑惑的AI助手&#xff0c;那么今天分享的这个案例可能会让你眼前一亮。我们不是要讲空洞的理论…...

VMware Workstation 17 虚拟机安装 macOS Ventura 13 实战指南

1. 环境准备与工具下载 在开始安装之前&#xff0c;我们需要准备好必要的软件和工具。首先确保你的电脑满足以下硬件要求&#xff1a; 64位Windows 10/11操作系统至少8GB内存&#xff08;推荐16GB以上&#xff09;100GB以上可用磁盘空间支持虚拟化技术的CPU&#xff08;Intel V…...

STM32F103C8T6核心板驱动TM1650数码管实战:供电不足、时序调试那些坑我都替你踩了

STM32F103C8T6核心板驱动TM1650数码管实战&#xff1a;供电不足、时序调试那些坑我都替你踩了 第一次看到TM1650芯片时&#xff0c;我简直不敢相信这么小的封装能控制4位数码管。直到亲手调试时才发现&#xff0c;这个看似简单的驱动电路藏着不少"暗坑"——数码管时亮…...

省钱攻略:在AutoDL上用网盘离线安装PyTorch和Transformers,避开pip超时

AutoDL云平台深度学习环境搭建&#xff1a;网盘离线安装PyTorch全攻略 在按小时计费的云GPU平台上&#xff0c;每一分钟都在消耗真金白银。最近帮团队优化AutoDL环境搭建流程时发现&#xff0c;90%的实例启动时间浪费在pip安装环节——网络波动导致重复下载、依赖冲突引发环境崩…...

别再到处找脚本了!Windows 11家庭版一键解锁组策略(gpedit.msc)的保姆级教程

Windows 11家庭版解锁组策略的终极指南&#xff1a;告别复杂脚本&#xff0c;三步搞定系统隐藏功能 每次在Windows 11家庭版上输入gpedit.msc却看到"找不到文件"的提示时&#xff0c;那种挫败感我太熟悉了。作为一名长期使用家庭版系统的技术爱好者&#xff0c;我完全…...

高效WebLogic安全检测工具:5步完成专业漏洞扫描实战

高效WebLogic安全检测工具&#xff1a;5步完成专业漏洞扫描实战 【免费下载链接】WeblogicScan Weblogic一键漏洞检测工具&#xff0c;V1.5&#xff0c;更新时间&#xff1a;20200730 项目地址: https://gitcode.com/gh_mirrors/we/WeblogicScan WeblogicScan是一款专注…...

如何将SQL查询结果导出为CSV:SELECT INTO OUTFILE方法

MySQL的SELECT INTO OUTFILE受secure_file_priv限制且需FILE权限&#xff0c;导出无表头、需手动指定字段分隔符&#xff0c;字段含换行符时易解析失败&#xff1b;推荐用mysql命令行加--batch或Python pandas导出并处理编码、NULL及日期格式。MySQL不支持SELECT INTO OUTFILE&…...

TuGraph图数据库:5大核心功能全面解析与快速上手指南

TuGraph图数据库&#xff1a;5大核心功能全面解析与快速上手指南 【免费下载链接】tugraph-db TuGraph: A High Performance Graph Database. 项目地址: https://gitcode.com/gh_mirrors/tu/tugraph-db 在当今数据驱动的时代&#xff0c;图数据库正成为处理复杂关系数据…...

【深度解析】零代码到 CLI 双路径构建 AI Agent:RAG、工具调用与自动化工作流实战

摘要 本文基于视频内容&#xff0c;系统拆解一体化 AI Agent 平台的核心能力&#xff1a;工具调用、RAG 知识接入、MCP 扩展、可视化编排与 CLI 部署&#xff0c;并结合 Python 示例演示如何通过 OpenAI 兼容接口快速落地一个“文档问答 自动摘要”智能体系统。背景介绍 过去一…...