当前位置: 首页 > article >正文

Python异步爬虫实战:如何避免aiohttp的ServerDisconnectedError(附完整代码)

Python异步爬虫实战深度解决aiohttp的ServerDisconnectedError问题最近在帮朋友优化一个电商价格监控项目时遇到了令人头疼的ServerDisconnectedError。每当爬取量超过5000条商品数据时程序就会随机崩溃控制台满是红色错误日志。经过三天调试和六次方案迭代终于找到了稳定运行的配置方案。本文将分享这些实战经验帮你彻底解决这个异步爬虫中的经典难题。1. 理解ServerDisconnectedError的本质ServerDisconnectedError本质上是一种TCP层连接异常当客户端与服务器之间的连接被意外终止时就会触发。在异步爬虫场景中这通常意味着服务器主动断开空闲连接客户端并发请求超过服务器限制网络不稳定导致连接中断客户端未正确管理连接池典型错误表现aiohttp.client_exceptions.ServerDisconnectedError: Server disconnected通过Wireshark抓包分析发现大多数情况下是客户端未能及时释放连接导致服务器主动断开。这与同步请求不同异步环境下连接管理需要特别关注生命周期。2. 基础解决方案共享Session的正确姿势原始代码最大的问题是每次请求都新建Session这相当于每次访问都建立新的TCP连接。正确的做法应该是async def fetch(url, session): try: async with session.get(url, timeout20) as response: return await response.text() except Exception as e: print(f请求失败: {url}, 错误: {str(e)}) return None async def main(urls): connector aiohttp.TCPConnector(limit100) # 控制并发量 async with aiohttp.ClientSession(connectorconnector) as session: tasks [fetch(url, session) for url in urls] return await asyncio.gather(*tasks)关键改进点使用单个ClientSession实例通过TCPConnector限制最大连接数添加合理的超时设置完善的异常处理3. 高级配置连接池调优实战仅仅共享Session还不够我们需要深入调整连接池参数。以下是我的生产环境配置表参数默认值推荐值作用limit10050-300最大并发连接数limit_per_host0(无限制)20单域名最大连接ttl_dns_cache10300DNS缓存时间(秒)force_closeFalseTrue强制关闭空闲连接enable_cleanup_closedFalseTrue自动清理关闭连接优化后的初始化代码def create_session(): connector aiohttp.TCPConnector( limit150, limit_per_host30, ttl_dns_cache300, force_closeTrue, enable_cleanup_closedTrue ) timeout aiohttp.ClientTimeout(total30, connect10) return aiohttp.ClientSession( connectorconnector, timeouttimeout, headers{User-Agent: MyCrawler/1.0} )4. 异常处理与重试机制即使优化了连接管理网络异常仍不可避免。我们需要实现智能重试策略from async_retrying import retry retry(attempts3, delay1, backoff2) async def robust_fetch(url, session): try: async with session.get(url) as resp: if resp.status 429: await asyncio.sleep(5) # 处理速率限制 raise Exception(Rate limited) return await resp.text() except (aiohttp.ClientError, asyncio.TimeoutError) as e: print(f请求异常: {type(e).__name__}) raise重试策略要点指数退避算法避免雪崩特殊处理429状态码区分可重试异常类型限制最大重试次数5. 性能监控与调试技巧当爬虫规模扩大后需要实时监控连接状态。这是我常用的监控代码片段async def monitor_connections(session): while True: print(f活跃连接: {session.connector._conns}) print(f等待队列: {len(session.connector._waiters)}) await asyncio.sleep(5) async def main(): session create_session() monitor_task asyncio.create_task(monitor_connections(session)) try: # 执行爬取任务 await crawl(session) finally: monitor_task.cancel() await session.close()调试时特别关注连接泄漏持续增长的活跃连接数DNS查询耗时等待队列堆积情况连接建立成功率6. 生产环境完整解决方案结合上述所有优化点这是我在电商爬虫项目中最终采用的架构class AsyncCrawler: def __init__(self): self.session None self.semaphore asyncio.Semaphore(100) # 控制整体并发 async def __aenter__(self): self.session create_session() return self async def __aexit__(self, *args): await self.session.close() retry(attempts3) async def fetch(self, url): async with self.semaphore: try: async with self.session.get(url) as resp: if resp.status ! 200: raise ValueError(fBad status: {resp.status}) return await resp.json() except aiohttp.ClientPayloadError: print(f数据截断: {url}) raise async def run_crawler(urls): async with AsyncCrawler() as crawler: tasks [crawler.fetch(url) for url in urls] return await asyncio.gather(*tasks, return_exceptionsTrue)这套方案成功将日均500万请求的失败率从12%降到了0.3%。关键点在于使用上下文管理器确保Session正确关闭信号量控制总体并发细粒度的异常分类处理结构化日志记录7. 常见陷阱与性能对比在调试过程中我踩过不少坑这里总结几个典型错误案例错误做法1忽略DNS缓存# 每次请求都新建连接器导致DNS重复查询 async def fetch(url): async with aiohttp.ClientSession() as session: async with session.get(url) as resp: return await resp.text()错误做法2过度并发# 不限制并发导致服务器拒绝服务 async def main(urls): session aiohttp.ClientSession() tasks [session.get(url) for url in urls] # 1000并发 await asyncio.gather(*tasks)性能对比数据方案请求成功率平均耗时内存占用原始方案68%1200ms高共享Session89%800ms中优化连接池97%600ms低完整方案99.7%550ms可控最后给个实用建议在正式爬取前先用小规模测试约100个URL验证配置参数观察连接状态和错误类型逐步调整到最优配置。记住每个目标网站的特性可能不同需要针对性调整限流策略。

相关文章:

Python异步爬虫实战:如何避免aiohttp的ServerDisconnectedError(附完整代码)

Python异步爬虫实战:深度解决aiohttp的ServerDisconnectedError问题 最近在帮朋友优化一个电商价格监控项目时,遇到了令人头疼的ServerDisconnectedError。每当爬取量超过5000条商品数据时,程序就会随机崩溃,控制台满是红色错误日…...

2026届毕业生推荐的十大降重复率助手实际效果

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 人工智能技术于学术写作领域的运用愈发广泛,其助力论文撰写的本领已获实证&#…...

微信支付ApiV3回调实战:Java版签名校验与参数解密全流程解析

1. 微信支付ApiV3回调的核心流程 微信支付ApiV3的回调机制是整个支付流程中非常关键的一环。当用户完成支付后,微信服务器会主动向商户服务器发送支付结果通知。这个通知包含了支付状态、金额等重要信息,但为了确保数据安全,微信会对这些信息…...

深度解析jqktrader:基于Python的同花顺自动化交易架构设计与实战应用

深度解析jqktrader:基于Python的同花顺自动化交易架构设计与实战应用 【免费下载链接】jqktrader 同花顺自动程序化交易 项目地址: https://gitcode.com/gh_mirrors/jq/jqktrader 在量化交易技术快速发展的今天,传统手动交易已无法满足高频、精准…...

1-1 从零实现邻接矩阵:构建无向图的核心步骤与实战解析

1. 邻接矩阵与无向图:从概念到代码的桥梁 第一次接触图论时,我完全被那些抽象的概念搞晕了。直到有一天,导师在黑板上画了个简单的社交网络图:"你看,每个人是一个点,好友关系是连线,这不就…...

Flowable6.4实战:如何优雅处理并行网关驳回与多实例加减签(附完整代码)

Flowable 6.4实战:并行网关驳回与多实例加减签的工程化解决方案 在企业级流程审批系统中,并行任务处理和多实例任务动态调整是高频需求场景。当某部门采购申请需要同时经过财务审核、法务审核和业务负责人审核时,传统串行审批模式会导致效率…...

PPTist:重新定义在线演示文稿创作体验

PPTist:重新定义在线演示文稿创作体验 【免费下载链接】PPTist PowerPoint-ist(/pauəpɔintist/), An online presentation application that replicates most of the commonly used features of MS PowerPoint, allowing for the editing a…...

Kindle电子书制作终极指南:Typora+Calibre从入门到精通(附常见问题解决方案)

Kindle电子书制作终极指南:TyporaCalibre从入门到精通(附常见问题解决方案) 1. 为什么需要自制Kindle电子书? 作为一个深度阅读爱好者,我发现自己收藏的很多优质内容无法直接推送到Kindle上阅读。比如个人整理的读书笔…...

3步解锁加密音乐:ncmdumpGUI技术解析与实战指南

3步解锁加密音乐:ncmdumpGUI技术解析与实战指南 【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换,Windows图形界面版本 项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI ncmdumpGUI是一款专为网易云音乐用户设计的NCM文件…...

从4.3(a)到2.1再到4.3(a):一次App Store审核“过山车”的实战复盘与破局

1. 当4.3(a)突然降临:一场没有预警的"Spam"风暴 那天早上我像往常一样打开邮箱,看到苹果审核团队的回复时,整个人瞬间清醒——醒目的"Guideline 4.3(a) - Design - Spam"像一盆冷水浇下来。这已经是我们的RPG游戏第三次提…...

RTX 3090上跑Isaac Lab强化学习:从克隆仓库到训练蚂蚁机器人保姆级避坑指南

RTX 3090上的Isaac Lab强化学习实战:从零训练蚂蚁机器人的完整指南 在机器人强化学习领域,NVIDIA Isaac Lab正迅速成为研究者和开发者的首选工具链。当RTX 3090的24GB显存遇上Ubuntu 22.04的稳定环境,这套组合能为复杂RL任务提供令人惊喜的训…...

避坑指南:WFDB读取ECG数据时,.hea文件真的‘几乎没用’吗?

避坑指南:WFDB读取ECG数据时,.hea文件真的‘几乎没用’吗? 在生物信号处理领域,WFDB(Waveform Database)格式是存储心电图(ECG)数据的黄金标准。许多开发者习惯性地认为.hea头文件只…...

Windows10下PaddleOCR与Python3.8.5的完美搭配:从安装到实战OCR识别

Windows10下PaddleOCR与Python3.8.5的深度实践指南 在数字化办公和自动化流程日益普及的今天,光学字符识别(OCR)技术已经成为从图像中提取文本信息的重要工具。PaddleOCR作为百度开源的OCR工具库,凭借其出色的识别准确率和易用性…...

Zemax中的色差分析与优化策略

1. 色差基础:为什么你的镜头拍不出清晰照片? 每次用手机拍夕阳时,总发现边缘有紫色光晕?这就是色差在作怪。作为光学设计中最常见的像差之一,色差会让不同颜色的光无法汇聚在同一点,导致成像模糊和颜色失真…...

微型LoRa数传电台:5KM无线通讯,空旷实测无压力

微型LoRa数传电台的通讯距离没有固定数值,从几十米到十几公里都有可能。它强烈依赖于具体的工作环境、设备配置以及天线状况。 一、不同环境下通讯距离: 理想环境 (郊区、农田、沙漠、海上)下3 - 10 公里,收发天线间无任何遮挡,是…...

告别手动转换!用Python自动化处理CSV到Little_R的完整指南

告别手动转换!用Python自动化处理CSV到Little_R的完整指南 在数据科学和机器学习领域,数据格式转换是一项频繁且耗时的任务。特别是当我们需要将常见的CSV格式转换为特定领域专用的Little_R格式时,手动操作不仅效率低下,还容易出错…...

告别手动调试!用Chrome DevTools MCP+VS Code实现前端BUG自动诊断

前端调试革命:Chrome DevTools MCP与VS Code的智能协作实践 1. 传统前端调试的痛点与破局 每次遇到CSS布局错乱或API请求失败时,前端开发者都要重复相同的机械操作:打开浏览器→复现问题→查看控制台→分析网络请求→修改代码→刷新验证。这…...

避坑指南:STM32与串口屏通信中的3大常见错误及解决方法

STM32与串口屏通信实战:3个工程师踩过的坑与解决方案 第一次在项目中使用串口屏时,我盯着屏幕上闪烁的乱码整整两天——波特率设置明明和手册一致,为什么数据就是不对?相信很多工程师都遇到过类似的困扰。串口通信看似简单&#x…...

python-langchain框架(1-8-2 缓存机制——验证缓存的效果)

当用户提出一个常见问题时,首次调用大模型需要经历网络传输、排队等待、模型推理等完整链路,响应时间通常在1至3秒。这个时长已超过人类对“流畅交互”的心理阈值(200毫秒),用户会明显感知到“卡顿”和“等待焦虑”。而…...

FPGA新手避坑:用Quartus Prime 23.1的FIFO IP核实现跨时钟域传输(附仿真代码)

FPGA跨时钟域传输实战:Quartus Prime 23.1 FIFO IP核深度解析 第一次在Quartus Prime里拖拽FIFO IP核时,看着满屏的参数选项,我对着屏幕发呆了十分钟——到底该选同步还是异步?深度设多少合适?为什么仿真时数据总对不上…...

VisualCppRedist AIO:一个文件解决Windows运行库的十年难题

VisualCppRedist AIO:一个文件解决Windows运行库的十年难题 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 你是否曾在打开心爱的游戏或专业软件时&a…...

轻量级加密新选择:tiny-AES-c深度解析

轻量级加密新选择:tiny-AES-c深度解析 【免费下载链接】tiny-AES-c Small portable AES128/192/256 in C 项目地址: https://gitcode.com/gh_mirrors/ti/tiny-AES-c 在嵌入式系统与物联网设备等资源受限环境中,数据安全面临着独特挑战。轻量级AES…...

2024年实测:火狐浏览器上这3款广告过滤插件,谁才是真正的网页加速器?

2024年火狐浏览器广告过滤插件终极对决:谁才是网页加速王者? 在数字时代,网页浏览速度直接影响着我们的工作效率和上网体验。对于火狐浏览器用户来说,选择一款高效的广告过滤插件不仅能屏蔽恼人的广告,更能显著提升页面…...

【OpenCore Configurator】:解决黑苹果配置难题的智能化解决方案

【OpenCore Configurator】:解决黑苹果配置难题的智能化解决方案 【免费下载链接】OpenCore-Configurator A configurator for the OpenCore Bootloader 项目地址: https://gitcode.com/gh_mirrors/op/OpenCore-Configurator OpenCore Configurator作为一款针…...

Verilog有限状态机实战:5分钟搞定红绿灯控制器(附完整代码)

Verilog有限状态机实战:从红绿灯控制器掌握FPGA设计精髓 红绿灯控制器是数字电路设计的经典案例,也是学习Verilog有限状态机(FSM)的最佳切入点。作为FPGA初学者,你可能已经看过各种理论讲解,但真正动手时依…...

从参数化几何到气动分析:OpenVSP航空设计工具深度解析

从参数化几何到气动分析:OpenVSP航空设计工具深度解析 【免费下载链接】OpenVSP A parametric aircraft geometry tool 项目地址: https://gitcode.com/gh_mirrors/ope/OpenVSP 在航空工程领域,如何将概念设计快速转化为可分析的几何模型一直是技…...

深圳地铁大数据客流分析系统:如何用开源技术栈破解千万级乘客的交通治理难题

深圳地铁大数据客流分析系统:如何用开源技术栈破解千万级乘客的交通治理难题 【免费下载链接】SZT-bigdata 深圳地铁大数据客流分析系统🚇🚄🌟 项目地址: https://gitcode.com/gh_mirrors/sz/SZT-bigdata 深圳地铁作为中国…...

LangChain-AI应用开发框架(四)

目录 一.LangChain软件包安装 二.LangChain能力详解 1.本章节环境说明 2.目标与内容 三.详细过程 1.步骤1: a.申请API key并配置环境变量 b.配置环境变量 步骤2:定义大模型 a.安装OpenAI包 b.定义大模型 步骤3:定义消息列表 步骤4&#xff…...

从点云数据到3D实例分割:手把手带你跑通Mask3D在S3DIS数据集上的完整流程

从点云数据到3D实例分割:手把手带你跑通Mask3D在S3DIS数据集上的完整流程 在三维视觉领域,点云实例分割一直是极具挑战性的任务。想象一下,当你面对一个杂乱无章的办公室场景点云数据时,如何让算法不仅能识别出桌椅、电脑等物体&a…...

LIN总线‘智能调度’到底怎么玩?一个汽车雨刮案例讲透事件触发与偶发帧

LIN总线智能调度实战:汽车雨刮系统的动态事件处理与性能优化 雨滴敲击挡风玻璃的瞬间,现代汽车的智能雨刮系统已经完成了从感知到响应的全套动作。这背后是LIN总线在主从架构下对事件触发、偶发调度和诊断插入的精密协调——本文将用工程视角拆解这套机制…...