DrissionPage 异常处理实战指南:构建稳健的网页自动化防线
在网页自动化领域,异常处理能力直接决定了系统的健壮性。作为融合Selenium与Requests特性的创新工具,DrissionPage提供了多层次的异常处理机制。本文将深入剖析其异常体系,结合真实场景案例,为您构建一套完善的自动化容错方案。
一、异常类型全景图谱
1.1 基础异常分类
异常类别 | 典型场景 | 继承关系 |
---|---|---|
连接异常 | DNS解析失败/网络中断 | requests.ConnectionError |
超时异常 | 页面加载超时/API响应延迟 | requests.Timeout |
元素异常 | 元素未找到/不可交互 | NoSuchElementException |
状态码异常 | 4xx/5xx HTTP错误 | HTTPError |
验证异常 | 验证码拦截/反爬机制触发 | AuthenticationRequired |
1.2 DrissionPage特有异常
from drissionpage.exceptions import (PageJumpError, # 页面跳转异常DriverError, # 浏览器驱动异常SessionExpired, # 会话过期SmartModeError # 智能模式切换失败
)
典型案例分析:
try:page.get('https://example.com/admin')
except PageJumpError as e:if '302 Found' in str(e):print('检测到登录重定向,需处理认证')
except SessionExpired:print('会话令牌失效,需重新登录')
二、防御性编程实践
2.1 多层捕获策略
def safe_fetch(url):try:with ChromiumPage() as page:page.get(url, timeout=30)return page.ele('body').textexcept (ConnectionError, Timeout) as e:log_error(f'网络层异常: {str(e)}', retry=True)return handle_network_failure()except (NoSuchElementException, ElementNotInteractableException) as e:log_error(f'UI操作异常: {str(e)}', screenshot=True)return fallback_to_api(url)except Exception as e:log_critical(f'未知异常: {traceback.format_exc()}')raise SystemExit(1)
2.2 智能重试机制
from tenacity import (retry,stop_after_attempt,wait_exponential,retry_if_exception_type
)@retry(stop=stop_after_attempt(3),wait=wait_exponential(multiplier=1, min=2, max=10),retry=retry_if_exception_type((ConnectionError,Timeout,PageJumpError))
)
def robust_crawl(url):with ChromiumPage() as page:page.get(url, timeout=15)return page.html
重试策略优化:
- 指数退避:避免对目标服务器造成过大压力
- 异常筛选:仅对可恢复异常进行重试
- 状态标记:重试前设置
retrying=True
避免循环陷阱
2.3 上下文感知处理
class ContextAwareHandler:def __init__(self):self.retry_count = 0self.last_error = Nonedef __call__(self, func):def wrapper(*args, **kwargs):try:return func(*args, **kwargs)except Exception as e:self.last_error = eif self.retry_count < 3:self.retry_count += 1if self._should_retry(e):return self._handle_retry(func, args, kwargs)raisereturn wrapperdef _should_retry(self, e):return isinstance(e, (ConnectionError, Timeout)) and not self._is_critical(e)def _handle_retry(self, func, args, kwargs):if self.retry_count == 1:switch_to_cdn() # 切换CDN节点elif self.retry_count == 2:refresh_cookies() # 刷新会话凭证return func(*args, **kwargs)
三、高级容错模式
3.1 混合模式容错
def hybrid_fetch(url):try:with SessionPage() as page:return page.get(url, timeout=5)except (HTTPError, Timeout):try:with ChromiumPage(headless=True) as page:return page.get(url, timeout=30)except Exception as e:raise HybridModeFailure(f'混合模式均失败: {str(e)}')
性能对比(1000次请求测试):
模式 | 成功率 | 平均耗时 | 资源占用 |
---|---|---|---|
纯Session | 82% | 1.2s | ★★☆ |
纯Chromium | 98% | 8.7s | ★★★★★ |
混合模式 | 99.7% | 3.1s | ★★★☆ |
3.2 分布式异常处理
# Master节点异常协调
from drissionpage import DistributedErrorHandlerhandler = DistributedErrorHandler(redis_host='coordinator.redis',failure_queue='global_failures',max_retries=3
)@handler.register
def distributed_task(url):try:with ChromiumPool.get() as page:return page.get(url)except Exception as e:handler.report_failure(url, e)# Worker节点异常消费
def failure_consumer():while True:task = handler.get_failure()if not task:time.sleep(5)continuetry:retry_result = retry_strategy(task['url'])handler.acknowledge(task['id'])except Exception as e:handler.escalate(task['id'], e) # 升级处理
故障处理流程:
- 本地重试(最多3次)
- 队列转移(到备用集群)
- 人工介入(超过阈值时)
- 死信队列(最终归档)
四、监控与预警体系
4.1 实时异常看板
from prometheus_client import Counter, Gauge, start_http_serverREQUEST_COUNT = Counter('drission_requests_total', 'Total requests processed')
ERROR_RATE = Gauge('drission_error_rate', 'Current error rate')
LATENCY = Gauge('drission_latency_seconds', 'Request latency')def track_metrics(func):def wrapper(*args, **kwargs):start = time.time()try:result = func(*args, **kwargs)REQUEST_COUNT.inc()LATENCY.set(time.time() - start)return resultexcept Exception as e:ERROR_RATE.inc()raisereturn wrapper
监控指标:
- 错误率突增(>5%持续3分钟)
- 平均延迟(P99>15s)
- 连接池耗尽率(>80%)
4.2 智能预警系统
class AnomalyDetector:def __init__(self):self.baseline = {'error_rate': 0.02,'avg_latency': 2.5}self.threshold = {'error_spike': 3,'latency_spike': 4}def detect(self, metrics):alerts = []if metrics['error_rate'] > self.baseline['error_rate'] * self.threshold['error_spike']:alerts.append('ERROR_SPIKE')if metrics['avg_latency'] > self.baseline['avg_latency'] * self.threshold['latency_spike']:alerts.append('LATENCY_SPIKE')return alerts
预警响应流程:
- 邮件通知(P0级异常)
- Slack机器人@值班人员
- 自动扩容(云服务商API调用)
- 特征样本采集(用于后续分析)
五、持续改进策略
- 异常指纹库:建立历史异常特征库,实现模式识别
- 自愈机制:自动修复Cookie过期、驱动版本冲突等问题
- 混沌工程:定期注入故障测试系统韧性
- AIops集成:使用异常检测模型预测潜在故障
# 异常自愈示例
class SelfHealingAgent:def __init__(self):self.recovery_actions = {'session_expired': self.refresh_session,'driver_crash': self.restart_driver,'certificate_error': self.bypass_ssl}def handle(self, exception):fingerprint = self.fingerprint_error(exception)if action := self.recovery_actions.get(fingerprint):action()return Truereturn Falsedef fingerprint_error(self, e):import hashlibreturn hashlib.sha256(str(e).encode()).hexdigest()[:8]
构建稳健的异常处理体系需要建立感知-响应-恢复的完整闭环。通过DrissionPage提供的异常处理工具箱,结合智能监控和自愈机制,可以让您的自动化系统具备自我保护能力,在复杂的网络环境中保持持久稳定运行。记住:最好的异常处理是预防异常的发生,而实现这一目标需要持续的数据积累和策略优化。
相关文章:
DrissionPage 异常处理实战指南:构建稳健的网页自动化防线
在网页自动化领域,异常处理能力直接决定了系统的健壮性。作为融合Selenium与Requests特性的创新工具,DrissionPage提供了多层次的异常处理机制。本文将深入剖析其异常体系,结合真实场景案例,为您构建一套完善的自动化容错方案。 …...

鸿蒙任务项设置案例实战
目录 案例效果 资源文件与初始化 string.json color.json CommonConstant 添加任务 首页组件 任务列表初始化 任务列表视图 任务编辑页 添加跳转 任务目标设置模型(formatParams) 编辑页面 详情页 任务编辑列表项 目标设置展示 引入目标…...

TDengine 的 AI 应用实战——运维异常检测
作者: derekchen Demo数据集准备 我们使用公开的 NAB数据集 里亚马逊 AWS 东海岸数据中心一次 API 网关故障中,某个服务器上的 CPU 使用率数据。数据的频率为 5min,单位为占用率。由于 API 网关的故障,会导致服务器上的相关应用…...
DHCP与DNS的配置
在网络管理中,DHCP(动态主机配置协议)和DNS(域名系统)是两个关键组件。DHCP用于自动分配IP地址,而DNS用于将域名解析为IP地址。本文将详细介绍如何在Linux环境下配置DHCP和DNS服务。 一、DHCP配置 1. 安装…...

使用Plop.js高效生成模板文件
前情 开发是个创造型的职业,也是枯燥的职业,因为开发绝大多数都是每天在业务的代码中无法自拨,说到开发工作,就永远都逃不开新建文件的步骤,特别现在组件化开发胜行,每天都是在新建新建组件的道路上一去不…...

Vue框架2(vue搭建方式2:利用脚手架,ElementUI)
一.引入vue第二种搭建方式 在以前的前端项目中,一个项目需要多个html文件实现页面之前的切换,如果页面中需要依赖js或者css文件,那么我们就需要在多个html文件中都需要导入vue.js文件,太过繁琐. 现在前端开发都采用单页面结果,一个项目中只有一个html文件 其他不同的内容都写…...

mac 设置cursor (像PyCharm一样展示效果)
一、注册 Cursor - The AI Code Editor 二、配置Python环境 我之前使用pycharm创建的python项目,以及创建了虚拟环境,现在要使用cursor继续开发。 2.1 选择Python 虚拟环境 PyCharm 通常将虚拟环境存储在项目目录下的 venv 或 .venv 文件夹中…...

SpringCloudAlibaba微服务架构
技术架构图 SpringCloudAlibaba微服务架构 说明: 1.1、采用SpringCloudAlibaba分布式微服务架构,使用Nginx做代理,服务治理使用Nacos组件,Gateway网关做权限验证、路由、过滤。 1.2、Redis做消息缓存,包括数据大屏、数…...

Java高级 | 【实验三】Springboot 静态资源访问
隶属文章: Java高级 | (二十二)Java常用类库-CSDN博客 系列文章: Java高级 | 【实验一】Spring Boot安装及测试 最新-CSDN博客 Java高级 | 【实验二】Springboot 控制器类相关注解知识-CSDN博客 目录 一、Thymeleaf 1.1 是什么&…...
C语言_预处理详解
1. 预定义符号 C语言设置了一些预定义符号,可以直接使用,预定义符号也是在预处理期间处理的 1 __FILE__ //进行编译的源文件 2 __LINE__//文件当前的行号 3 __DATE__ //文件被编译的日期 4 __TIME__//文件被编译的时间 5 __STDC__//如果编译器遵循ANSI…...
将前后端分离版的前端vue打包成EXE的完整解决方案
将若依前后端分离版的前端打包成EXE的完整解决方案 将若依前后端分离版的Vue前端打包成Windows可执行文件(.exe),同时保持与后端API的通信,需要使用Electron框架来实现。下面是详细的步骤和解决方案。 一、准备工作 1. 环境要求 Node.js (推荐v16+)npm 或 yarn若依前后端分…...
物联网协议之MQTT(一)基础概念和设备
前言: 本文内容均以实战出发,像MQTT概念这种基础内容建议大家自行百度。 推荐资料: mica-mqtt文档 一、MQTT简单介绍 作为当今物联网的主流协议,MQTT的使用范围非常广,如果你想了解甚至是从事物联网行业,…...

「Java教案」Java程序的构成
课程目标 1.知识目标 能够按照Java标识符的命名规则,规范变量的命名。能够区分Java中的关键字与保留字。能够对注释进行分类,根据注释的用途合理的选择注释方式。 2.能力目标 能编写符合规范的标识符。能识别Java中的关键字和…...
还原Windows防火墙
还原Windows防火墙 1. 背景2. 为何“还原”完胜“关闭”?三大核心优势3. 还原防火墙默认值操作步骤4. 还原防火墙时,系统背后的工作5. 需要还原防火墙场景一招拯救混乱网络!还原Windows防火墙,找回你的“安全速度”1. 背景 你是否曾因一时误操作关闭了Windows防火墙?是…...

区块链可投会议CCF B--EDBT 2026 截止10.8 附录用率
Conference:EDBT: 29th International Conference on Extending Database Technology CCF level:CCF B Categories:数据库/数据挖掘/内容检索 Year:2026 Conference time:24th March - 27th…...

经典ReLU回归!重大缺陷「死亡ReLU问题」已被解决
来源 | 机器之心 在深度学习领域中,对激活函数的探讨已成为一个独立的研究方向。例如 GELU、SELU 和 SiLU 等函数凭借其平滑梯度与卓越的收敛特性,已成为热门选择。 尽管这一趋势盛行,经典 ReLU 函数仍因其简洁性、固有稀疏性及…...

在VSCode中开发一个uni-app项目
创建项目 使用命令行工具(例如 vue-cli)来创建一个新的 uni-app 项目。 创建以JavaScript开发的工程 npx degit dcloudio/uni-preset-vue#vite my-vue3-project //或者 npx degit dcloudio/uni-preset-vue#vite-alpha my-vue3-project创建以TypeScript…...
quic为什么没有被大规模应用?
一、成本 将应用程序从 HTTP/2 迁移到 HTTP/3,或从 TCP 迁移到 UDP 需要付出一定的努力。它需要将整个应用层实现和传输层实现转换到UDP,并在服务器端和客户端构建一个全新的解决方案。对于资源有限的小型流媒体供应商来说,这是一个不小的挑…...
Delft3D软件介绍及建模原理和步骤;Delft3D数值模拟溶质运移模型建立;地表水环境影响评价报告编写思路
📚 教程以地表水数值模拟软件 Delft3D 4.03.00 的操作为核心内容,系统涵盖地表水水动力建模、基础资料获取、边界条件设定、模型率定与验证以及数据分析处理等关键环节。通过全面讲解,学员将掌握地表水数值模拟的全过程实际操作技术。 &…...
书籍在其他数都出现k次的数组中找到只出现一次的数(7)0603
题目 给定一个整型数组arr和一个大于1的整数k。已知arr中只有1个数出现了1次,其他的数都出现了k次,请返回只出现了1次的数。 解答: 对此题进行思路转换,可以将此题,转换成k进制数。 k进制的两个数c和d,…...
开源模型应用落地-OpenAI Agents SDK-集成Qwen3-8B-function_tool(二)
一、前言 在人工智能技术迅猛发展的今天,OpenAI Agents SDK 为开发者提供了一个强大的工具集,用于构建基于 Python 的智能代理应用。这些代理可以执行从简单任务到复杂决策的一系列操作,极大地提升了应用程序的智能化水平。 通过 OpenAI Agents SDK,可以利用 Python 编程语…...

Python - 爬虫;Scrapy框架之插件Extensions(四)
阅读本文前先参考 https://blog.csdn.net/MinggeQingchun/article/details/145904572 在 Scrapy 中,扩展(Extensions)是一种插件,允许你添加额外的功能到你的爬虫项目中。这些扩展可以在项目的不同阶段执行,比如启动…...

Spark实战能力测评模拟题精析【模拟考】
1.println(Array(1,2,3,4,5).filter(_%20).toList() 输出结果是(B) A. 2 4 B. List(2,4) C. List(1,3,5) D. 1 3 5 2.println(Array("tom","team","pom") .filter(_.matches("")).toList) 输出结果为(List(tom,…...

【OSG学习笔记】Day 15: 路径动画与相机漫游
本章来学习下漫游相机。 路径动画与相机漫游 本届内容比较简单,其实就是实现物体的运动和相机的运动 当然这两个要一起执行。 贝塞尔曲线 贝塞尔曲线(Bzier curve)是一种在计算机图形学、动画制作、工业设计等领域广泛应用的参数曲线&am…...

PostgreSQL(PostGIS)触发器+坐标转换案例
需求,只录入一份坐标参考为4326的数据,但是发布的数据要求坐标必须是3857 对这种需求可以利用数据库触发器实现数据的同步 步骤: 1. 使用ArcGIS Pro创建一个名字为testfc_4326的图层,坐标参考为4326 2. 使用Pro再创建一个名字…...

Constraints and Triggers
目录 Kinds of Constraints Single-Attribute Keys Multiattribute Key Foreign Keys Expressing Foreign Keys Enforcing Foreign-Key Constraints Actions Taken Attribute-Based Checks Timing of Checks Tuple-Based Checks Assertions Timing of Assertion Ch…...
基于windows系统的netcore架构与SqlServer数据库,实现双机热备。
以下是基于 SQL Server Always On 可用性组 和 故障转移群集 的详细配置步骤,用于实现双机热备。 步骤 1:准备环境 1.1 硬件和软件准备 两台服务器:分别作为主服务器和备用服务器。SQL Server版本:确保两台服务器上安装的SQL S…...
【转bin】EXCEL数据转bin
如果DEC2BIN函数的默认设置无法满足需求(它最多只能处理10位的二进制转换),可以通过VBA宏方法来处理较大数的二进制转换并提取特定位置的数字: 十进制转二进制(不限位宽) 1、打开VBA编辑器(Al…...

BERT:让AI真正“读懂”语言的革命
BERT:让AI真正“读懂”语言的革命 ——图解谷歌神作《BERT: Pre-training of Deep Bidirectional Transformers》 2018年,谷歌AI团队扔出一篇核弹级论文,引爆了整个NLP领域。这个叫BERT的模型在11项任务中屠榜,甚至超越人类表现…...
【计算机组成原理】SPOOLing技术
SPOOLing技术 关键点内容核心思想通过输入/输出井虚拟化独占设备,实现共享,即让多个作业共享一台独占设备依赖条件1. 外存(井文件)2. 多道程序设计虚拟实现多道程序技术磁盘缓冲数据流方向输入设备 → 输入井 → CPU → 输出井 →…...