15分钟学 Python 第38天 :Python 爬虫入门(四)
Day38 : Python爬虫异常处理与反爬虫机制
章节1:异常处理的重要性
在爬虫开发过程中,网络请求和数据解析常常会遭遇各种异常。正确的异常处理可以提高程序的稳定性,避免崩溃,并帮助开发者快速定位问题。
章节2:常见的异常类型
在爬虫开发中,主要有以下几种异常:
| 异常类型 | 描述 |
|---|---|
requests.exceptions.RequestException | 基类异常,用于处理所有请求异常 |
requests.exceptions.HTTPError | 表示HTTP错误,例如404或500错误 |
requests.exceptions.ConnectionError | 表示网络连接错误 |
requests.exceptions.Timeout | 请求超时错误 |
requests.exceptions.TooManyRedirects | 请求重定向过多 |
章节3:异常处理示例
下面的代码展示了如何在发送请求时进行异常处理:
import requestsdef fetch_url(url):try:response = requests.get(url)response.raise_for_status() # 如果403或404都会引发异常return response.textexcept requests.exceptions.HTTPError as http_err:print(f"HTTP错误: {http_err}")except requests.exceptions.ConnectionError:print("连接错误,请检查网络连接。")except requests.exceptions.Timeout:print("请求超时,请重试。")except requests.exceptions.RequestException as e:print(f"请求时发生错误: {e}")return Noneurl = 'http://example.com'
data = fetch_url(url)
if data:print(data)
章节4:反爬虫机制概述
反爬虫机制是网站采用的一系列技术手段,用以阻止或限制爬虫的访问。常见的反爬虫策略包括:
| 反爬虫机制 | 描述 |
|---|---|
| 用户代理检查 | 检查请求的User-Agent是否正常 |
| IP限制 | 限制特定IP地址的请求频率 |
| 验证码 | 在请求中插入验证码以确认用户身份 |
| Cookie验证 | 使用Cookies验证用户身份 |
| 动态内容加载 | 使用JavaScript动态加载部分内容,爬虫无法直接获取 |
章节5:处理反爬虫机制
为了应对反爬虫机制,爬虫开发者可以采取一些策略:
5.1 设置用户代理(User-Agent)
伪装成浏览器发送请求:
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url, headers=headers)
5.2 使用代理
通过代理服务器绕过IP限制:
proxies = {'http': 'http://your_proxy:port','https': 'http://your_proxy:port',
}
response = requests.get(url, proxies=proxies)
5.3 添加延迟
限制请求频率,以避免被封:
import timefor i in range(5):response = requests.get(url)print(response.status_code)time.sleep(2) # 每次请求间隔2秒
章节6:完整示例 - 反爬虫处理
以下是一个示例程序,展示了如何应对反爬虫机制和进行异常处理。
import requests
import timedef fetch_url(url):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}proxies = {'http': 'http://your_proxy:port','https': 'http://your_proxy:port',}try:response = requests.get(url, headers=headers, proxies=proxies)response.raise_for_status()return response.textexcept requests.exceptions.HTTPError as http_err:print(f"HTTP错误: {http_err}")except requests.exceptions.ConnectionError:print("连接错误,请检查网络连接。")except requests.exceptions.Timeout:print("请求超时,请重试。")except requests.exceptions.RequestException as e:print(f"请求时发生错误: {e}")url = 'http://example.com'
for i in range(5):data = fetch_url(url)if data:print(f"请求成功: {len(data)} 字节")time.sleep(2) # 每次请求间隔2秒
章节7:流量控制与限频策略
7.1 请求频率控制
为了避免触发反爬虫机制,可以设置请求频率:
- 随机延迟:使用随机数生成请求间隔。
import randomfor i in range(5):delay = random.uniform(1, 5) # 随机1到5秒之间time.sleep(delay)data = fetch_url(url)
章节8:异常和反爬虫的调试工具
| 工具 | 描述 |
|---|---|
| Fiddler | 网络调试代理,查看HTTP请求和响应头信息 |
| Postman | API开发工具,测试HTTP请求 |
| Selenium | 处理动态网页抓取,可以完整自动化浏览器行为 |
章节9:总结
在本节中,我们详细探讨了Python爬虫中的异常处理与反爬虫机制。学习如何有效处理各种异常,并采取合理的反爬虫策略,以增强爬虫程序的稳定性和抗压能力。
通过掌握这些技能,您将更加自信地编写高效、稳健的爬虫,抓取互联网中的各种数据,帮助实现数据分析和应用开发。

怎么样今天的内容还满意吗?再次感谢观众老爷的观看。
最后,祝您早日实现财务自由,还请给个赞,谢谢!
相关文章:
15分钟学 Python 第38天 :Python 爬虫入门(四)
Day38 : Python爬虫异常处理与反爬虫机制 章节1:异常处理的重要性 在爬虫开发过程中,网络请求和数据解析常常会遭遇各种异常。正确的异常处理可以提高程序的稳定性,避免崩溃,并帮助开发者快速定位问题。 章节2:常见…...
GWAS分析中显著位点如何注释基因:excel???
大家好,我是邓飞。 今天星球的小伙伴问了一个问题: 我现在在做GWAS分析,现在已经找到性状关联的SNP位点,下一步我如何根据position 找到基因呢? 关于基因注释,之前写过一些博客,可以用到的软件…...
深入浅出 CSS 定位:全面解析与实战指南
“批判他人总是想的太简单 剖析自己总是想的太困难” 文章目录 目录 前言文章有误敬请斧正 不胜感恩!1. CSS 定位概述2. 定位类型详解2.1 static(默认定位)2.2 relative(相对定位)2.3 absolute(绝对定位&am…...
HTTPS协议详解:从原理到流程,全面解析安全传输的奥秘
💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「storm…...
Android 13.0 系统内存优化之修改dalvik虚拟机的内存参数
1.前言 在13.0的系统rom开发定制中,app应用也是运行在dalvik虚拟机上的,所以对于一些内存低的系统中,在某些大应用会出现耗内存 卡顿情况,这是系统分配的内存不够大,在进行耗内存的操作,就会出现频繁gc等等原因造成不流畅的现象,接下来就分析下 虚拟机分配内存的相关原理…...
C# 无边框窗体,加阴影效果、多组件拖动、改变大小等功能完美实现优化版效果体验
一、预览效果 国庆节第一天,祝祖国繁荣昌盛! 1.1 效果图 (WinForm无边框窗体,F11可全屏) 拖动窗体时半透明效果(拖动时参考窗体后面释放位置) 说明:本功能的实现基于网友的原型完善而来,更多代码可以参考他的文章 h...
深入解析 ChatGLM 模型:核心原理、优势与未来应用前景
1. 引言 1.1 ChatGLM 模型概述 ChatGLM 是一类基于自回归语言模型的生成式预训练模型,专门设计用于处理对话系统中的自然语言生成任务。ChatGLM 模型依托于 Transformer 架构,具备高度并行化的计算能力,并能够捕捉长距离的语言依赖关系。在…...
python全栈学习记录(二十二)多态性、封装、绑定方法与非绑定方法
多态性、封装、绑定方法与非绑定方法 文章目录 多态性、封装、绑定方法与非绑定方法一、多态性二、封装三、绑定方法与非绑定方法 一、多态性 多态指的是同一种事物的多种形态,如水:冰、水蒸气、液态水,又如动物:猫、狗、猪。 多…...
用Python制作自己的聊天机器人:从零开始构建智能对话助手
解锁Python编程的无限可能:《奇妙的Python》带你漫游代码世界 近年来,聊天机器人已经成为日常生活中不可或缺的工具,从自动客服到个人助手,聊天机器人在各类应用中广泛存在。如果你想了解如何制作一个自己的聊天机器人,那么这篇文章将带你一步步实现这个目标。我们将使用…...
LabVIEW裂纹深度在线监测系统
随着铁路运输技术的快速发展,火车安全问题成为重中之重,尤其是轮面裂纹的检测和管理。裂纹的出现可能导致严重的列车事故,因此,建立可靠的在线监测系统,实时掌握裂纹情况,对保障铁路运输安全至关重要。 La…...
工业物联网的伦理和社会影响
随着科技的飞速发展,工业物联网(IIoT)已经成为现代工业领域的重要组成部分。它通过将各种设备、传感器和系统连接起来,实现了生产过程的智能化、自动化和高效化。然而,在享受工业物联网带来的巨大便利和经济效益的同时…...
TCP --- 确认应答机制以及三次握手四次挥手
序言 在前一篇文章中,我们介绍了 UDP协议 (点击查看)👈,该协议给我们的感觉就两个字 — 简单,只是将我们的数据进行简单的添加报头然后发送。当然使用起来虽然简单,但是否能送到目的地,那就要看网络的状态了…...
GPT带我学-设计模式17-装饰器模式
概述 装饰器模式(Decorator Pattern)是一种结构型设计模式,允许你在不改变对象接口的前提下,动态地给对象添加新功能。这个模式通常用于扩展类的功能。 基本结构 组件接口(Component):定义一…...
【Redis】如何在 Ubuntu 上安装 Redis 5
🥰🥰🥰来都来了,不妨点个关注叭! 👉博客主页:欢迎各位大佬!👈 本期内容主要介绍如何在 Ubuntu 上安装 Redis5 一些碎碎念: 本来这期内容介绍如何在 Centos 安装 Redis …...
房屋水电费记账本:内置的数组数据击按钮不能删除,页面手动添加的可以删除
<!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>房租水电费记录</title><script type&qu…...
【ubuntu】apt是什么
目录 1.apt简介 2.常用apt指令 2.1安装 2.2更新列表 2.3更新已经安装的软件包 2.4搜索软件包 2.5显示软件包信息 2.6移除软件包 2.7清理无用的安装包 2.8清理无用的依赖项 3.apt和apt-get 3.1区别 3.2 总结 1.apt简介 apt的全称是advanced package …...
堆排序算法的原理与应用
堆排序(Heap Sort)是一种基于堆数据结构的比较排序算法。它具有时间复杂度为 O(n log n) 的优点,并且空间复杂度为 O(1),是一种不稳定的排序算法。本文将详细介绍堆排序的工作原理、步骤以及它的应用场景。 一、堆排序的基本概念…...
【2024版本】Mac/Windows IDEA安装教程
IDEA 2024版本真的很强大,此外JDK发布了最新稳定版 JDK21 ,只有新版本支持JDK 21、JDK22。原来数据库插件不支持redis等一些NoSql的数据库的连接,如果要使用需要自己单独装收费的插件。直接打开idea就很吃内存了,再打开其他一大堆…...
Oracle bbed编译安装及配置
1. 什么是bbed ? Oracle Block Brower and EDitor Tool,是一个可以对oracle data block进行查看,编辑修改的内置工具。对于bbed,oracle本身是不提供支持的。 2. 如何编译bbed环境? 10g版本: 1) 编译bbed cd $ORACL…...
MindSearch 部署到Github Codespace 和 Hugging Face Space
conda init后需要重开终端,不然一键复制会导致后续pip install会安装错环境 还是报错 ImportError: cannot import name AutoRegister from class_registry (/opt/conda/envs/mindsearch/lib/python3.10/site-packages/class_registry/__init__.py)pip install --…...
【从零学Vibe Coding】前言:为什么要写这份教程
前言:为什么要写这份教程 一切从一个画面开始 2025 年,你大概率刷到过这样的画面: 有人对着 AI 说一句"帮我做个记账 App"十几分钟后,页面已经能点、能跳、能保存数据评论区一半人在惊呼"程序员要失业了"另…...
CentOS 8 Stream换源踩坑记:从阿里云到清华源,哪个更适合你的服务器?
CentOS 8 Stream镜像源深度评测:阿里云、清华源与网易163实战对比 当你在凌晨三点被服务器告警吵醒,发现安全补丁因下载超时无法安装时,一个可靠的软件源就成了救命稻草。作为国内使用最广泛的RHEL系社区发行版,CentOS 8 Stream的…...
别再搜组策略了!Windows 11家庭版设置密码永不过期的3个命令行方法(实测有效)
Windows 11家庭版密码永不过期终极指南:抛弃组策略的3种命令行方案 每次开机都要重新设置密码?Windows 11家庭版用户常常陷入这种困扰。与专业版不同,家庭版系统阉割了组策略编辑器这个关键工具,让普通用户面对密码过期问题时束手…...
缙云定制木门,别只看报价,多花3000块买了教训
去年帮朋友盯装修,他图便宜选了某门店的“特价木门”,结果装上才半年,门框受潮变形、关门嘎吱响,隔音差到客厅看电视卧室听得一清二楚。最后拆掉重做,多花了3000块冤枉钱。缙云本地业主装木门,千万别踩这个…...
JeecgBoot 低代码平台:协同工作与 Flowable 流程审批,如何选?
JeecgBoot 低代码平台两模块引困惑很多团队在接入 JeecgBoot 低代码平台后,面对 "协同工作" 和 "Flowable 流程审批" 两个模块时常常陷入困惑:两个都是处理审批流程的,到底用哪个?能混着用吗?设计…...
别再只画区间了!用ECharts的markArea实现单点高亮标注(附完整代码)
突破ECharts标记边界:用markArea实现单点高亮的高级技巧 在数据可视化领域,ECharts凭借其强大的功能和灵活的配置选项,已成为前端开发者和数据分析师的首选工具之一。当我们面对需要突出显示特定数据点的场景时,常规做法是使用mar…...
深圳 EMC 整改避坑指南:别让一次失败,毁掉整个产品周期
深圳,这座全球电子产业的心脏,每天都有上百款新产品从这里走向世界。但 2026 年 4 月 FCC 新规的落地,给无数深圳电子企业浇了一盆冷水:单次海外测试费暴涨至 6-10 万元,周期拉长到 6-12 周,一次整改失败&a…...
STM32F030硬件I2C避坑指南:Timing值、滤波器配置与NBYTES重加载模式详解
STM32F030硬件I2C避坑指南:Timing值、滤波器配置与NBYTES重加载模式详解 1. 深入理解I2C_Timing寄存器的计算逻辑 许多开发者在使用STM32F030硬件I2C时,往往直接套用CubeMX生成的默认值或网络上的示例代码,却对I2C_Timing寄存器的底层计算原理…...
QR码扫描模块全解析:从原理到工程实践
1. 项目概述:不只是“扫一扫”那么简单如果你以为QR码扫描就是个“打开摄像头、对准、识别”的简单功能,那可能错过了它背后一整套精密的技术栈和丰富的应用场景。作为一个在移动应用和嵌入式设备领域折腾了十多年的老码农,我见过太多项目在集…...
Unity3D RPG游戏开发实战:从零搭建角色与场景交互系统(含源码)
1. Unity3D RPG游戏开发基础准备 第一次打开Unity3D时,很多人会被复杂的界面吓到。别担心,我们先从最基础的设置开始。我建议使用2021 LTS版本,这个版本稳定性好,社区支持也完善。安装完成后,记得在Hub里勾选"Wi…...
