当前位置：首页 > news >正文

爬虫工作量由小到大的思维转变---＜第二十八章 Scrapy中间件说明书＞

news 2025/11/2 0:27:36

爬虫工作量由小到大的思维转变---＜第二十六章 Scrapy通一通中间件的问题＞-CSDN博客

前言:

(书接上面链接)自定义中间件玩不明白? 好吧,写个翻译的文档+点笔记,让中间件更通俗一点!!!

正文:

全局图:

爬虫中间件--->翻译+笔记:

from scrapy import signals# useful for handling different item types with a single interface
from itemadapter import is_item, ItemAdapterclass XXXSpiderMiddleware:# Not all methods need to be defined. If a method is not defined,# scrapy acts as if the spider middleware does not modify the# passed objects.#--翻译-># 并非所有方法都需要被定义。如果某个方法没有被定义，# Scrapy 将会假设蜘蛛中间件不会修改传递的对象。@classmethoddef from_crawler(cls, crawler):# This method is used by Scrapy to create your spiders.#这个方法被用于创建你的Scrapy蜘蛛。s = cls()crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)return sdef process_spider_input(self, response, spider):# Called for each response that goes through the spider# middleware and into the spider.# Should return None or raise an exception.# --翻译--># 这个方法由Scrapy用于创建你的蜘蛛。# 对于每个通过蜘蛛中间件到达蜘蛛的响应，会被调用。# 应该返回None或引发异常。# --->笔记:可以用它# 预处理响应数据，例如解析、提取信息、清洗数据等；# 对响应进行过滤或过程控制；# 处理错误或异常情况；# 添加自定义的功能或逻辑。# 如果你不希望对响应进行任何修改或处理，你可以简单地返回None。return Nonedef process_spider_output(self, response, result, spider):# Called with the results returned from the Spider, after# it has processed the response.# Must return an iterable of Request, or item objects.#---翻译-->该方法在蜘蛛处理响应并返回结果后被调用。# 必须返回一个可迭代的Request对象或item对象。'''笔记:这个方法允许你从蜘蛛处理的结果中进一步操作和处理数据。你可以修改结果，添加、删除或筛选特定的数据，或者在结果中创建新的Request对象来进行进一步的爬取。你可以通过yield语句将处理后的结果返回。总之，process_spider_output方法提供了一个在蜘蛛处理响应结果后对结果进行额外处理的机会，用于进一步定制和控制爬取过程。'''for i in result:yield idef process_spider_exception(self, response, exception, spider):# Called when a spider or process_spider_input() method# (from other spider middleware) raises an exception.# Should return either None or an iterable of Request or item objects.'''翻译:当蜘蛛或 process_spider_input() 方法（来自其他爬虫中间件）引发异常时调用。应该返回 None 或者一个可迭代的 Request 或 item 对象。笔记:1.用于处理当蜘蛛或其他爬虫中间件的 process_spider_input() 方法引发异常时的情况2.你可以针对异常情况进行任何处理。可以根据具体需求进行错误处理、记录日志、重新发送请求等操作。-->通俗地说，这个方法允许你在蜘蛛或其他爬虫中间件的输入方法引发异常时进行自定义处理。你可以根据具体的异常情况进行相应的处理操作，如重新发送请求、记录日志等。'''passdef process_start_requests(self, start_requests, spider):# Called with the start requests of the spider, and works# similarly to the process_spider_output() method, except# that it doesn’t have a response associated.# Must return only requests (not items).'''翻译: 在蜘蛛开始请求时被调用，与 process_spider_output() 方法相似，不同之处在于它没有与之关联的响应。笔记:这个方法允许你在蜘蛛开始请求之前对初始请求进行自定义处理。你可以修改请求对象的属性，添加额外的请求，或者根据需求生成新的请求对象--->在爬虫开始请求之前提供了一个自定义处理初始请求的机会，用于修改请求参数或生成新的请求对象。'''for r in start_requests:yield rdef spider_opened(self, spider):'''翻译:在爬虫开始运行时被调用;笔记:你可以用它1.初始化一些资源或状态；2.打开数据库连接或文件；3.设置爬虫的日志输出。..等--->可以在这里进行一些准备工作，以确保爬虫在运行时具备必要的环境和配置'''spider.logger.info("Spider opened: %s" % spider.name)

下载中间件--->翻译+笔记:

class JihaiEndDownloaderMiddleware:# Not all methods need to be defined. If a method is not defined,# scrapy acts as if the downloader middleware does not modify the# passed objects.# -->翻译:# 并非所有方法都需要被定义。如果某个方法没有被定义，# # Scrapy 将会假设下载中间件不会修改传递的对象。@classmethoddef from_crawler(cls, crawler):# This method is used by Scrapy to create your spiders.# 该方法由Scrapy用于创建你的爬虫。s = cls()crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)return sdef process_request(self, request, spider):# Called for each request that goes through the downloader# middleware.# Must either:# - return None: continue processing this request# - or return a Response object# - or return a Request object# - or raise IgnoreRequest: process_exception() methods of#   installed downloader middleware will be called'''# 对每个通过下载中间件的请求进行处理。# 必须返回以下之一：# - 返回 None：继续处理该请求# - 或返回一个 Response 对象# - 或返回一个 Request 对象# - 或引发 IgnoreRequest：将调用已安装的下载中间件的 process_exception() 方法'''return Nonedef process_response(self, request, response, spider):# Called with the response returned from the downloader.# Must either;# - return a Response object# - return a Request object# - or raise IgnoreRequest# print(f'中间件接收:{response.text}')'''# 对从下载器返回的响应进行处理。# 必须返回以下之一：# - 返回一个 Response 对象# - 或返回一个 Request 对象# - 或引发 IgnoreRequest# print(f'中间件接收:{response.text}')'''return responsedef process_exception(self, request, exception, spider):# Called when a download handler or a process_request()# (from other downloader middleware) raises an exception.# Must either:# - return None: continue processing this exception# - return a Response object: stops process_exception() chain# - return a Request object: stops process_exception() chain'''# 当下载处理程序或 process_request() 方法（来自其他下载中间件）引发异常时调用。# 必须返回以下之一：# - 返回 None：继续处理该异常# - 返回一个 Response 对象：停止 process_exception() 链# - 返回一个 Request 对象：停止 process_exception() 链'''passdef spider_opened(self, spider):spider.logger.info("Spider opened: %s" % spider.name)

from_crawler(cls, crawler) 方法：

该方法被 Scrapy 用于创建下载中间件实例。
通常用于进行初始化操作和设置信号（Signal）。
推荐用于在下载中间件创建时进行一些必要的准备工作或设置。

process_request(self, request, spider) 方法：

对每个经过下载中间件的请求进行处理。
必须返回以下之一：
返回 None：继续处理该请求

-1.继续处理该请求，将会继续传递给后续的下载中间件处理，直到请求被发送到下载器。
-2.后续的下载中间件将有机会进一步处理请求或对请求进行修改。

或返回一个 Response 对象

-1.将会终止后续的下载中间件的处理，并将该响应传递回爬虫进行处理（即交给响应处理函数）。
-2.后续的下载中间件的 process_request 和 process_response 方法不会再被调用。

或返回一个 Request 对象

-1.将会终止后续的下载中间件的处理，并将该请求重新发送到引擎进行处理。
-2.该请求会经过中间件的处理流程，包括其他的下载中间件。
-3.可以用于对请求进行修改或生成新的请求来重新发起爬取。

或引发 IgnoreRequest，将调用已安装的下载中间件的 process_exception() 方法。

-1.将会停止处理该请求，并调用已安装的其他下载中间件的 process_exception 方法。
-2.这是一个特殊情况，用于处理特定的异常情况或错误。
-3.通常用于处理某个请求无法继续处理的情况，可以选择忽略该请求，或者在 process_exception 方法中进行处理。

用于自定义处理请求的行为，例如添加通用的请求信息、修改请求参数等。

--->补充: (如果请求有问题)你想让一个request彻底从队列中消失,减少他接下来的生命周期;最直接的办法是引发异常; 如果返回了None他还是会传给spider的;关键取决于你怎么处理你的异常(要不要记录,在哪里记录); 最直接的还是给他引发异常~这样他就直接用日志记录了,不用再脱了裤子放屁跑spider里面去报异常!

process_response(self, request, response, spider) 方法：

对从下载器返回的响应进行处理。
必须返回以下之一：
返回一个 Response 对象

-1.继续处理该响应，将其传递给后续的下载中间件进行处理。
-2.后续的下载中间件将有机会对响应进行进一步处理或对其进行修改。
-3.当没有其他中间件对响应进行进一步处理时，将会将响应传递给爬虫进行处理（即交给响应处理函数）。

或返回一个 Request 对象

-1.将会将该请求重新发送到引擎进行处理，并再次经过下载中间件的处理流程。
-2.可以用于对响应进行处理后生成新的请求，或根据响应内容进行重定向等操作。

补充:重试用它;最好再+一个队列优先级,让这个重试的跑队列前面去,快点消掉关于他附带的(例如item)数据;然后还要注意别让这个请求被重复的url给筛掉了;

案例说明:(`+优先级`和`不去重属性`)

from scrapy import Requestclass RetryMiddleware:def process_response(self, request, response, spider):# 如果返回的响应状态码不是200，则进行重试if response.status != 200:# 修改原始的请求，并设置新的优先级和去重属性retry_request = request.copy()retry_request.priority += 1retry_request.dont_filter = True  # 设置不进行去重return retry_requestreturn response

或引发 IgnoreRequest。

from scrapy.exceptions import IgnoreRequestdef process_response(self, request, response, spider):if response.status >= 400:raise IgnoreRequest  # 引发 IgnoreRequest 异常return response

引发 scrapy.exceptions.IgnoreRequest 异常，那么在引发异常后，Scrapy 将会终止当前请求的处理，并跳过后续的中间件和处理流程。--->通俗点:在 Scrapy 中，引发 scrapy.exceptions.IgnoreRequest 异常后，请求将不会传递给后续的中间件和爬虫进行处理。相当于告诉 Scrapy 忽略该请求，并继续处理下一个请求。 (----12月27日补)

用于自定义处理响应的行为，例如解析、提取数据等。

process_exception(self, request, exception, spider) 方法：

当下载处理程序或其他下载中间件的 process_request() 方法引发异常时调用。
必须返回以下之一：
返回 None：继续处理该异常

-1.如果希望继续处理异常并将其传递给其他下载中间件来处理，可以在 process_exception 方法中返回 None，让异常继续传递给后续的处理程序。

补:能给出来异常,这时候最好给他加个记录;然后返回None完事了!

案例:

class CustomDownloaderMiddleware:def process_exception(self, request, exception, spider):# 其他处理代码...# 获取异常的URLurl = request.url# 使用日志记录器记录异常的URLspider.logger.error(f"这个鬼url有问题,咱不要了;给他记一笔: {url}")return None

返回一个 Response 对象：停止 process_exception() 链
返回一个 Request 对象：停止 process_exception() 链

补:这俩在这方法里,我一般是不搁这处理的;你要自定义玩法,随你...就是用来重试和返回个别的给spider或者队列的

用于自定义处理异常情况，例如处理超时、处理错误状态码等。

spider_opened(self, spider) 方法：

补:--->每次请求开一个spider?怕是有病吧.鸡肋的设计;直接去爬虫中间件里面整这玩意,这里直接给他过掉~

爬虫工作量由小到大的思维转变---＜第二十八章 Scrapy中间件说明书＞

爬虫工作量由小到大的思维转变---＜第二十六章 Scrapy通一通中间件的问题＞-CSDN博客前言: (书接上面链接)自定义中间件玩不明白? 好吧,写个翻译的文档点笔记,让中间件更通俗一点!!! 正文: 全局图: 爬虫中间件--->翻译笔记: from scrapy import s…...

编程日记 2023/12/27 16:48:03

从Maven初级到高级

一.Maven简介 Maven 是 Apache 软件基金会组织维护的一款专门为 Java 项目提供构建和依赖管理支持的工具。一个 Maven 工程有约定的目录结构，约定的目录结构对于 Maven 实现自动化构建而言是必不可少的一环，就拿自动编译来说，Maven 必须能…...

编程日记 2023/12/27 16:45:00

orangepi--开发板配置网络SSH登录

常用指令： ifconfig-------------------------------------查看网络地址 sudo passwd orangepi-------------------------改密码 nmcli dev wifi-------------------------------查看wifi nmcli dev wifi connect xx password xx--------连接网络 ip addr show wla…...

编程日记 2023/12/27 16:42:58

简单通讯录管理系统第4关：简单通讯录管理系统之修改通讯录用户信息

任务描述本关任务：实现修改通讯录用户电话号码的功能。编程要求仔细阅读右侧编辑区内给出的代码框架及注释，在 Begin-End 中实现通讯录管理系统中修改用户信息的功能，具体要求如下： 在 PhoneManage.java 类定义一个 changeP…...

编程日记 2023/12/27 16:41:57

macOS编译ckb-next

macOS x86 成功，下一步，测试：m1、m2、m3 。 1、Homebrew # 三选一 /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" # /bin/bash -c "$(curl -fsSL https://raw.gith…...

编程日记 2023/12/27 16:40:56

漏刻有时数据可视化Echarts组件开发(46)散点图颜色判断

series组件 series: [{name: Top 5,type: scatter,coordinateSystem: bmap,data: convertData(data.sort(function (a, b) {return b.value - a.value;}).slice(0, 6)),symbolSize: 20,encode: {value: 2},showEffectOn: render,rippleEffect: {brushType: stroke},label: {fo…...

编程日记 2023/12/27 16:36:53

智能优化算法应用：基于驾驶训练算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用：基于驾驶训练算法3D无线传感器网络(WSN)覆盖优化 - 附代码文章目录智能优化算法应用：基于驾驶训练算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.驾驶训练算法4.实验参数设定5.算法结果6.…...

编程日记 2023/12/27 16:34:51

【论文阅读】MCANet: Medical Image Segmentation with Multi-Scale Cross-Axis Attention

文章目录摘要创新点总结实现效果总结摘要链接：https://arxiv.org/abs/2312.08866 医学图像分割是医学图像处理和计算机视觉领域的关键挑战之一。由于病变区域或器官的大小和形状各异，有效地捕捉多尺度信息和建立像素间的长距离依赖性至关重要。本文提…...

编程日记 2023/12/27 16:33:50

机器视觉实战应用：手势、人脸、动作以及手势鼠标构建（一）

CV实战应用手势、人脸、动作以及手势鼠标构建（一）总起核心思想手势识别是一种常见的计算机视觉应用，它可以通过摄像头或者预先录制的视频图像来追踪和识别人类手势。手势识别的应用非常广泛，例如在游戏、虚拟现实、人机交互等…...

编程日记 2023/12/27 16:31:48

python作业题百度网盘,python作业答案怎么查

大家好，小编来为大家解答以下问题，python作业题百度网盘，python作业答案怎么查，今天让我们一起来看看吧！ 1 以下代码的输出结果为： alist [1, 2, 3, 4] print(alist.reverse()) print(alist) A.[4, 3, 2, …...

编程日记 2023/12/27 16:30:47

centos7.9中离线安装nginx开启ssl，arm架构

一、首先需要去国内相关镜像库下载相关依赖rpm： http://mirrors.bfsu.edu.cn/centos-altarch/7.9.2009/os/aarch64/ http://mirror.nju.edu.cn/centos-altarch/7.9.2009/os/aarch64/ http://mirrors.tuna.tsinghua.edu.cn/centos-altarch/7.9.2009/os/aarch64/ htt…...

编程日记 2023/12/27 16:27:45

LENOVO联想笔记本小新Pro 14 IRH8 2023款(83AL)电脑原装出厂Win11系统恢复预装OEM系统

链接：https://pan.baidu.com/s/1M1iSFahokiIHF3CppNpL4w?pwdzr8y 提取码：zr8y 联想原厂系统自带所有驱动、出厂主题壁纸、Office办公软件、联想电脑管家等自带的预装软件程序所需要工具：16G或以上的U盘文件格式：ISO 文件…...

编程日记 2023/12/27 16:26:44

blender使用faceit绑定自己的表情动作

blender使用faceit绑定自己的表情控制模型 faceit是个神器，来记录一下如何让表情动起来保持相对位置头部分离，方便后续绑定faceitfaceit的注册rig生成地标Animate可以修正表情烘培之前记得保存使用Faceit的整个流程 faceit是个神器，来记录一下…...

编程日记 2023/12/27 16:23:40

有关List的线程安全、高效读取：不变模式下的CopyOnWriteArrayList类、数据共享通道:BlockingQueue

有关List的线程安全队列、链表之类的数据结构也是极常用的，几乎所有的应用程序都会与之相关。在java中， ArrayList和Vector都使用数组作为其内部实现。两者最大的不同在与Vector是线程安全的。而ArrayList不是。此外LinkedList使用链表的数据结构实现…...

编程日记 2023/12/27 16:20:37

OCC服务器和BCC服务器中文件同步

OCC服务器到BCC服务器文件正向同步需求：编写shell脚本，使用rsync命令来同步目录，把全部需要同步的目录放在配置文件中，设置定时任务自动同步服务器IP： 服务器类型IP地址OCC服务器192.168.1.188BCC服务器192.168.1…...

编程日记 2023/12/27 16:17:34

工具系列：TimeGPT_(2)使用外生变量时间序列预测

文章目录 TimeGPT使用外生变量时间序列预测导入相关工具包预测欧美国家次日电力价格案例 TimeGPT使用外生变量时间序列预测外生变量在时间序列预测中非常重要，因为它们提供了可能影响预测的额外信息。这些变量可以包括假日标记、营销支出、天气数据或与你正在预测…...

编程日记 2023/12/27 16:16:33

应用于前端的自然断点法：wasm应用示例

某月某日，虾神本虾接到了这样一个需求，前端获取数据之后，在渲染之前，要对数据进行分类，分类的方法可以选择常用几种，例如等距法、自然断点法、标准差分类法等…… 问：为什么要在前端&#xff1…...

编程日记 2023/12/27 16:08:26

web前端javaScript笔记——（6）数组

对象一般分为内建对象，宿主对象，自定义对象。数组(Array) 数组也是一个对象它和我们普通对象功能类似，也是用来存储一些值的不同的是普通对象是使用字符串作为属性名的，而数组时使用数字来作为索引操作元素案引: 从0开始的…...

编程日记 2023/12/27 16:06:24

vue的props

Vue的props是组件之间传递数据的一种方式，可以在组件中定义props并接收外部传递的数据。在父组件中使用子组件时，可以使用v-bind指令将数据传递给子组件的props。子组件中可以通过props属性接收并使用这些数据。父组件中： <template&…...

编程日记 2023/12/27 16:04:22

【51单片机系列】DS18B20温度传感器模块

本文是关于温度传感器的相关内容。文章目录一、 DS18B20数字温度传感器介绍1.1、 DS18B20温度传感器的特点1.2、DA18B20内部结构1.3、 DS18B20的温度转换规则1.4、 DS18B20的ROM指令表1.6、计算温度1.7、读写时序二、DS18B20使用示例一、 DS18B20数字温度传感器介绍 DS1…...

编程日记 2023/12/27 16:03:19

智能在线客服平台：数字化时代企业连接用户的 AI 中枢

随着互联网技术的飞速发展，消费者期望能够随时随地与企业进行交流。在线客服平台作为连接企业与客户的重要桥梁，不仅优化了客户体验，还提升了企业的服务效率和市场竞争力。本文将探讨在线客服平台的重要性、技术进展、实际应用，并…...

编程新知 2025/10/21 0:37:39

（二）原型模式

原型的功能是将一个已经存在的对象作为源目标，其余对象都是通过这个源目标创建。发挥复制的作用就是原型模式的核心思想。一、源型模式的定义原型模式是指第二次创建对象可以通过复制已经存在的原型对象来实现，忽略对象创建过程中的其它细节。 📌 核心特点：避免重复初…...

编程新知 2025/10/23 5:47:33

微服务商城-商品微服务

数据表 CREATE TABLE product (id bigint(20) UNSIGNED NOT NULL AUTO_INCREMENT COMMENT 商品id,cateid smallint(6) UNSIGNED NOT NULL DEFAULT 0 COMMENT 类别Id,name varchar(100) NOT NULL DEFAULT COMMENT 商品名称,subtitle varchar(200) NOT NULL DEFAULT COMMENT 商…...

编程新知 2025/10/28 0:58:21

蓝桥杯3498 01串的熵

问题描述对于一个长度为 23333333的 01 串, 如果其信息熵为 11625907.5798， 且 0 出现次数比 1 少, 那么这个 01 串中 0 出现了多少次? #include<iostream> #include<cmath> using namespace std;int n 23333333;int main() {//枚举 0 出现的次数//因…...

编程新知 2025/10/19 15:13:54

sipsak：SIP瑞士军刀！全参数详细教程！Kali Linux教程！

简介 sipsak 是一个面向会话初始协议 (SIP) 应用程序开发人员和管理员的小型命令行工具。它可以用于对 SIP 应用程序和设备进行一些简单的测试。 sipsak 是一款 SIP 压力和诊断实用程序。它通过 sip-uri 向服务器发送 SIP 请求，并检查收到的响应。它以以下模式之一…...

编程新知 2025/10/25 7:37:06

RabbitMQ入门4.1.0版本（基于java、SpringBoot操作）

RabbitMQ 一、RabbitMQ概述 RabbitMQ RabbitMQ最初由LShift和CohesiveFT于2007年开发，后来由Pivotal Software Inc.（现为VMware子公司）接管。RabbitMQ 是一个开源的消息代理和队列服务器，用 Erlang 语言编写。广泛应用于各种分布…...

编程新知 2025/10/28 12:05:05