当前位置：首页 > article >正文

Python爬虫（26）Python爬虫高阶：Scrapy+Selenium分布式动态爬虫架构实践

article 2026/5/2 20:37:25

- - 一、背景：动态爬虫的工程化挑战
  - 二、技术架构设计
  - - 1. 系统架构图
    - 2. 核心组件交互
  - 三、环境准备与项目搭建
  - - 1. 安装依赖库
    - 2. 项目结构
  - 四、核心模块实现
  - - 1. Selenium集成到Scrapy（中间件开发）
    - 2. 分布式配置（settings.py）
  - 五、实战：电商平台全站爬虫开发
  - - 1. 爬虫逻辑（product_spider.py）
    - 2. 动态分页处理
    - 3. 分布式任务分发
  - 六、高级优化策略
  - - 1. 浏览器资源复用
    - 2. 智能请求调度
  - 七、总结
  - - 1. 技术优势
    - 2. 性能指标对比
    - Python爬虫相关文章（推荐）

一、背景：动态爬虫的工程化挑战

在大规模数据采集场景中，爬虫开发者面临双重技术挑战：

‌动态交互难题‌：超过60%的现代网站采用JavaScript动态渲染内容（如无限滚动、异步分页、登录验证）
‌分布式扩展需求‌：单机爬虫难以应对百万级页面的抓取任务，需实现：

任务队列共享
节点状态协同
数据去重聚合

‌技术方案选型‌：

‌Scrapy‌：Python生态最成熟的异步爬虫框架，具备可扩展架构
‌Selenium‌：浏览器自动化工具，破解动态交互的黄金钥匙
‌Scrapy-Redis‌：基于Redis的分布式扩展组件，实现任务分发与状态同步

二、技术架构设计

1. 系统架构图

┌─────────────┐     ┌─────────────┐
│  Master节点 │◄───►│   RedisDB   │
└─────────────┘     └─────────────┘▲                 ▲│                 │
┌───────┴───────┐ ┌───────┴───────┐
│  Worker节点1  │ │  Worker节点N  │
└───────────────┘ └───────────────┘

2. 核心组件交互

‌Selenium‌：嵌入Scrapy下载器，执行页面渲染与交互
‌Scrapy-Redis‌：
- RedisScheduler：中央任务调度
- RedisPipeline：数据统一存储
- BloomFilter：分布式去重

三、环境准备与项目搭建

1. 安装依赖库

pip install scrapy selenium scrapy-redis redis
# 下载对应版本的浏览器驱动（如chromedriver）

2. 项目结构

dynamic_spider/
├── scrapy.cfg
└── dynamic_spider/├── middlewares.py    # 自定义中间件├── settings.py       # 分布式配置├── items.py          # 数据模型├── pipelines.py      # Redis管道└── spiders/└── product_spider.py  # 爬虫逻辑

四、核心模块实现

1. Selenium集成到Scrapy（中间件开发）

# middlewares.py
from selenium import webdriver
from scrapy.http import HtmlResponseclass SeleniumMiddleware:def __init__(self):options = webdriver.ChromeOptions()options.add_argument("--headless")  # 无头模式self.driver = webdriver.Chrome(options=options)def process_request(self, request, spider):self.driver.get(request.url)# 执行动态交互（滚动/点击）self.driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")# 渲染完成后返回HTMLreturn HtmlResponse(url=self.driver.current_url,body=self.driver.page_source,encoding='utf-8',request=request)

2. 分布式配置（settings.py）

# 启用Scrapy-Redis组件
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
ITEM_PIPELINES = {'scrapy_redis.pipelines.RedisPipeline': 300}# Redis连接配置
REDIS_URL = 'redis://:password@127.0.0.1:6379/0'

五、实战：电商平台全站爬虫开发

1. 爬虫逻辑（product_spider.py）

import scrapy
from scrapy_redis.spiders import RedisSpiderclass ProductSpider(RedisSpider):name = 'jd_product'redis_key = 'jd:start_urls'  # 从Redis读取种子URLdef parse(self, response):# 提取商品列表products = response.css('.gl-item')for product in products:yield {'sku_id': product.attrib['data-sku'],'price': product.css('.p-price i::text').get(),'title': product.css('.p-name em::text').get()}# 模拟点击下一页（Selenium执行）next_page = response.css('a.pn-next::attr(href)').get()if next_page:yield scrapy.Request(url=response.urljoin(next_page))

2. 动态分页处理

# 在中间件中增加分页逻辑
def process_request(self, request, spider):self.driver.get(request.url)# 自动滚动加载（最多滚动5次）for _ in range(5):self.driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")time.sleep(1)# 点击"加载更多"按钮try:load_more = self.driver.find_element(By.CSS_SELECTOR, '.load-more')load_more.click()time.sleep(2)except NoSuchElementException:passreturn HtmlResponse(...)

3. 分布式任务分发

# Master节点推送初始任务
redis-cli lpush jd:start_urls "https://www.jd.com/search?keyword=手机"# 启动多个Worker节点
scrapy runspider product_spider.py

六、高级优化策略

1. 浏览器资源复用

# 使用浏览器池提升性能
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.desired_capabilities import DesiredCapabilitiesclass BrowserPool:def __init__(self, size=5):self.browsers = []for _ in range(size):options = Options()options.add_argument("--disable-gpu")driver = webdriver.Remote(command_executor='http://localhost:4444/wd/hub',options=options)self.browsers.append(driver)

2. 智能请求调度

# 根据页面类型动态选择渲染方式
def process_request(self, request, spider):if request.meta.get('need_js'):# 需要JS渲染的页面return self.selenium_render(request)else:# 静态页面直接使用Scrapy下载return None

七、总结

1. 技术优势

‌动态渲染全覆盖‌：通过Selenium处理任意复杂度交互
‌横向扩展能力‌：基于Redis轻松实现百节点级分布式集群
‌资源利用率提升‌：浏览器池技术降低85%的初始化开销

2. 性能指标对比

方案	每秒请求数	内存占用	JS兼容性
纯Scrapy	120+	低	差
Scrapy+Splash	40-60	中	良
Scrapy+Selenium分布式	80-100	高	优

Python爬虫相关文章（推荐）


Python爬虫介绍	Python爬虫（1）Python爬虫：从原理到实战，一文掌握数据采集核心技术
HTTP协议解析	Python爬虫（2）Python爬虫入门：从HTTP协议解析到豆瓣电影数据抓取实战
HTML核心技巧	Python爬虫（3）HTML核心技巧：从零掌握class与id选择器，精准定位网页元素
CSS核心机制	Python爬虫（4）CSS核心机制：全面解析选择器分类、用法与实战应用
静态页面抓取实战	Python爬虫（5）静态页面抓取实战：requests库请求头配置与反反爬策略详解
静态页面解析实战	Python爬虫（6）静态页面解析实战：BeautifulSoup与lxml（XPath）高效提取数据指南
Python数据存储实战 CSV文件	Python爬虫（7）Python数据存储实战：CSV文件读写与复杂数据处理指南
Python数据存储实战 JSON文件	Python爬虫（8）Python数据存储实战：JSON文件读写与复杂结构化数据处理指南
Python数据存储实战 MySQL数据库	Python爬虫（9）Python数据存储实战：基于pymysql的MySQL数据库操作详解
Python数据存储实战 MongoDB数据库	Python爬虫（10）Python数据存储实战：基于pymongo的MongoDB开发深度指南
Python数据存储实战 NoSQL数据库	Python爬虫（11）Python数据存储实战：深入解析NoSQL数据库的核心应用与实战
Python爬虫数据存储必备技能：JSON Schema校验	Python爬虫（12）Python爬虫数据存储必备技能：JSON Schema校验实战与数据质量守护
Python爬虫数据安全存储指南：AES加密	Python爬虫（13）数据安全存储指南：AES加密实战与敏感数据防护策略
Python爬虫数据存储新范式：云原生NoSQL服务	Python爬虫（14）Python爬虫数据存储新范式：云原生NoSQL服务实战与运维成本革命
Python爬虫数据存储新维度：AI驱动的数据库自治	Python爬虫（15）Python爬虫数据存储新维度：AI驱动的数据库自治与智能优化实战
Python爬虫数据存储新维度：Redis Edge近端计算赋能	Python爬虫（16）Python爬虫数据存储新维度：Redis Edge近端计算赋能实时数据处理革命
反爬攻防战：随机请求头实战指南	Python爬虫（17）反爬攻防战：随机请求头实战指南（fake_useragent库深度解析）
反爬攻防战：动态IP池构建与代理IP	Python爬虫（18）反爬攻防战：动态IP池构建与代理IP实战指南（突破95%反爬封禁率）
Python爬虫破局动态页面：全链路解析	Python爬虫（19）Python爬虫破局动态页面：逆向工程与无头浏览器全链路解析（从原理到企业级实战）
Python爬虫数据存储技巧：二进制格式性能优化	Python爬虫（20）Python爬虫数据存储技巧：二进制格式（Pickle/Parquet）性能优化实战
Python爬虫进阶：Selenium自动化处理动态页面	Python爬虫（21）Python爬虫进阶：Selenium自动化处理动态页面实战解析

Python爬虫（26）Python爬虫高阶：Scrapy+Selenium分布式动态爬虫架构实践

目录一、背景：动态爬虫的工程化挑战二、技术架构设计1. 系统架构图2. 核心组件交互三、环境准备与项目搭建1. 安装依赖库2. 项目结构四、核心模块实现1. Selenium集成到Scrapy（中间件开发）2. 分布式配置（settings.py&#xff0…...

编程日记 2026/5/2 20:37:25

Python 之类型注解

类型注解允许开发者显式地声明变量、函数参数和返回值的类型。但是加不加注解对于程序的运行没任何影响（是非强制的，且类型注解不影响运行时行为），属于有了挺好，没有也行。但是大型项目按照规范添加注解的话&#xff…...

编程日记 2026/5/1 2:28:03

【linux】Web服务—搭建nginx+ssl的加密认证web服务器

准备工作步骤： 一、新建存储网站数据文件的目录二、创建一个该目录下的默认页面，index.html 三、使用算法进行加密四、制作证书五、编辑配置文件，可以选择修改主配置文件，但是不建议原因如下： 自定义一个配置文…...

编程日记 2026/4/20 13:47:04

基于HTTP头部字段的SQL注入：SQLi-labs第17-20关

前置知识：HTTP头部介绍 HTTP（超文本传输协议）头部（Headers）是客户端和服务器在通信时传递的元数据，用于控制请求和响应的行为、传递附加信息或定义内容类型等。它们分为请求头（Request Headers&…...

编程日记 2026/5/2 8:04:10

实战解析MCP-使用本地的Qwen-2.5模型-AI协议的未来？

文章目录目录文章目录前言一、MCP是什么？ 1.1MCP定义 1.2工作原理二、为什么要MCP？ 2.1 打破碎片化的困局 2.2 实时双向通信，提升交互效率 2.3 提高安全性与数据隐私保护三、MCP 与 LangChain 的区别 3.1 目标定位不同 3.…...

编程日记 2026/5/2 16:20:20

SRS流媒体服务器(5)源码分析之RTMP握手

1.概述学习 RTMP 握手逻辑前，需明确两个核心问题： rtmp协议连接流程阶段rtmp简单握手和复杂握手区别具体可以学习往期博客： RTMP协议分析_rtmp与264的关系-CSDN博客 2.rtmp握手源码分析 2.1 握手入口根据SRS流媒体服务器(4)可知&am…...

编程日记 2026/4/23 22:57:56

内核性能测试（60s不丢包性能）

以xGAP-200-SE7K-L（双口10G）在飞腾D2000上为例（单通道最高性能约2.8Gbps) 单口测试 0口： tcp： taskset -c 4 iperf -c 1.1.1.1 -i 1 -t 60 -p 60001 taskset -c 4 iperf -s -i 1 -p 60001 udp： taskse…...

编程日记 2026/1/31 14:05:57

RabbitMQ高级篇-MQ的可靠性

目录 MQ的可靠性 1.如何设置数据持久化 1.1.交换机持久化 1.2.队列持久化 1.3.消息持久化 2.消息持久化队列持久化： 消息持久化： 3.非消息持久化非持久化队列： 非持久化消息： 4.消息的存储机制 4.1持久化消息&…...

编程日记 2026/5/2 11:36:01

MySQL 数据库集群部署、性能优化及高可用架构设计

MySQL 数据库集群部署、性能优化及高可用架构设计集群部署方案 1. 主从复制架构传统主从复制：配置一个主库(Master)和多个从库(Slave)GTID复制：基于全局事务标识符的复制，简化故障转移半同步复制：确保至少一个从库接收到数据…...

编程日记 2026/3/13 23:21:27

fpga系列 HDL : Microchip FPGA开发软件 Libero Soc 项目仿真示例

新建项目项目初始界面中创建或导入设计文件： 新建HDL文件 module test (input [3:0] a,input [3:0] b,output reg [3:0] sum,output reg carry_out );always (*) begin{carry_out, sum} a b; endendmodule点击此按钮可进行项目信息的重新…...

编程日记 2026/4/23 23:58:27

将单链表反转【数据结构练习题】

- 第 98 篇 - Date: 2025 - 05 - 16 Author: 郑龙浩/仟墨反转单链表(出现频率非常的高) 文章目录反转单链表(出现频率非常的高)题目：反转一个链表思路：代码实现(第3种思路): 题目：反转一个链表将 1->2->3->4->5->NULL反转…...

编程日记 2026/4/20 12:16:09

DeepSearch：WebThinker开启AI搜索研究新纪元！

1，项目简介 WebThinker 是一个深度研究智能体，使 LRMs 能够在推理过程中自主搜索网络、导航网页，并撰写研究报告。这种技术的目标是革命性的：让用户通过简单的查询就能在互联网的海量信息中进行深度搜索、挖掘和整合，从…...

编程日记 2026/4/29 1:53:06

springCloud/Alibaba常用中间件之Setinel实现熔断降级

文章目录 SpringCloud Alibaba:依赖版本补充Sentinel:1、下载-运行：Sentinel(1.8.6)下载sentinel：运行：Sentinel <br> 2、流控规则① 公共的测试代码以及需要使用的测试Jmeter①、流控模式1. 直接:2. 并联:3. 链路: ②、流控效果1. 快速…...

编程日记 2026/5/1 4:29:25

从裸机开发到实时操作系统：FreeRTOS详解与实战指南

从裸机开发到实时操作系统：FreeRTOS详解与实战指南本文将带你从零开始，深入理解嵌入式系统中的裸机开发与实时操作系统，以FreeRTOS为例，全面剖析其核心概念、工作原理及应用场景。无论你是嵌入式新手还是希望提升技能的开发者&am…...

编程日记 2026/4/20 0:10:38

Deeper and Wider Siamese Networks for Real-Time Visual Tracking

现象： the backbone networks used in Siamese trackers are relatively shallow, such as AlexNet , which does not fully take advantage of the capability of modern deep neural networks. direct replacement of backbones with existing powerful archite…...

编程日记 2026/4/20 21:52:00

简单介绍C++中线性代数运算库Eigen

Eigen 是一个高性能的 C 模板库，专注于线性代数、矩阵和向量运算，广泛应用于科学计算、机器学习和计算机视觉等领域。以下是对 Eigen 库的详细介绍： 1. 概述核心功能：支持矩阵、向量运算，包括基本算术、矩阵分解&…...

编程日记 2026/2/16 1:52:11

Python爬虫实战：研究decrypt()方法解密

1. 引言 1.1 研究背景与意义在当今数字化时代，网络数据蕴含着巨大的价值。然而，许多网站为了保护其数据安全和商业利益，会采用各种加密手段对传输的数据进行处理。这些加密措施给数据采集工作带来了巨大挑战。网络爬虫逆向解密技术应运而生，它通过分析和破解网站的加密机…...

编程日记 2026/2/18 0:47:34

黑马程序员C++2024版笔记第0章 C++入门

1.C代码的基础结构以hello_world代码为例： 预处理指令 #include<iostream> using namespace std; 代码前2行是预处理指令，即代码编译前的准备工作。（编译是将源代码转化为可执行程序.exe文件的过程） 主函数主函数是…...

编程日记 2026/4/20 13:47:05

c#定义占用固定字节长度的结构体字段

在c中，经常类似这样定义结构体： struct DEMO_STRUCT {int a;int b;char c[128]; }; 定义这个结构体，占用了136个字节的内存空间，关键的是，它的内存块是连续的，其中c占用了128个字节然后如果想在c#中定义…...

编程日记 2026/2/15 20:34:33

foxmail - foxmail 启用超大附件提示密码与帐号不匹配

foxmail 启用超大附件提示密码与帐号不匹配问题描述在 foxmail 客户端中，启用超大附件功能，输入了正确的账号（邮箱）与密码，但是提示密码与帐号不匹配处理策略找到 foxmail 客户端目录/Global 目录下的 domain.i…...

编程日记 2026/5/3 10:38:51

Crowdfund Insider聚焦：CertiK联创顾荣辉解析Web3.0创新与安全平衡之术

近日，权威金融科技媒体Crowdfund Insider发布报道，聚焦CertiK联合创始人兼CEO顾荣辉教授在Unchained Summit的主题演讲。报道指出，顾教授的观点揭示了Web3.0生态当前面临的挑战，以及合规与技术在推动行业可持续发展中的关键作用。…...

编程日记 2026/5/3 1:56:28

EDR与XDR如何选择适合您的网络安全解决方案

1. 什么是EDR？ 端点检测与响应（EDR） 专注于保护端点设备（如电脑、服务器、移动设备）。通过在端点安装代理软件，EDR实时监控设备活动，检测威胁并快速响应。 EDR核心功能实时监控：…...

编程日记 2026/5/1 18:04:32

PowerBI链接EXCEL实现自动化报表

PowerBI链接EXCEL实现自动化报表曾经我将工作中一天的工作缩短至2个小时，其中最关键的一步就是使用PowerBI链接Excel做成一个自动化报表，PowerBI更新源数据，Excel更新报表并且保留报表格式。以制作一个超市销售报表为例，简单叙…...

编程日记 2026/5/1 20:19:50

腾讯云MCP数据智能处理：简化数据探索与分析的全流程指南

引言在当今数据驱动的商业环境中，企业面临着海量数据处理和分析的挑战。腾讯云MCP(Managed Cloud Platform)提供的数据智能处理解决方案，为数据科学家和分析师提供了强大的工具集，能够显著简化数据探索、分析流程，并增强数据科学…...

编程日记 2026/5/3 11:10:34

Android framework 中间件开发(一)

在Android开发中,经常会调用到一些系统服务,这些系统服务简化了上层应用的开发,这便是中间件的作用,中间件是介于系统和应用之间的桥梁,将复杂的底层逻辑进行一层封装,供上层APP直接调用,或者将一些APP没有权限一些操作放到中间件里面来实施. 假设一个需求,通过中间件调节系统亮…...

编程日记 2026/4/28 0:56:08

Lua中使用module时踩过的坑

在lua中设置某个全局对象(假如对象名为LDataUser)为nil时, LDataUser并不会变成nil, 但在有些情况下设置LDataUser nil时却真变成了nil，然后会导致后续再使用LDataUser时会抛nil异常, 后来发现是使用module搞的鬼，下面看看豆包AI给的解释，还…...

编程日记 2026/4/9 6:39:36

MATLAB中的概率分布生成：从理论到实践

MATLAB中的概率分布生成：从理论到实践引言 MATLAB作为一款强大的科学计算软件，在统计分析、数据模拟和概率建模方面提供了丰富的功能。本文将介绍如何使用MATLAB生成各种常见的概率分布，包括均匀分布、正态分布、泊松分布等，并…...

编程日记 2026/4/20 13:47:06

C# 面向对象构造函数带参无参细节解析

继承类构造时会先调用基类构造函数，不显式调用基类构造函数时，默认调用基类无参构造函数，但如果基类没有写无参构造函数，会无法调用从而报错；此时，要么显式的调用基类构造函数，并按其格式带上参…...

编程日记 2026/5/3 8:39:42

轨迹误差评估完整流程总结（使用 evo 工具）

roslaunch .launch rosbag play your_dataset.bag -r 2.0 ✅ 第二步：录制估计轨迹 bash 复制编辑 rosbag record -O traj_only.bag /aft_mapped_to_init 运行一段时间后 CtrlC 停止，生成 traj_only.bag 第三步：提取估计轨迹和真值轨迹为…...

编程日记 2026/4/21 4:44:34

Spring Boot 跨域问题全解：原理、解决方案与最佳实践

精心整理了最新的面试资料和简历模板，有需要的可以自行获取点击前往百度网盘获取点击前往夸克网盘获取一、跨域问题的本质 1.1 什么是跨域？ 跨域（Cross-Origin）问题源于浏览器的同源策略（Same-Origin Policy&…...

编程日记 2026/3/14 10:23:55

目录