当前位置: 首页 > article >正文

结合Splash与Scrapy:高效爬取动态JavaScript网站

在当今的Web开发中,JavaScript的广泛应用使得许多网站的内容无法通过传统的请求-响应模式直接获取。为了解决这个问题,Scrapy开发者经常需要集成像Splash这样的JavaScript渲染引擎。本文将详细介绍Splash JS引擎的工作原理,并探讨如何将其与Scrapy框架无缝结合使用。

什么是Splash?

Splash是一个轻量级的浏览器服务,专门为Python爬虫设计,用于渲染JavaScript内容。它基于WebKit引擎,提供了简单的HTTP API,使开发者能够通过发送请求来获取已渲染的页面内容。

Splash的主要特点

  1. JavaScript渲染:能够执行页面中的JavaScript代码,加载动态内容
  2. HTTP API:通过简单的RESTful接口控制浏览器行为
  3. Lua脚本支持:可以使用Lua编写复杂的抓取逻辑
  4. 多进程架构:支持并行渲染请求
  5. Scrapy集成:提供官方的Scrapy-Splash插件,方便与Scrapy集成

为什么Scrapy需要Splash?

Scrapy作为强大的爬虫框架,对于静态网站有极好的处理能力,但对于动态JavaScript渲染的网站则显得力不从心。传统Scrapy只能获取初始HTML,无法处理:

  • 无限滚动内容
  • 单页应用(SPA)
  • 需要点击或交互才能显示的内容
  • 基于AJAX动态加载的数据

安装Splash

首先需要安装Splash服务。有几种方式可以选择:

Docker方式(推荐)

docker run -p 8050:8050 scrapinghub/splash

这将在本地的8050端口启动Splash服务。

手动安装

也可以从Splash官方仓库下载源码编译安装。

Scrapy集成Splash

Scrapy官方提供了scrapy-splash包来简化集成过程。

在这里插入图片描述

安装依赖

pip install scrapy-splash

配置Splash

在Scrapy项目的settings.py中添加以下配置:

# 启用Splash下载器中间件
DOWNLOADER_MIDDLEWARES = {'scrapy_splash.SplashCookiesMiddleware': 723,'scrapy_splash.SplashMiddleware': 725,'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}# 启用Splash的DUPEFILTER_CLASS
DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'# 使用Splash的HTTPCache
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'# Splash服务器设置
SPLASH_URL = 'http://localhost:8050'

使用SplashRequest

在Spider中,使用SplashRequest替代普通的Request

import scrapy
from scrapy_splash import SplashRequestclass JavaScriptSpider(scrapy.Spider):name = 'javascript_spider'start_urls = ['https://example.com']def start_requests(self):for url in self.start_urls:yield SplashRequest(url,self.parse,endpoint='render.html',  # 使用Splash的渲染端点args={'wait': 2,  # 等待2秒让JS执行'timeout': 30,  # 超时设置'images': 0,  # 禁用图片加载提高速度})def parse(self, response):# 此处的response已包含渲染后的HTMLtitle = response.css('title::text').get()yield {'title': title}

使用Lua脚本

对于更复杂的场景,可以编写Lua脚本控制Splash行为:

-- 示例Lua脚本
function main(splash, args)assert(splash:go(args.url))assert(splash:wait(2))return {html = splash:html(),url = splash:url(),}
end

在Scrapy中使用:

yield SplashRequest(url,self.parse,endpoint='execute',  # 使用执行Lua的端点args={'lua_source': lua_script,'wait': 2,}
)

高级技巧

  1. 处理AJAX请求

    • 使用wait参数等待特定时间
    • 或者使用execute端点编写精确等待条件
  2. 模拟用户交互

    yield SplashRequest(url,args={'lua_source': '''function main(splash, args)assert(splash:go(args.url))assert(splash:wait(2))splash:runjs("document.querySelector('#search').value='scrapy';")assert(splash:wait(1))splash:mouse_click(100, 200)assert(splash:wait(2))return splash:html()end''','url': url,}
    )
    
  3. 表单提交

    yield SplashRequest(url,args={'lua_source': '''function main(splash, args)assert(splash:go(args.url))assert(splash:wait(2))splash:send_text('username', 'myuser')splash:send_text('password', 'mypassword')splash:runjs("document.querySelector('#login').click();")assert(splash:wait(3))return splash:html()end''','url': login_url,}
    )
    

性能优化

  1. 启用缓存
    • 配置HTTP缓存中间件
    • 设置合理的缓存过期时间
  2. 并行请求
    • 增加Splash的并发实例(通过Docker -p参数或手动配置)
    • 在Scrapy中增加并发请求数
  3. 选择性渲染
    • 对不需要JS的页面使用普通请求
    • 通过dont_filter参数避免重复渲染

常见问题解决

  1. Splash无法加载某些页面
    • 检查是否有反爬机制(如Cloudflare)
    • 尝试设置User-Agent或使用代理
  2. 性能问题
    • 减少不必要的wait时间
    • 禁用图片加载('images': 0
    • 增加Splash的内存和CPU资源
  3. Lua脚本错误
    • 使用Splash的日志功能调试
    • 逐步测试Lua脚本的每个部分

替代方案比较

虽然Splash是一个优秀的选择,但也可以考虑其他方案:

工具优点缺点
Splash轻量级,Scrapy集成好需要额外服务
Selenium功能强大资源消耗大,速度慢
Playwright现代API,多浏览器支持设置较复杂
Puppeteer性能好,Node.js方案需要非Python环境

结论

Splash为Scrapy提供了强大的JavaScript渲染能力,使得爬取动态网站变得可行甚至简单。虽然它需要额外的服务配置,但对于需要处理现代Web应用的爬虫项目来说,这是一个值得投资的工具。通过合理配置和优化,可以构建高效、稳定的动态网站爬虫系统。

对于需要处理大量动态内容的爬虫项目,建议采用Splash与Scrapy的组合方案,并根据具体需求调整Lua脚本和请求参数。随着Web技术的发展,掌握这样的动态爬取技术将成为爬虫工程师的重要技能。

相关文章:

结合Splash与Scrapy:高效爬取动态JavaScript网站

在当今的Web开发中,JavaScript的广泛应用使得许多网站的内容无法通过传统的请求-响应模式直接获取。为了解决这个问题,Scrapy开发者经常需要集成像Splash这样的JavaScript渲染引擎。本文将详细介绍Splash JS引擎的工作原理,并探讨如何将其与S…...

用于构建安全AI代理的开源防护系统

大家读完觉得有帮助记得及时关注!!! 大型语言模型(LLMs)已经从简单的聊天机器人演变为能够执行复杂任务的自主代理,例如编辑生产代码、编排工作流程以及基于不受信任的输入(如网页和电子邮件&am…...

算法与数据结构 - 常用图算法总结

在图论中,图算法非常重要,广泛应用于计算机科学、网络分析、社交网络、地理信息系统等领域。下面是一些常用的图算法,按不同功能和应用场景分类: 1. 图的遍历 图遍历算法用于遍历图中的节点和边。主要有两种常见的图遍历方法&am…...

克里金模型+多目标优化+多属性决策!Kriging+NSGAII+熵权TOPSIS!

目录 效果一览基本介绍程序设计参考资料 效果一览 基本介绍 克里金模型多目标优化多属性决策!KrigingNSGAII熵权TOPSIS!!matlab2023b语言运行! 1.克里金模型(Kriging Model)是一种基于空间统计学的插值方法…...

LLM 论文精读(三)Demystifying Long Chain-of-Thought Reasoning in LLMs

这是一篇2025年发表在arxiv中的LLM领域论文,主要描述了长思维链 Long Chain-of-Thought 对LLM的影响,以及其可能的生成机制。通过大量的消融实验证明了以下几点: 与shot CoT 相比,long CoT 的 SFT 可以扩展到更高的性能上限&…...

【Prompt工程—文生图】案例大全

目录 一、人物绘图 二、卡通头像 三、风景图 四、logo设计图 五、动物形象图 六、室内设计图 七、动漫风格 八、二次元图 九、日常场景图 十、古风神化图 十一、游戏场景图 十二、电影大片质感 本文主要介绍了12种不同类型的文生图技巧,通过加入不同的图像…...

本地可执行命令的智能体部署方案

本地可执行命令的智能体部署方案,目标是让大语言模型(LLM)在本地接收自然语言指令,并自动调用系统命令、脚本或应用程序,完成任务自动化。这类系统通常被称为 LLM Agent with Tool Use 或 本地 Agent 实体系统。 &…...

rust程序静态编译的两种方法总结

1. 概述 经过我的探索,总结了两种rust程序静态编译的方法,理论上两种方法都适用于windows、mac os和linux(mac os未验证),实测方法一性能比方法二好,现总结如下,希望能够帮到你. 2.方法一 2.1 添加配置文件 在项目的同级文件夹下新…...

验证码(笔记)

为什么要有验证码: 为什么验证码这么让人厌烦,每个网站还要使用它呢?换句话说,这些网站为什么要“故意为难”用户呢? 其实验证码主要是为了区分用户是计算机还是人。假设一个黑客知道了你的账号,根据账号可…...

【Linux系列】目录大小查看

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…...

2048游戏(含Python源码)

前言 相关参考游戏: 像素飞机大战(含Python源码)-CSDN博客https://blog.csdn.net/weixin_64066303/article/details/147693018?spm1001.2014.3001.5501使用DeepSeek定制Python小游戏——以“俄罗斯方块”为例-CSDN博客https://blog.csdn.n…...

SwiftData 数据持久化解决方案

什么是 SwiftData? SwiftData 是苹果在 WWDC23 上推出的全新数据持久化框架,它构建在 Core Data 之上,但提供了更加 Swift 友好的 API。SwiftData 旨在简化数据模型的创建和管理,让开发者能够以更少的代码实现强大的数据持久化功…...

中间件-RocketMQ

RocketMQ 基本架构消息模型消费者消费消息模式顺序消息机制延迟消息批量消息事务消息消息重试最佳实践 基本架构 nameServer: 维护broker列表信息,客户端连接时只需要连接nameServer。可配置成集群。 broker:broker分为master和slave,master负…...

PostgreSQL 的 pg_current_logfile 函数

PostgreSQL 的 pg_current_logfile 函数 pg_current_logfile() 是 PostgreSQL 9.6 版本引入的一个系统管理函数,用于获取当前正在使用的日志文件路径。 一 基本用法 1 函数定义 pg_current_logfile([text]) → text2 简单查询 -- 获取当前日志文件路径 SELECT …...

Python就业方向有哪些?

Python 作为一门通用、易学且功能强大的编程语言,在多个领域都有广泛的应用,因此就业方向也非常多样化。以下是 Python 主要的就业方向及相关技能要求。 1. Web 开发 岗位:Python Web 开发工程师、后端工程师、全栈工程师技术栈&#xff1a…...

iptables 访问控制列表使用记录

iptables 是linux操作系统上自带的防火墙程序,功能强大,能够依据策略过滤掉一些恶意访问流量,本次记录一下iptables的常见使用方法,未尽之处,欢迎补充。 一、iptables 下载 我这里使用的是华为openEuler 22.03版本&am…...

16. Qt系统相关:事件、定时器

1. Qt事件 1.1 简介 事件是应用程序内部或者外部产生的事情或者动作的统称。在Qt中使用一个对象来表示一个事件。所有的Qt事件均继承于抽象类QEvent。事件是由系统或者Qt平台本身在不同的时刻发出的。当用户按下鼠标、敲下键盘,或者是窗口需要重新绘制的时候&#…...

云平台搭建

物联网云平台的基本概述 基本概念 随着物联网技术的快速发展,越来越多的设备需要接入网络以实现智能化功能,物联网平台应运而生。 物联网云平台(IoT Cloud Platform)是物联网生态系统中的核心组件,它通过提供一系列…...

数学实验(Matlab语言环境和线性代数实验)

一、Matlab语言环境和线性代数实验 1.Matlab语言环境 Matlab简介 Matlab:Matrix Laboratry 矩阵实验室 Matlab 提供了强大的科学计算、灵活的程序设计流程、高质量的图形可视化与界面设计等功能,被广泛应用于科学计算、控制系统、信息处理等领域的分…...

sherpa:介绍

更多内容:XiaoJ的知识星球 目录 1. sherpa 介绍 1. sherpa 介绍 sherpa是 Next-gen Kaldi 项目的部署框架。 sherpa 支持在各种平台上部署与语音相关的预训练模型,并提供多种语言绑定。 目前,sherpa 拥有以下子项目: k2-fsa/sh…...

图片上传的util和使用

图片上传的util package com.ruoyi.web.controller.common.utils;import org.springframework.beans.factory.InitializingBean; import org.springframework.beans.factory.annotation.Value; import org.springframework.context.annotation.Configuration; import org.spri…...

2025年4月个人工作生活总结

本文为 2025年4月工作生活总结。 研发编码 一个项目的临时记录 自2月份领导让我牵头负责一个项目起,在本月算是有较多时间投入——但也是与之前的相比。 月初,清明节前一晚上,因某事务被叫上参加临时紧急远程会议,几方领导都在…...

利用Elixir中的原子特性 + 错误消息泄露 -- Atom Bomb

题目信息: This new atom bomb early warning system is quite strange… 题目使用 elixir 语言 一开始,我们会访问 /page.html <!DOCTYPE html> <!-- 设定文档语言为英语 --> <html lang"en"> <head><!-- 设定字符编码为UTF-8 --><…...

numpy pandas

视频链接 numpy numpy是基于一个矩阵的运算 矩阵的属性 import numpy as np# 把一个列表转换成矩阵的方法 array np.array([[1,2,3],[3,4,5]])# 打印矩阵 print(array)# 维度 print(number of dim:,array.ndim)# 行数和列数 print(shape:,array.shape)# 总共有多少个元素在…...

Amazon Redshift 使用场景解析与最佳实践

作为 AWS 云上数据仓库服务的核心成员&#xff0c;Amazon Redshift 凭借其高性能、可扩展性与经济性&#xff0c;正在成为越来越多企业实现数据驱动决策的首选方案。本文将解析 Redshift 的典型使用场景&#xff0c;并分享几项实用的落地最佳实践&#xff0c;帮助企业在数据仓库…...

STM32F446 RTC在VDD/VDDA关闭后失振问题的分析与解决

【原创】STM32F446 RTC在VDD/VDDA关闭后失振问题的分析与解决 作者: 思考的味道[你的ID] | weix_42368227 版权声明: 禁止未经授权转载 1. 问题描述 在某低功耗STM32F446项目中&#xff0c;采用以下供电方案&#xff1a; VDD&#xff1a;由DC-DC 3.3V提供&#xff08;主电源…...

SSM框架(Spring + Spring MVC + MyBatis)整合配置的详细步骤

以下是 SSM框架&#xff08;Spring Spring MVC MyBatis&#xff09;整合配置的详细步骤&#xff0c;适用于 Maven 项目。 &#xff08;一&#xff09;、pom.xml中添加相关依赖 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"ht…...

Elasticsearch 中的索引模板:如何使用可组合模板

作者&#xff1a;来自 Elastic Kofi Bartlett 探索可组合模板以及如何创建它们。 更多阅读&#xff1a; Elasticsearch&#xff1a;可组合的 Index templates - 7.8 版本之后 想获得 Elastic 认证吗&#xff1f;查看下一期 Elasticsearch Engineer 培训的时间&#xff01; El…...

内存泄漏系列专题分析之七:高通相机CamX--Android通用ION(dmabuf)内存分配和释放原理

【关注我,后续持续新增专题博文,谢谢!!!】 上一篇我们讲了:内存泄漏系列专题分析之六:高通camx 内存泄漏测试的未回收问题分析 这一篇我们开始讲:内存泄漏系列专题分析之七:高通相机CamX--Android通用ION(dmabuf)内存分配和释放原理 目录 一、背景 二、…...

【LeetCode 42】接雨水(单调栈、DP、双指针)

题面&#xff1a; 思路&#xff1a; 能接雨水的点&#xff0c;必然是比两边都低&#xff08;小&#xff09;的点。有两种思路&#xff0c;一种是直接计算每个点的最大贡献&#xff08;也就是每个点在纵向上最多能接多少水&#xff09;&#xff0c;另一种就是计算每个点在横向上…...