当前位置: 首页 > news >正文

爬虫—Scrapy 整合 ChromeDriver 实现动态网页拉取

在进行爬虫开发时,使用 Scrapy 配合 ChromeDriver 来模拟真实浏览器加载 JavaScript 渲染内容是一种常见且高效的方法。Scrapy 本身是一个非常强大的爬虫框架,然而它默认使用的是 requests 库来抓取静态网页内容。对于需要通过 JavaScript 渲染的动态网页,Scrapy 本身可能无法直接处理。

因此,使用 ChromeDriver 来模拟浏览器渲染 JavaScript 生成动态内容,然后再用 Scrapy 提取数据,成为了解决这一问题的一种好方式。本文将带你通过实际代码示例,教你如何结合 Scrapy 和 ChromeDriver 抓取动态网页内容。


1. 环境准备

1.1 安装 Scrapy

首先,需要确保你已经安装了 Scrapy。你可以使用以下命令来安装 Scrapy:

pip install scrapy

1.2 安装 Selenium 和 ChromeDriver

在 Scrapy 中使用 Chrome 浏览器来模拟请求,我们需要通过 Selenium 来控制 ChromeDriver。所以,首先需要安装 Selenium

pip install selenium

然后,下载并安装 ChromeDriver。你可以根据你 Chrome 浏览器的版本去 ChromeDriver 官网 下载合适的版本。确保 ChromeDriver 路径已经加入到系统环境变量中,或者你可以在代码中指定路径。

1.3 安装 Scrapy-Selenium

为了让 Scrapy 与 Selenium 配合使用,官方提供了 scrapy-selenium 扩展。安装它:

pip install scrapy-selenium

2. 配置 Scrapy 项目

2.1 创建 Scrapy 项目

在命令行中创建一个新的 Scrapy 项目:

scrapy startproject scrapy_chromedriver
cd scrapy_chromedriver

2.2 配置 settings.py

打开项目目录中的 settings.py,添加以下配置来启用 scrapy-selenium 中间件。

# settings.py# 启用 scrapy-selenium 中间件
DOWNLOADER_MIDDLEWARES = {'scrapy_selenium.SeleniumMiddleware': 800,
}# 设置 ChromeDriver 的路径
SELENIUM_DRIVER_NAME = 'chrome'
SELENIUM_DRIVER_EXECUTABLE_PATH = '/path/to/chromedriver'  # 替换成你下载的 ChromeDriver 路径
SELENIUM_DRIVER_ARGUMENTS = ['--headless', '--disable-gpu', '--no-sandbox']  # 使用无头模式(可选)# 默认设置 User-Agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'

2.3 配置 Spider

现在,你可以创建一个爬虫(Spider)来抓取动态网页。

scrapy genspider dynamic_spider example.com

编辑生成的 dynamic_spider.py 文件,配置爬虫来使用 Selenium 打开网页并提取数据。

# dynamic_spider.pyimport scrapy
from scrapy_selenium import SeleniumRequestclass DynamicSpider(scrapy.Spider):name = 'dynamic_spider'allowed_domains = ['example.com']start_urls = ['https://example.com/dynamic-page']def start_requests(self):# 使用 SeleniumRequest 代替 Scrapy 的 Requestfor url in self.start_urls:yield SeleniumRequest(url=url, callback=self.parse)def parse(self, response):# 使用 Selenium 请求加载后的 HTML 页面page_title = response.xpath('//title/text()').get()print("Page Title: ", page_title)# 提取页面中的其他数据,例如某些动态生成的内容dynamic_data = response.xpath('//div[@class="dynamic-content"]/text()').get()yield {'title': page_title,'dynamic_data': dynamic_data}

在这个例子中,我们用 SeleniumRequest 替代了 Request,并在回调函数中提取动态页面内容。SeleniumRequest 会启动一个浏览器实例来加载页面,并返回最终渲染的 HTML 内容。


3. 运行爬虫

完成配置后,你可以在命令行中运行爬虫:

scrapy crawl dynamic_spider

如果一切配置正确,Scrapy 会通过 Selenium 启动 Chrome 浏览器,加载动态内容并提取数据。


4. 调试与优化

4.1 启用浏览器可视化模式

为了调试,你可以去掉 --headless 参数,这样就可以看到实际的浏览器行为:

SELENIUM_DRIVER_ARGUMENTS = ['--disable-gpu', '--no-sandbox']

4.2 增加等待时间

有时动态内容加载较慢,你可能需要等待页面完全加载后再提取数据。可以通过 Selenium 提供的 WebDriverWait 来增加等待时间。

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as ECdef parse(self, response):driver = response.request.meta['driver']# 等待某个元素加载完毕WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.XPATH, '//div[@class="dynamic-content"]')))# 继续提取数据dynamic_data = response.xpath('//div[@class="dynamic-content"]/text()').get()yield {'dynamic_data': dynamic_data}

4.3 调整延迟与请求频率

在进行大量数据抓取时,记得调整请求的频率,避免过度访问同一网站导致 IP 被封锁:

DOWNLOAD_DELAY = 2  # 每次请求之间延迟 2 秒

5. 总结

通过 ScrapySelenium 结合使用,能够轻松抓取需要 JavaScript 渲染的动态网页。scrapy-selenium 提供了一个方便的接口来使用浏览器驱动,模拟用户行为获取动态数据。

  1. 安装 ScrapySeleniumscrapy-selenium
  2. 配置 settings.py,启用 Selenium 驱动。
  3. 在 Spider 中使用 SeleniumRequest 替代传统的 Request
  4. 进行调试和优化,确保爬虫运行稳定。

通过这种方式,你能够有效地抓取动态生成的网页内容,而不必担心 JavaScript 渲染的问题。希望本教程能够帮助你更好地理解如何在 Scrapy 中集成 ChromeDriver,成功地进行动态网页抓取。

相关文章:

爬虫—Scrapy 整合 ChromeDriver 实现动态网页拉取

在进行爬虫开发时,使用 Scrapy 配合 ChromeDriver 来模拟真实浏览器加载 JavaScript 渲染内容是一种常见且高效的方法。Scrapy 本身是一个非常强大的爬虫框架,然而它默认使用的是 requests 库来抓取静态网页内容。对于需要通过 JavaScript 渲染的动态网页…...

Linux 进程管理详解

Linux 进程管理详解 引言 在现代操作系统中,进程是执行程序的基本单位。Linux作为一个强大的多任务操作系统,提供了丰富且灵活的机制来管理和控制进程。本文将详细介绍Linux进程管理的基本概念、核心机制以及常用的管理工具,帮助读者深入了…...

MySQL更新JSON字段key:value形式

MySQL更新JSON字段key:value形式 1. 介绍 ‌MySQL的JSON数据类型‌是MySQL 5.7及以上版本中引入的一种数据类型,用于存储JSON格式的数据。使用JSON数据类型可以自动校验文档是否满足JSON格式的要求,优化存储格式,并允许快速访问文档中的特定…...

vue.js学习(day 18)

实例:面经基础版...

WINDOWS 单链表SLIST_ENTRY使用

1.初始化链表头 //初始化链表头qq1490900437 void InitialGloubleVar() {while (1){G_Handle.SaveProcessThreadHandle (PSLIST_HEADER)_aligned_malloc(sizeof(SLIST_HEADER), MEMORY_ALLOCATION_ALIGNMENT);if (G_Handle.SaveProcessThreadHandle ! NULL){break;}}Initiali…...

【Linux 篇】Docker 容器星河与镜像灯塔:Linux 系统下解锁应用部署奇幻征程

文章目录 【Linux 篇】Docker 容器星河与镜像灯塔:Linux 系统下解锁应用部署奇幻征程前言一 、docker上部署mysql1. 拉取mysql镜像2. 创建容器3. 远程登录mysql 二 、docker上部署nginx1. 拉取nginx镜像2. 在dockerTar目录下 上传nginx.tar rz命令3. 创建nginx容器4…...

不同云计算网络安全等级

导读云计算的本质是服务,如果不能将计算资源规模化/大范围的进行共享,如果不能真正以服务的形式提供,就根本算不上云计算。 等级保护定级流程 定级是开展网络安全等级保护工作的 “基本出发点”,虚拟化技术使得传统的网络边界变…...

手机实时提取SIM卡打电话的信令声音-蓝牙电话如何适配eSIM卡的手机

手机实时提取SIM卡打电话的信令声音 --蓝牙电话如何适配eSIM卡的手机 一、前言 蓝牙电话的海外战略中,由于海外智能手机市场中政策的差异性,对内置eSIM卡的手机进行支持是非常合理的需求。Android系列手机中,无论是更换通信运营商&#xf…...

视频流媒体服务解决方案之Liveweb视频汇聚平台

一,Liveweb视频汇聚平台简介: LiveWeb是深圳市好游科技有限公司开发的一套综合视频汇聚管理平台,可提供多协议(RTSP/RTMP/GB28181/海康Ehome/大华,海康SDK等)的视频设备接入,支持GB/T28181上下级联&#xf…...

【在Linux世界中追寻伟大的One Piece】多线程(三)

目录 1 -> Linux线程同步 1.1 -> 条件变量 1.2 -> 同步概念与竞态条件 1.3 -> 条件变量函数 1.4 -> 为什么pthread_cond_wait需要互斥量 1.5 -> 条件变量使用规范 2 -> 生产者消费者模型 2.1 -> 为什么要使用生产者消费者模型 2.2 -> 生产…...

mvc命令

命令 mvc MVC(Model-View-Controller)是一种软件架构模式,用于组织和管理应用程序的代码mvc重要的三部分 (1)‌模型(Model)‌:负责存储系统的中心数据,提供访问数据的函数,封装了应用程序的功能内核。 (2)视图&…...

17 go语言(golang) - 错误处理

错误处理 错误处理是编程中用于识别、响应和恢复程序运行时出现的错误和异常情况的过程。其目的是确保程序的鲁棒性(一个系统、模型或函数在面对错误输入、工作压力、意外情况或故意攻击时仍能保持稳定性和可靠性的能力),即使在出现错误的情…...

PG 库停库超时异常案例

文章目录 现象官方文档停库底层流程:恢复脚本优化思路总结 现象 停库超时 <2024-11-29 12:50:43.022 UTC 87472 192.167.60.1(54862) PostgreSQL JDBC Driver postgres stk>FATAL: terminating connection due to administrator command <2024-11-29 12:50:43.022 …...

redis下载、基础数据类型、操作讲解说明,持久化、springboot整合等

1 Redis是什么 官网&#xff1a;https://redis.io 开发者&#xff1a;Antirez Redis诞生于2009年全称是Remote Dictionary Server 远程词典服务器&#xff0c;是一个基于内存的键值型NoSQL数据库。 Redis是一个开源的、高性能的键值对存储系统&#xff0c;它支持多种数据结构&…...

[代码随想录06]哈希表的使用,有效字母异位词,两数组交集,快乐数,两数之和

前言 哈希表是什么&#xff1f;一句话带你理解&#xff0c;简单来说我们对于杂乱的数据&#xff0c;怎么快速找到数据&#xff0c;如何做呢&#xff1f;一般的做法就是遍历复杂度为o(N)去找寻一个数据&#xff0c;但是吧&#xff0c;我们这样思考的话&#xff0c;还是花了大量时…...

【CSS】一篇掌握CSS

不是因为有了希望才去坚持,而是坚持了才有了希望 目录 一.导入方式 1.行内样式 2.内部样式 3.外部样式(常用) 二.选择器 1.基本选择器(常用) 1.1标签选择器 1.2类选择器 1.3id选择器 2.层次选择器 2.1后代选择器 2.2子选择器 2.3相邻兄弟选择器 2.4通用兄弟选择器…...

分层图最短路

常见情形&#xff1a; 对于边有k次操作的题。。 整体思想&#xff1a; 分层图最短路可以视作是dijkstra的一个扩展&#xff0c;通常用于处理N小于10000&#xff0c;或者是k不大的情形。整体有点类似于拆点。将一个点拆成k个点处理。层与层之间互不影响。 好了我就说这么多&…...

vue3 基本使用

Vue 3 提供了多种方式来构建用户界面&#xff0c;包括选项式 API 和 Composition API。下面我将详细介绍 Vue 3 的基本使用和语法&#xff0c;主要集中在选项式 API 上&#xff0c;因为这对于初学者来说更容易上手。 1. 创建 Vue 项目 如果你还没有一个 Vue 项目&#xff0c;…...

【maven-4】IDEA 配置本地 Maven 及如何使用 Maven 创建 Java 工程

IntelliJ IDEA&#xff08;以下简称 IDEA&#xff09;是一款功能强大的集成开发环境&#xff0c;广泛应用于 Java 开发。下面将详细介绍如何在 IDEA 中配置本地 Maven&#xff0c;并创建一个 Maven Java 工程&#xff0c;快速上手并高效使用 Maven 进行 Java 开发。 1. Maven …...

种花问题算法

假设有一个很长的花坛&#xff0c;一部分地块种植了花&#xff0c;另一部分却没有。可是&#xff0c;花不能种植在相邻的地块上&#xff0c;它们会争夺水源&#xff0c;两者都会死去。 给你一个整数数组 flowerbed 表示花坛&#xff0c;由若干 0 和 1 组成&#xff0c;其中 0 …...

web vue 项目 Docker化部署

Web 项目 Docker 化部署详细教程 目录 Web 项目 Docker 化部署概述Dockerfile 详解 构建阶段生产阶段 构建和运行 Docker 镜像 1. Web 项目 Docker 化部署概述 Docker 化部署的主要步骤分为以下几个阶段&#xff1a; 构建阶段&#xff08;Build Stage&#xff09;&#xff1a…...

synchronized 学习

学习源&#xff1a; https://www.bilibili.com/video/BV1aJ411V763?spm_id_from333.788.videopod.episodes&vd_source32e1c41a9370911ab06d12fbc36c4ebc 1.应用场景 不超卖&#xff0c;也要考虑性能问题&#xff08;场景&#xff09; 2.常见面试问题&#xff1a; sync出…...

基于距离变化能量开销动态调整的WSN低功耗拓扑控制开销算法matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.算法仿真参数 5.算法理论概述 6.参考文献 7.完整程序 1.程序功能描述 通过动态调整节点通信的能量开销&#xff0c;平衡网络负载&#xff0c;延长WSN生命周期。具体通过建立基于距离的能量消耗模型&am…...

pam_env.so模块配置解析

在PAM&#xff08;Pluggable Authentication Modules&#xff09;配置中&#xff0c; /etc/pam.d/su 文件相关配置含义如下&#xff1a; 配置解析 auth required pam_env.so1. 字段分解 字段值说明模块类型auth认证类模块&#xff0c;负责验证用户身份&am…...

ESP32读取DHT11温湿度数据

芯片&#xff1a;ESP32 环境&#xff1a;Arduino 一、安装DHT11传感器库 红框的库&#xff0c;别安装错了 二、代码 注意&#xff0c;DATA口要连接在D15上 #include "DHT.h" // 包含DHT库#define DHTPIN 15 // 定义DHT11数据引脚连接到ESP32的GPIO15 #define D…...

OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别

OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别 直接训练提示词嵌入向量的核心区别 您提到的代码: prompt_embedding = initial_embedding.clone().requires_grad_(True) optimizer = torch.optim.Adam([prompt_embedding...

select、poll、epoll 与 Reactor 模式

在高并发网络编程领域&#xff0c;高效处理大量连接和 I/O 事件是系统性能的关键。select、poll、epoll 作为 I/O 多路复用技术的代表&#xff0c;以及基于它们实现的 Reactor 模式&#xff0c;为开发者提供了强大的工具。本文将深入探讨这些技术的底层原理、优缺点。​ 一、I…...

全面解析各类VPN技术:GRE、IPsec、L2TP、SSL与MPLS VPN对比

目录 引言 VPN技术概述 GRE VPN 3.1 GRE封装结构 3.2 GRE的应用场景 GRE over IPsec 4.1 GRE over IPsec封装结构 4.2 为什么使用GRE over IPsec&#xff1f; IPsec VPN 5.1 IPsec传输模式&#xff08;Transport Mode&#xff09; 5.2 IPsec隧道模式&#xff08;Tunne…...

使用 Streamlit 构建支持主流大模型与 Ollama 的轻量级统一平台

🎯 使用 Streamlit 构建支持主流大模型与 Ollama 的轻量级统一平台 📌 项目背景 随着大语言模型(LLM)的广泛应用,开发者常面临多个挑战: 各大模型(OpenAI、Claude、Gemini、Ollama)接口风格不统一;缺乏一个统一平台进行模型调用与测试;本地模型 Ollama 的集成与前…...

Linux --进程控制

本文从以下五个方面来初步认识进程控制&#xff1a; 目录 进程创建 进程终止 进程等待 进程替换 模拟实现一个微型shell 进程创建 在Linux系统中我们可以在一个进程使用系统调用fork()来创建子进程&#xff0c;创建出来的进程就是子进程&#xff0c;原来的进程为父进程。…...