当前位置：首页 > news >正文

Scrapy爬虫框架介绍、创建Scrapy项目

news 2026/5/27 13:16:14

Scrapy官网：https://scrapy.org/

什么是Scrapy

Scrapy 是一个基于 Python 的快速的高级网页抓取和网页爬取框架，用于抓取网站并从其页面中提取结构化数据。它可用于多种用途，从数据挖掘到监控和自动化测试。

Scrapy核心组件

1. Scrapy Engine（Scrapy引擎）
Scrapy 引擎是整个系统的核心，负责控制数据流在所有组件之间的流动。它从调度器获取请求，发送给下载器处理，然后将下载器返回的响应交给爬虫处理。
2. Scheduler（调度器）
调度器负责接收引擎发来的请求并进行排序，然后将这些请求发送给引擎。调度器可以处理优先级，并且支持去重机制以避免重复抓取。
3. Downloader（下载器）
下载器负责向互联网上的服务器发送请求，并接收响应。Scrapy 下载器是高度异步的，能够高效地处理大量请求。
4. Spiders（爬虫）
爬虫是用户定义的类，负责处理下载器返回的响应，从中提取数据（Item）或进一步生成请求。每个爬虫定义了要抓取的域名和处理响应的逻辑。
5. Item（数据项）
Item 是一种简单的数据容器，用于存储从网页中提取的数据。Item 类似于字典，但提供了额外的保护和方法。
6. Item Pipeline（数据管道）
数据管道是一个序列化系统，用于处理和存储从爬虫中提取的数据。每个管道组件负责处理数据项的一部分，例如数据清洗、验证或存储。
7. Downloader Middlewares（下载中间件）
下载中间件是介于调度器和下载器之间的钩子，用于处理请求和响应。它们可以修改或扩展请求和响应的处理流程，例如设置代理、修改请求头等。
8. Spider Middlewares（爬虫中间件）
爬虫中间件是介于引擎和爬虫之间的钩子，用于处理爬虫输入和输出的响应和结果。它们可以修改或扩展爬虫的处理流程，例如添加额外的日志记录、处理异常等。

Scrapy扩展组件

1. Feed Exports（数据导出）
Scrapy 支持将抓取的数据导出为多种格式（如 JSON、CSV、XML），并可以配置导出的细节（如字段顺序、编码等）。
2. Telnet Console（Telnet 控制台）
Telnet 控制台提供了一个实时监控和调试爬虫的工具，允许开发者在爬虫运行时进行交互式调试。
3. Logging（日志）
Scrapy 内置了强大的日志系统，用于记录运行时的各种信息，如调试信息、错误消息等。日志系统可以配置不同的日志级别和输出格式。
4. Extensions（扩展）
扩展模块用于增强 Scrapy 的功能，例如自动重试失败的请求、监控爬虫性能等。开发者可以自定义扩展模块以满足特定需求。
5. Stats Collectors（统计收集器）
统计收集器用于收集和记录爬虫运行时的各种统计信息，如请求数量、响应时间等。统计信息可以用于优化和调试爬虫。

组件交互流程

初始请求：爬虫从 start_urls 生成初始请求，并通过引擎（Engine）发送给调度器（Scheduler）。
请求调度：调度器（Scheduler）将请求排序并发送给下载器（Downloader）。
请求下载：下载器（Downloader）向目标网站（Internet）发送请求并获取响应。
响应处理：下载器（Downloader）将响应发送给引擎（Engine），进而交给爬虫（Spiders）处理。
数据提取：爬虫（Spiders）从响应中提取数据项，并生成新的请求（如果有）。
数据处理：提取的数据项通过数据管道（Item Pipeline）进行处理和存储。

安装Scrapy

pip install scrapy

Scrapy项目目录结构说明

Scrapy 项目的结构较为标准，以下是一个典型的 Scrapy 项目的目录结构图示及其简要说明，供方便理解。

myproject/
│
├── myproject/                 # 项目目录（主目录）
│   ├── __init__.py            
│   ├── items.py               # 定义 Item 类（数据结构）
│   ├── middlewares.py         # 自定义中间件
│   ├── pipelines.py           # Item 处理管道
│   ├── settings.py            # 项目设置文件
│   ├── spiders/               # 存放爬虫的目录
│   │   ├── __init__.py        
│   │   ├── example_spider.py  # 定义爬虫
│
├── scrapy.cfg                 # Scrapy 配置文件
│
└── README.md                  # 项目的说明文件（可选）

创建Scrapy项目

使用 scrapy startproject 命令来创建一个新的 Scrapy 项目。打开终端或命令行，进入你想要创建项目的目录，并运行以下命令

# scrapy startproject <项目名称>
scrapy startproject myproject

创建爬虫

在项目根目录中，你可以使用 scrapy genspider 命令创建新的爬虫。以下命令将创建一个名为 baidu 的爬虫，用于抓取 www.baidu.com 的域名

# scrapy genspider <爬虫名称> <允许爬取的域名>
scrapy genspider baidu www.baidu.com

完整目录结构如下

爬虫文件内容说明

解析方法解析response

# 解析方法，response：爬取起始url的响应
def parse(self, response):# 解析示例with open("baidu.html", "wb") as f:f.write(response.body)

运行爬虫

运行爬虫之前需要修改 settings.py 配置文件的配置，如下：

使用 scrapy crawl 命令来运行你的爬虫。以下命令会启动名为 baidu 的爬虫：

# scrapy crawl <爬虫名称>
scrapy crawl baidu

Scrapy爬虫框架介绍、创建Scrapy项目

Scrapy官网：https://scrapy.org/ 什么是Scrapy Scrapy 是一个基于 Python 的快速的高级网页抓取和网页爬取框架，用于抓取网站并从其页面中提取结构化数据。它可用于多种用途，从数据挖掘到监控和自动化测试。 Scrapy核心组件 1. Scrapy Engin…...

编程日记 2024/8/6 14:24:35

如何监测某个进程是否退出(C++)？

使用WaitForSingleObject函数，可以判断进程是否退出。 WaitForSingleObject函数的作用是：等待直到指定的对象处于信号状态（通知状态）或到达指定的等待时间（超时时间）。函数声明如下： 1 DWOR…...

编程日记 2024/8/6 14:23:34

Python：Neo 库读取 ABF 文件，数据格式详解

Neo 库读取 ABF 文件后的数据格式 neo 是一个用于处理电生理数据的 Python 库，支持多种数据格式，包括 ABF 文件。了解 neo 读入 ABF 文件后的数据结构非常重要，以下给大家介绍一下使用 neo 读取 ABF 文件，及其对象格式。 1. ABF…...

编程日记 2024/8/6 14:22:33

【Linux】网络基础_3

文章目录十、网络基础5. socket编程socket 常见APIsockaddr结构简单的UDP网络程序未完待续十、网络基础 5. socket编程 socket 常见API // 创建 socket 文件描述符 (TCP/UDP, 客户端服务器) int socket(int domain, int type, int protocol);// 绑定端口号 (TCP/UDP, 服…...

编程日记 2024/8/6 14:21:32

C++之从C过渡（上）

C之从C过渡前言暂时告别C语言，我们走进C。对于有C语言基础，初学C的我们来说，在正式学习C的主体内容之前，我们需要先有一个过渡，本文中会总结过渡需要了解的零散知识，主要是语法。正文 C的第一个程序 …...

编程日记 2024/8/6 14:20:30

MongoDB 100问

基础问题 1. 什么是MongoDB？ MongoDB是一种面向文档的NoSQL数据库，使用BSON（二进制JSON）格式存储数据。它支持动态模式设计，具有高性能、高可用性和易扩展性。 2. MongoDB和传统关系型数据库的区别是什么&#xff1f…...

编程日记 2024/8/6 14:19:29

Arduino ESP32使用 HardwareSerial创建一个任意串口

文章目录前言使用 `HardwareSerial` 创建任意串口创建 `HardwareSerial` 对象示例代码`begin` 函数总结前言在 Arduino 项目中，串口通信是一种常见且重要的通信方式。ESP32 作为一款功能强大的微控制器，提供了多个 UART（通用异步收发传输器）接口，允许用户灵活地进行串口…...

编程日记 2024/8/6 14:18:28

数据中台建设之数据存储

目录一、技术选型需要明确的问题二、技术选型需要考虑的几个方面 2.1 数据规模 2.2 数据生产方式 2.3 数据应用方式三、技术选型的场景分析 3.1 概述 3.2 在线与离线 3.2.1 在线存储 3.2.2 离线存储 3.3 OLTP与OLAP 3.3.1 OLTP 3.3.2 OLAP 3.3.3 OLTP与OLAP的关…...

编程日记 2024/8/6 14:17:27

最常见的AI大模型总结

前言：大模型可以根据其主要的应领域和功能，可以分类为“文生文”（Text-to-Text）、“文生图”（Text-to-Image）和“文生视频”（Text-to-Video），都是基于自然语言处理&#…...

编程日记 2024/8/6 14:15:23

源码安装docker和docker-compose

前言前提条件：内核要求目前，CentOS 仅发行版本中的内核支持 Docker。 Docker 运行在 CentOS 7 上，要求系统为64位、系统内核版本为3.10 以上。 Docker 运行在 CentOS-6.5 或更高的版本的 CentOS 上，要求系统为64位、系统内核版…...

编程日记 2024/8/6 14:14:21

Java、PHP、Node 操作 MySQL 数据库常用方法

一、Java 操作 MySQL 数据库 1、Java 连接 MySQL 数据库 1. 使用 JDBC 驱动程序连接使用这种方式，首先需要导入 MySQL 的 JDBC 驱动程序依赖，然后通过 Class.forName() 方法加载驱动程序类。其创建连接的过程相对直接，只需提供准确的数据库…...

编程日记 2024/8/6 14:13:18

nVisual分享社区正式上线啦！

nVisual分享社区正式上线啦！ 访问地址：分享社区 nVisual是耐威迪基于数字孪生技术物联网技术开发的一款基础设施数字孪生软件工具，主要实现OSP室外与ISP室内基础设施的规划、记录、分析的可视化管理。规划：nVisual可视化、智能化…...

编程日记 2024/8/6 14:05:10

4.5.门控循环单元GRU

门控循环单元GRU 对于一个序列，不是每个观察值都是同等重要的，可能会遇到一下几种情况： 早期观测值对预测所有未来观测值都具有非常重要的意义。考虑极端情况，第一个观测值包含一个校验和，目的是在序列的末尾辨别…...

编程日记 2024/8/6 14:04:09

10种 Python数据结构,从入门到精通

今天我们将深入探讨 Python 中常用的数据结构，帮助你从基础到精通。每种数据结构都有其独特的特点和适用场景，通过实际代码示例和生活中的比喻，让你更容易理解这些概念。学习数据结构的三个阶段 1、掌握基本用法：使用这些数据结…...

编程日记 2024/8/6 14:02:06

【AI】人工智能时代，程序员如何保持核心竞争力？

目录程序员在AI时代的应对策略1. 引言2. AI在编程领域的影响2.1 AI辅助编程工具的现状2.2 AI对编程工作的影响2.3 程序员的机遇与挑战 3. 深耕细作：专注领域的深度学习3.1 专注领域的重要性3.2 深度学习的策略3.2.1 选择合适的领域3.2.2 持续学习和研究3.2.3 实践与…...

编程日记 2024/8/6 14:01:05

WPF学习（3）- WrapPanel控件（瀑布流布局）+DockPanel控件（停靠布局）

WrapPanel控件（瀑布流布局） WrapPanel控件表示将其子控件从左到右的顺序排列，如果第一行显示不了，则自动换至第二行，继续显示剩余的子控件。我们来看看它的结构定义： public class WrapPanel : Panel {pub…...

编程日记 2024/8/6 14:00:04

【python】Python中实现定时任务常见的几种方式原理分析与应用实战

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯，先赞后看哦~🎈🎈 🏆 作者简介：景天科技苑 🏆《头衔》：大厂架构师，华为云开发者社区专家博主，…...

编程日记 2024/8/6 13:57:01

老公请喝茶,2024年老婆必送老公的养生茶,暖暖的很贴心

在这个快节奏的时代，每个人都在为生活奔波，而家的温馨与关怀，成了我们最坚实的后盾。随着2024年的已经过半，作为妻子，你是否也在寻找一份特别的礼物，来表达对老公深深的爱意与关怀？在这个充满爱…...

编程日记 2024/8/6 13:56:00

3d打印相关资料

模型库拓竹makerworld爱给...

编程日记 2024/8/6 13:53:58

MySQL1 DDL语言

安装与配置官网： MySQL :: Download MySQL Installer 阿里云： MySQL8 https://www.alipan.com/s/auhN4pTqpRp 点击链接保存，或者复制本段内容，打开「阿里云盘」APP ，无需下载极速在线查看，视频原画倍速…...

编程日记 2024/8/6 13:52:56

保姆级教程：用iSYSTEM winIDEA和iC5000给S32K148烧录程序，附完整配置流程

从零掌握iSYSTEM工具链：S32K148开发板烧录与调试全流程实战第一次接触iSYSTEM的winIDEA和iC5000仿真器时，很多嵌入式开发者都会感到无从下手。不同于常见的开源工具链，这套专业级开发环境在汽车电子和工业控制领域有着广泛应用，尤…...

编程新知 2026/5/26 5:04:27

STM32单片机学习(28) —— STM32的SPI外设

文章目录概述SPI通信的移位机制（以bit为单位）SPI外设框图第一部分：数据通路SPI通信的数据帧格式SPI外设移位机制（以字节为单位）第二部分：主机时钟生成器SPI通信时钟频率与传输速率第三部分：主从…...

编程新知 2026/5/26 3:44:10

机器学习与深度学习在地球物理勘探中的应用：基于电阻率数据预测极化率模型

1. 项目概述与核心价值在花岗岩这类地质条件复杂的地区搞勘探，最头疼的就是地下情况“看不清”。传统的电阻率（ERT）和激发极化（IP）联合反演，就像用一把刻度模糊的尺子去量一块表面坑洼不平的石头——面对高…...

编程新知 2026/5/26 3:22:06

告别虚频困扰：用VASP+DynaPhoPy搞定高温材料声子谱的保姆级教程

高温材料声子谱计算实战：从虚频困境到非谐解决方案引言：虚频问题的根源与突破路径在计算材料学领域，声子谱分析是理解材料动力学稳定性和热力学性质的核心手段。然而许多研究者都遭遇过这样的困境：对实验合成的材料进行简谐近似…...

编程新知 2026/5/26 2:17:28

告别FTP龟速：用NTFS-3G在CentOS7上直连移动硬盘拷贝200G大文件

告别FTP龟速：用NTFS-3G在CentOS7上直连移动硬盘拷贝200G大文件当面对数百GB的设计素材、日志文件或数据库备份需要迁移时，传统的FTP传输往往会成为效率瓶颈。我曾在一个视频处理项目中，需要将230GB的4K原始素材从移动硬盘导入服务器&#xff…...

编程新知 2026/5/26 1:47:12

轻量化部署，异地机房快速接入，多机房管理不用再大动干戈

随着业务拓展，不少企业、单位陆续建起异地分部机房、多区域节点机房。传统资产管理系统部署复杂、对接困难，异地机房接入成本高、周期长，改造繁琐，让很多运维团队望而却步，只能继续沿用分散人工管理，资产混…...

编程新知 2026/5/25 23:43:44

关于psthon问题

我想问问各位我python可以查到但是我的bit文件查不到python怎么回事...

编程新知 2026/5/25 23:39:42

武汉国电华美16875kVA串联谐振试验装置，这手活儿细

在超高压变电站和长距离电缆的现场，交流耐压试验是检验设备绝缘的“最后一关”。这位老师傅经手过不少大工程，他说，面对GIS、大型变压器这些“大块头”电容性试品，能不能顺利“过关”，往往就看串联谐振装置顶不顶得住。…...

编程新知 2026/5/25 22:06:17

Graphin高级应用：结合GISDK构建配置化图分析模块的完整指南

Graphin高级应用：结合GISDK构建配置化图分析模块的完整指南【免费下载链接】Graphin 🌌 A React toolkit for graph visualization based on G6. 项目地址: https://gitcode.com/gh_mirrors/gr/Graphin 在当今数据驱动的时代，图可视化…...

编程新知 2026/5/25 21:29:49

HoRain云--CLAUDE.md 使用指南

🎬 HoRain云小助手：个人主页 🔥 个人专栏: 《Linux 系列教程》《c语言教程》 ⛺️生活的理想，就是为了理想的生活! ⛳️ 推荐前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！…...

编程新知 2026/5/25 20:49:11