当前位置：首页 > news >正文

scrapy介绍，并创建第一个项目

news 2026/5/17 2:00:19

一、scrapy简介

scrapy的概念
Scrapy是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架。

Scrapy 使用了Twisted异步网络框架，可以加快我们的下载速度。
- Scrapy文档地址：http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html

工作流程

传统的爬虫流程
scrapy的流程

在这里插入图片描述

描述

爬虫中起始的url构造成request对象–>爬虫中间件–>引擎–>调度器
调度器把request–>引擎–>下载中间件—>下载器
下载器发送请求，获取response响应---->下载中间件---->引擎—>爬虫中间件—>爬虫
爬虫提取url地址，组装成request对象---->爬虫中间件—>引擎—>调度器，重复步骤2
爬虫提取数据—>引擎—>管道处理和保存数据

在这里插入图片描述

二、关于中间件

爬虫中间件（Spider Middleware）

作用：爬虫中间件主要负责处理从引擎发送到爬虫的请求和从爬虫返回到引擎的响应。这些中间件在请求发送给爬虫之前或响应返回给引擎之前可以对它们进行处理。

功能：

修改请求或响应。
在请求被发送到爬虫之前进行预处理。
在响应返回给引擎之前进行后处理。
过滤或修改爬虫产生的请求和响应。

常见的爬虫中间件：

HttpErrorMiddleware：处理 HTTP 错误。
OffsiteMiddleware：过滤掉不在指定域名内的请求。
RefererMiddleware：添加请求的 Referer 头。
UserAgentMiddleware：添加请求的
User-Agent 头。
DepthMiddleware：限制爬取深度。

下载中间件（Downloader Middleware）

作用：下载中间件主要负责处理引擎发送到下载器的请求和从下载器返回到引擎的响应。这些中间件在请求发送给下载器之前或响应返回给引擎之前可以对它们进行处理。
功能：

修改请求或响应。
在请求被发送到下载器之前进行预处理。
在响应返回给引擎之前进行后处理。
对请求进行代理、设置代理认证等。

常见的下载中间件：

HttpProxyMiddleware：处理 HTTP 代理。
UserAgentMiddleware：添加请求的 User-Agent头。
RetryMiddleware：处理请求重试。
HttpCompressionMiddleware：处理 HTTP 压缩。
CookiesMiddleware：管理请求的 Cookies。

三、scrapy的三个内置对象

scrapy.Item：

作用： scrapy.Item 是一个简单的容器对象，用于封装存储爬取到的数据。每个 scrapy.Item 对象都代表了网站上的一个特定数据项。
使用：在 Scrapy 爬虫中，你可以定义一个继承自 scrapy.Item 的类，定义这个类的属性来表示要提取的字段。这样，当你从页面中提取数据时，可以将提取到的数据存储在 scrapy.Item 对象中。
示例：

import scrapyclass MyItem(scrapy.Item):title = scrapy.Field()url = scrapy.Field()

scrapy.Request：

作用： scrapy.Request 对象用于指示 Scrapy 下载某个URL，并在下载完成后返回一个 scrapy.Response 对象。
使用：在爬虫中，你可以创建 scrapy.Request 对象，指定要访问的URL、回调函数、请求方法、请求头等信息，然后通过调用这个对象，将请求添加到爬虫的调度队列中。
示例：

import scrapy
class MySpider(scrapy.Spider):name = 'myspider'def start_requests(self):urls = ['http://example.com/page1', 'http://example.com/page2']for url in urls:yield scrapy.Request(url=url, callback=self.parse)def parse(self, response):# 处理响应的逻辑pass

scrapy.Response：

作用： scrapy.Response 对象表示从服务器接收到的响应，它包含了网页的内容以及一些有关响应的元数据。
使用：在爬虫的回调函数中，你将接收到的响应作为参数，通过对 scrapy.Response 对象的操作，提取数据或者进一步跟踪其他URL。
示例：

import scrapyclass MySpider(scrapy.Spider):name = 'myspider'def start_requests(self):urls = ['http://example.com/page1']for url in urls:yield scrapy.Request(url=url, callback=self.parse)def parse(self, response):# 使用 response.xpath 或 response.css 提取数据title = response.xpath('//h1/text()').get()

这三个内置对象是构建 Scrapy 爬虫时非常重要的组件。scrapy.Item 用于封装爬取到的数据，scrapy.Request 用于定义要爬取的URL和请求参数，scrapy.Response 用于处理从服务器返回的响应。通过巧妙地使用这些对象，你可以有效地构建和组织你的爬虫逻辑。

四、scrapy的入门使用

安装

pip/pip3 install scrapy

scrapy项目开发流程

创建项目:
scrapy startproject mySpider

创建一个爬虫:
1.进入刚才的项目路径
2.执行生成命令：scrapy genspider <爬虫名字> <允许爬取的域名>
例如:scrapy genspider baidui baidu.com
3.执行后就会在myspider/spider下，生成一个baidu.py，这就是我们的爬虫文件

提取数据:
根据网站结构在spider中(即baidu.py文件)实现数据采集相关内容
保存数据:
使用pipeline进行数据后续处理和保存

定义一个管道类
重写管道类的process_item方法
process_item方法处理完item之后必须返回给引擎
在setting文件中启用管道

管道文件

import jsonclass ItcastPipeline():# 爬虫文件中提取数据的方法每yield一次item，就会运行一次# 该方法为固定名称函数def process_item(self, item, spider):print(item)return item

配置文件

#值越小越先运行
ITEM_PIPELINES = {'myspider.pipelines.ItcastPipeline': 400
}

运行爬虫项目

scrapy crawl baidu

scrapy介绍，并创建第一个项目

一、scrapy简介 scrapy的概念 Scrapy是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架。 Scrapy 使用了Twisted异步网络框架，可以加快我们的下载速度。 Scrapy文档地址：http://scrapy-chs.readthedocs.io/z…...

编程日记 2023/12/8 20:24:26

Rust语言项目实战(九 - 完结) - 胜利与失败

回顾在前面的章节中，我们已经实现了这个游戏中大部分的模块和功能，我们可以指挥我们的战机左右移动，并发射子弹；我们还创造了一堆的侵略者，从屏幕上方缓缓降落，试图到达屏幕的底部。本章中，我们将对游戏的输赢作出最后的裁决，到底是我们的保卫者英勇无敌，还是侵略…...

编程日记 2023/12/8 20:23:25

【Linux系统编程】项目自动化构建工具make/Makefile

介绍： make和Makefile是用于编译和构建C/C程序的工具和文件。Makefile是一个文本文件，其中包含了编译和构建程序所需的规则和指令。它告诉make工具如何根据源代码文件生成可执行文件，里面保存的是依赖关系和依赖方法。make是一个命令行工具&a…...

编程日记 2023/12/8 20:21:24

harmony开发之Text组件的使用

TextInput、TextArea是输入框组件，通常用于响应用户的输入操作，比如评论区的输入、聊天框的输入、表格的输入等，也可以结合其它组件构建功能页面，例如登录注册页面。图片来源黑马程序员 Text组件的使用： 文本显示组…...

编程日记 2023/12/8 20:18:21

%Table Syntax %Table(recname) Description Use the %Table construct to return the SQL table name for the record specified with recname. 使用%Table构造返回使用recname指定的记录的SQL表名。 This construct can be used to specify temporary tables for runn…...

编程日记 2023/12/8 20:15:18

如何将浮点数点左边的数每三位添加一个逗号，如 12000000.11 转化为『12,000,000.11』

// 方法二 function format1(number) {return Intl.NumberFormat().format(number); } // 方法三 function format2(number) {return number.toLocaleString("en"); }...

编程日记 2023/12/8 20:13:16

朴素贝叶斯贝叶斯方法

朴素贝叶斯贝叶斯方法背景知识贝叶斯分类：贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。先验概率：根据以往经验和分析得到的概率。我们用 P ( Y ) P(Y) P(Y)来代表在没有训练数据前假设…...

编程日记 2023/12/8 20:12:15

探索鸿蒙 TextInput组件

TextInput 根据组件名字，可以得知他是一个文本输出框。声明代码👇 TextInput({placeholder?:ResourceStr,text?:ResourceStr}); placeholder: 就是提示文本，跟网页开发中的placeholder一样的 text：输入框当前的文本内容特殊属…...

编程日记 2023/12/8 20:11:14

CNN,DNN,RNN,GAN,RL+图像处理常规算法(未完待续)

好的，让我们先介绍一些常见的神经网络模型，然后再讨论图像处理的常规算法。神经网络模型： 1. CNN（卷积神经网络） 原理： CNN主要用于处理图像数据。它包含卷积层、池化层和全连接层。卷积层通过卷积操作…...

编程日记 2023/12/8 20:10:13

C# 语法笔记

1.ref、out：参数传递的两种方式 ref：引用传递 using System; namespace CalculatorApplication {class NumberManipulator{public void swap(ref int x, ref int y){int temp;temp x; /* 保存 x 的值 */x y; /* 把 y 赋值给 x */y temp; /* 把 t…...

编程日记 2023/12/8 20:06:10

el-table 表格多选(后端接口搜索分页)实现已选中的记忆功能。实现表格数据和已选数据（前端分页）动态同步更新。

实现效果：（可拉代码下来看：vue-demo: vueDemo） 左侧表格为点击查询调用接口查询出来的数据，右侧表格为左侧表格所有选择的数据，由前端实现分页。两个el-table勾选数据联动更新实现逻辑： el-…...

编程日记 2023/12/8 20:05:09

Vue3自定义Hooks定义

在Vue3中，自定义Hooks的定义是通过创建一个函数来共享逻辑或状态，以便在多个组件之间重复使用。Vue3中的自定义Hooks与React中的自定义Hooks非常相似，但有一些细微的差别。要定义一个自定义Hook，可以按照以下步骤进行操作&#x…...

编程日记 2023/12/8 20:04:08

为什么Java程序员需要掌握多线程？揭秘并发编程的奥秘

为什么Java程序员需要掌握多线程？揭秘并发编程的奥秘个人简介前言多线程对于Java的意义📌1.提高程序性能：📌2 提高用户体验：📌3支持并发处理：📌4 资源共享和同步：&#…...

编程日记 2023/12/8 20:02:06

数组实现循环队列（新增一个空间）

目录一、前言 1.如何实现循环？ 2.如何判断队列为空？ 3.如何判断队列为满？ 二、循环队列的结构定义三、循环队列的创建及其初始化四、入队五、出队六、取队头元素七、取队尾元素八、判空九、判满十、销毁队列一、前言 …...

编程日记 2023/12/8 20:01:05

Mysql 索引概念回顾

一、什么是索引在关系数据库中，索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构，它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引的作用相当于图书的目录，可以根据…...

编程日记 2023/12/8 19:58:03

基于SpringBoot+Vue学生成绩管理系统前后端分离（源码+数据库）

一、项目简介本项目是一套基于SpringBootVue学生成绩管理系统，主要针对计算机相关专业的正在做bishe的学生和需要项目实战练习的Java学习者。包含：项目源码、数据库脚本等，该项目可以直接作为bishe使用。项目都经过严格调试，确…...

编程日记 2023/12/8 19:55:00

Hadoop集群破坏试验可靠性验证

集群环境说明： 准备5台服务器，hadoop1、hadoop2、hadoop3、hadoop4、hadoop5； 分别部署5个节点的zookeeper集群、hadoop集群、hbase集群本次对于Hadoop集群测试主要分为五个方面： 手动进行datanode节点删除：&#…...

编程日记 2023/12/8 19:53:59

Notepad++ 安装TextFx插件失败

据说TextFx插件是Notepad常用插件之一；有很多格式化代码的功能；下面安装一下； 插件管理里面看一下，没有这个TextFx； 根据资料，先安装NppExec； 然后下一个5.9老版本的Notepad，如下图…...

编程日记 2023/12/8 19:52:58

探究Logistic回归：用数学解释分类问题

文章目录前言回归和分类Logistic回归线性回归Sigmoid函数把回归变成分类Logistic回归算法的数学推导Sigmoid函数与其他激活函数的比较 Logistic回归实例1. 数据预处理2. 模型定义3. 训练模型4. 结果可视化结语前言当谈论当论及机器学习中的回归和分类问题时，很…...

编程日记 2023/12/8 19:51:57

杨辉三角

打印n行杨辉三角，n<10。输入格式: 直接输入一个小于10的正整数n。输出格式: 输出n行杨辉三角，每个数据输出占4列。输入样例: 5输出样例: 11 11 2 11 3 3 11 4 6 4 1代码长度限制 16 KB 时间限制 400 ms 内存限制 6…...

编程日记 2023/12/8 19:50:55

OpenClaw 快速接入 MiniMax 图文指南

OpenClaw连接MiniMax图文教程前置准备已安装并可以正常打开 OpenClaw Windows。 OpenClaw 顶部 Gateway 状态保持在线。电脑可以正常联网并访问 MiniMax 开放平台。建议提前准备好 MiniMax 开放平台账号。如果账户余额为 0.00，需要先充值后再调用接口。 …...

编程新知 2026/5/17 1:20:16

Verilog时钟分频实战：从偶数、奇数到小数分频的设计与实现

1. 项目概述：从零开始掌握Verilog时钟分频在数字电路和FPGA设计中，时钟信号是驱动整个系统同步运行的“心跳”。然而，一个系统往往需要多种不同频率的时钟来驱动不同的模块，比如高速的处理器核心和低速的外设接口。直接使用多个外…...

编程新知 2026/5/17 1:11:14

Node.js性能预测工具nodestradamus：从监控到预警的实践指南

1. 项目概述与核心价值最近在折腾一些服务器监控和性能预测的活儿，偶然间在GitHub上发现了一个叫nodestradamus的项目，作者是ChristosGrigoras。这个名字挺有意思，结合了“Node.js”和“诺查丹玛斯”（那位著名的预言家&#xff09…...

编程新知 2026/5/17 0:54:21

企业信息采集神器：10分钟掌握天眼查企查查双平台爬虫

企业信息采集神器：10分钟掌握天眼查&企查查双平台爬虫【免费下载链接】company-crawler 天眼查爬虫&企查查爬虫，指定关键字爬取公司信息项目地址: https://gitcode.com/gh_mirrors/co/company-crawler 还在为获取企业信息而烦恼吗&…...

编程新知 2026/5/17 0:50:12

【197期】视频一键转图文笔记

这期分享一个自己一直在用的视频转图文笔记工具，把视频文件和对应的字幕文件拖进去，一键就能生成详细的图文笔记。目前自媒体平台上的文章基本都靠这个流程来出，不用另外再写一遍，效率高了很多。使用方式很简单，把视频…...

编程新知 2026/5/16 23:53:23

终极指南：5步彻底解决Gopeed下载管理器403 Forbidden错误

终极指南：5步彻底解决Gopeed下载管理器403 Forbidden错误【免费下载链接】gopeed A fast, modern download manager for HTTP, BitTorrent, Magnet, and ed2k. Cross-platform, built with Golang and Flutter. 项目地址: https://gitcode.com/GitHub_Trending/…...

编程新知 2026/5/16 23:15:48

Raspberry Pi Imager终极指南：快速上手树莓派系统安装

Raspberry Pi Imager终极指南：快速上手树莓派系统安装【免费下载链接】rpi-imager The home of Raspberry Pi Imager, a user-friendly tool for creating bootable media for Raspberry Pi devices. 项目地址: https://gitcode.com/gh_mirrors/rp/rpi-imager …...

编程新知 2026/5/16 22:32:45

2026届最火的降AI率神器解析与推荐

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 人工智能生成内容逐渐普及起来，信息质量以及真实性面临到严峻挑战。各类平台加之…...

编程新知 2026/5/16 22:24:29

ssh 使用问题汇总

本文深入探讨SSH连接失败、密钥管理、权限设置等常见难题，并提供详细的解决方案。通过本文，您将能够轻松应对SSH使用过程中遇到的各类问题，提升SSH操作效率，保障远程连接的安全性。 1. Connection reset by peer 现象 ssh到ser…...

编程新知 2026/5/16 22:00:25

Word里MathType插件报错？别慌，手把手教你搞定MathPage.wll文件丢失问题

Word里MathType插件报错？三步精准定位MathPage.wll文件问题当你正全神贯注地在Word中编辑数学公式，突然弹出一个刺眼的错误提示："无法找到MathPage.wll文件"——这种突如其来的技术故障足以打断任何人的工作节奏。作为科研工作者、…...

编程新知 2026/5/16 21:34:58

scrapy介绍，并创建第一个项目

一、scrapy简介

二、关于中间件

三、scrapy的三个内置对象

四、scrapy的入门使用

相关文章：

scrapy介绍，并创建第一个项目

Rust语言项目实战(九 - 完结) - 胜利与失败

【Linux系统编程】项目自动化构建工具make/Makefile

harmony开发之Text组件的使用

using meta-SQL 使用元SQL 六

如何将浮点数点左边的数每三位添加一个逗号，如 12000000.11 转化为『12,000,000.11』

朴素贝叶斯贝叶斯方法

探索鸿蒙 TextInput组件

CNN,DNN,RNN,GAN,RL+图像处理常规算法(未完待续)

C# 语法笔记

el-table 表格多选(后端接口搜索分页)实现已选中的记忆功能。实现表格数据和已选数据（前端分页）动态同步更新。

Vue3自定义Hooks定义

为什么Java程序员需要掌握多线程？揭秘并发编程的奥秘

数组实现循环队列（新增一个空间）

Mysql 索引概念回顾

基于SpringBoot+Vue学生成绩管理系统前后端分离（源码+数据库）

Hadoop集群破坏试验可靠性验证

Notepad++ 安装TextFx插件失败

探究Logistic回归：用数学解释分类问题

杨辉三角

OpenClaw 快速接入 MiniMax 图文指南

Verilog时钟分频实战：从偶数、奇数到小数分频的设计与实现

Node.js性能预测工具nodestradamus：从监控到预警的实践指南

企业信息采集神器：10分钟掌握天眼查企查查双平台爬虫

【197期】视频一键转图文笔记

终极指南：5步彻底解决Gopeed下载管理器403 Forbidden错误

Raspberry Pi Imager终极指南：快速上手树莓派系统安装

2026届最火的降AI率神器解析与推荐

ssh 使用问题汇总

Word里MathType插件报错？别慌，手把手教你搞定MathPage.wll文件丢失问题