当前位置：首页 > news >正文

初步搭建并使用Scrapy框架

news 2025/11/6 18:19:29

目标

版本

实战

搭建框架

获取图片链接、书名、价格

通过管道下载数据

通过多条管道下载数据

下载多页数据

目标

掌握Scrapy框架的搭建及使用，本文以爬取当当网魔幻小说为案例做演示。

版本

Scrapy 2.12.0

实战

搭建框架

第一步：在D:\pytharm_workspace位置创建爬虫Scrapy项目。通过cmd在该目录执行Scrapy创建项目命令。dangdang是我的项目名称。

scrapy startproject dangdang

第二步：进入项目目录，并创建爬虫类。其中magic_novels是我自定义的爬虫程序名称，permit.mee.gov.cn表示要爬取的网站域名。

第三步：注释在settings文件中掉OBOTSTXT_OBEY协议。

#ROBOTSTXT_OBEY = True

第四步：打开Pycharm控制台，进入项目目录。设置start_urls为我们要爬取的首页。parse表示项目启动后会自动请求start_urls中的URL。所以我们在parse方法中调试输出，并运行项目。

import scrapyclass MagicNovelsSpider(scrapy.Spider):name = "magic_novels"allowed_domains = ["category.dangdang.com"]start_urls = ["https://category.dangdang.com/cp01.03.40.00.00.00.html"]def parse(self, response):print(response.url)print(response.text)

 scrapy crawl magic_novels

第五步：此时会打印很多的无用信息，我们可以在settings.py文件中设置日志级别。再次启动项目后会发现页面干净了很多。

LOG_LEVEL = "WARNING"

scrapy crawl magic_novels
注意：如果多次请求导致可能会导致缓存出现，请使用以下命令：
scrapy crawl magic_novels --set HTTPCACHE_ENABLED=False

获取图片链接、书名、价格

第一步：通过xpath爬取价格、图片、书名，我们先来打印调试。此时发现图片的链接不对，思考是否是懒加载的一个反扒策略。

    def parse(self, response):'''图片的链接：src=//ul[@id='component_59']/li//img/@src图片的名称：alt=//ul[@id='component_59']/li//img/@alt图书的价格：price=//ul[@id='component_59']/li//p[@class='price']/span考虑到所有的数据都来源于//ul[@id='component_59']/li，所以我们可以复用li对象。'''li_list = response.xpath("//ul[@id='component_59']/li")for li in li_list:print(f'图片的链接：src={li.xpath(".//img/@src").extract_first()}')print(f'图片的名称：alt={li.xpath(".//img/@alt").extract_first()}')print(f'图书的价格：price={li.xpath(".//p[@class='price']/span[1]/text()").extract_first()}')print("\n")

第二步：刷新页面，在浏览器检查中查看第一个和最后一个，发现图片链接的初始接收属性并不是src，而是data-original，src是加载以后才代替data-original的。

第三步：修改src获取的方法，并再次运行项目。发现除了第一个图书的src为None，其他src都正常获取了。猜测：是不是第一个图书打开时没有使用懒加载。

第四步：通过调试发现，确实如刚才的猜想一般，第一个图书的src没有使用懒加载。修改代码后再次调试，发现可以获取到第一个图书的链接。

    def parse(self, response):'''图片的链接：src=//ul[@id='component_59']/li//img/@src图片的名称：alt=//ul[@id='component_59']/li//img/@alt图书的价格：price=//ul[@id='component_59']/li//p[@class='price']/span考虑到所有的数据都来源于//ul[@id='component_59']/li，所以我们可以复用li对象。'''li_list = response.xpath("//ul[@id='component_59']/li")for i , li in enumerate(li_list):print(f'第{i+1}本书。')src = li.xpath(".//img/@data-original").get()if src is None:src = li.xpath(".//img/@src").get()alt = li.xpath(".//img/@alt").get()price = li.xpath(".//p[@class='price']/span[1]/text()").get()print(f'图片的链接：src={src}')print(f'图片的名称：alt={alt}')print(f'图书的价格：price={price}')print("\n")

通过管道下载数据

第一步：打开items.py文件，配置字段。

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.htmlimport scrapyclass DangdangItem(scrapy.Item):# 图片src = scrapy.Field()# 书名name = scrapy.Field()# 价格price = scrapy.Field()

第二步：将item类导入到爬虫程序。

import scrapyfrom dangdang.items import DangdangItemclass MagicNovelsSpider(scrapy.Spider):name = "magic_novels"allowed_domains = ["category.dangdang.com"]start_urls = ["https://category.dangdang.com/cp01.03.40.00.00.00.html"]def parse(self, response):'''图片的链接：src=//ul[@id='component_59']/li//img/@src图书的名称：alt=//ul[@id='component_59']/li//img/@alt图书的价格：price=//ul[@id='component_59']/li//p[@class='price']/span考虑到所有的数据都来源于//ul[@id='component_59']/li，所以我们可以复用li对象。'''li_list = response.xpath("//ul[@id='component_59']/li")for i , li in enumerate(li_list):print(f'第{i+1}本书。')src = li.xpath(".//img/@data-original").get()if src is None:src = li.xpath(".//img/@src").get()alt = li.xpath(".//img/@alt").get()price = li.xpath(".//p[@class='price']/span[1]/text()").get()print(f'图片的链接：src={src}')print(f'图书的名称：alt={alt}')print(f'图书的价格：price={price}')print("\n")#该对象要通过管道去下载，通过yield可以在每次获得book后立刻返回book给管道。book=DangdangItem(src=src, alt=alt, price=price);yield book

第三步：在settings.py中开启管道配置。管道可以有很多个并且有优先级，值越大优先级越小。

ITEM_PIPELINES = {"dangdang.pipelines.DangdangPipeline": 300,
}

第四步：来到pipelines.py文件，其中process_item方法中的item就是我们刚才在爬虫程序配置的boot对象。我们可以打印测试效果。

class DangdangPipeline:def process_item(self, item, spider):print(type(item))print(str(item))return item

scrapy crawl magic_novels

思考：我们通过process_item可以获取到数据，但是每次循环获取数据再重新打开文件、写入数据，关闭文件明显不符合开发规范。

第五步：在pipelines.py文件中配置open_spider和close_spider方法，分别表示在爬虫程序执行前执行的方法和在爬虫程序执行之后执行的方法。我们可以打印日志测试。

class DangdangPipeline:#在爬虫文件开始之前就执行的方法def open_spider(self, spider):print("++++")def process_item(self, item, spider):print(type(item))print(str(item))return item#在爬虫文件执行之后再执行的方法def close_spider(self, spider):print("----")

scrapy crawl magic_novels

第六步：下载JSON数据。

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html
import json# useful for handling different item types with a single interface
from itemadapter import ItemAdapterclass DangdangPipeline:#在爬虫文件开始之前就执行的方法def open_spider(self, spider):self.fp=open("book.json","w",encoding="utf-8")self.fp.write("[")def process_item(self, item, spider):line = json.dumps(dict(item), ensure_ascii=False) + ",\n"self.fp.write(line)return item#在爬虫文件执行之后再执行的方法def close_spider(self, spider):# 删除最后一个多余的逗号，并关闭 JSON 数组self.fp.seek(self.fp.tell() - 3, 0)  self.fp.write("\n]")self.fp.close()

scrapy crawl magic_novels

通过多条管道下载数据

第一步：在pipelines.py文件中定义新的管道类。

#下载图片
class DangdangDownloadImgPipeline:# 在爬虫文件开始之前就执行的方法def open_spider(self, spider):passdef process_item(self, item, spider):print(item.get('src'))url="http:"+item.get('src')filename='C:/Users/Administrator/Desktop/test/'+sanitize_filename(item.get("alt"))+'.jpg'urllib.request.urlretrieve(url=url,filename=filename)return item# 在爬虫文件执行之后再执行的方法def close_spider(self, spider):passdef sanitize_filename(filename):"""替换 Windows 文件名中不合法的字符为下划线。"""# 定义 Windows 文件名不允许的字符invalid_chars = r'[\\/:*?"<>|]'# 使用正则表达式将非法字符替换为下划线return re.sub(invalid_chars, '_', filename)

第二步：在settings.py中定义该管道类的优先级。

ITEM_PIPELINES = {"dangdang.pipelines.DangdangPipeline": 300,"dangdang.pipelines.DangdangDownloadImgPipeline": 300,
}

第三步：执行下载操作，可以看到JSON数据和图片都下载成功了。

scrapy crawl magic_novels

下载多页数据

思考：目前我们只是下载了第一页的数据，能否通过配置页码下载多个页面的数据呢？

第一步：去页面点击下一页，发现链接都差不多，区别在于pg后面的跟的页码。

https://category.dangdang.com/pg2-cp01.03.40.00.00.00.html
https://category.dangdang.com/pg3-cp01.03.40.00.00.00.html

第二步：在爬虫程序中，设置基础的url和页码，页码初始化为第一页。

class MagicNovelsSpider(scrapy.Spider):name = "magic_novels"allowed_domains = ["category.dangdang.com"]start_urls = ["https://category.dangdang.com/cp01.03.40.00.00.00.html"]base_url="https://category.dangdang.com/pg"page_num=1;

第三步：在parse方法中递归请求当当网，每次请求都将url的页码改变。注意：递归逻辑写在循环之外。

import scrapyfrom dangdang.items import DangdangItemclass MagicNovelsSpider(scrapy.Spider):name = "magic_novels"allowed_domains = ["category.dangdang.com"]start_urls = ["https://category.dangdang.com/cp01.03.40.00.00.00.html"]base_url="https://category.dangdang.com/pg"page_num=1;def parse(self, response):'''图片的链接：src=//ul[@id='component_59']/li//img/@src图书的名称：alt=//ul[@id='component_59']/li//img/@alt图书的价格：price=//ul[@id='component_59']/li//p[@class='price']/span考虑到所有的数据都来源于//ul[@id='component_59']/li，所以我们可以复用li对象。'''li_list = response.xpath("//ul[@id='component_59']/li")for i , li in enumerate(li_list):print(f'第{i+1}本书。')src = li.xpath(".//img/@data-original").get()if src is None:src = li.xpath(".//img/@src").get()alt = li.xpath(".//img/@alt").get()price = li.xpath(".//p[@class='price']/span[1]/text()").get()print(f'图片的链接：src={src}')print(f'图书的名称：alt={alt}')print(f'图书的价格：price={price}')print("\n")#该对象要通过管道去下载，通过yield可以在每次获得book后立刻返回book给管道。book=DangdangItem(src=src, alt=alt, price=price);yield bookif self.page_num<3:self.page_num+=1url=self.base_url+str(self.page_num)+"-cp01.03.40.00.00.00.html";#GET请求yield scrapy.Request(url=url, callback=self.parse)

第四步：运行项目。发现可以正常下载前三页的数据。

初步搭建并使用Scrapy框架

目录目标版本实战搭建框架获取图片链接、书名、价格通过管道下载数据通过多条管道下载数据下载多页数据目标掌握Scrapy框架的搭建及使用，本文以爬取当当网魔幻小说为案例做演示。版本 Scrapy 2.12.0 实战搭建框架第一步：在D:\pyt…...

编程日记 2025/1/27 0:15:00

基于SpringBoot的软件产品展示销售系统

作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：…...

编程日记 2025/1/27 0:12:59

pycharm 运行远程环境问题 Error:Failed to prepare environment.

问题排查拿到更详细的报错信息： Help > Diagnostic Tools > Debug Log Settings section: 添加下面的配置 com.intellij.execution.configurations.GeneralCommandLine 重显报错，我这里是再次运行代码打开 Help | Collect Logs and Diagnosti…...

编程日记 2025/1/27 0:08:53

Redis vs. 其他数据库：深度解析，如何选择最适合的数据库？

一、如何为项目选择合适的数据库？ 选择合适的数据库是一个复杂的过程，需要综合考虑多个因素。下面几个维度来详细阐述： 1.数据模型关系型数据库（RDBMS）：适用于高度结构化、关联性强的数据，如电…...

编程日记 2025/1/27 0:07:51

HTB：Support[WriteUP]

目录连接至HTB服务器并启动靶机信息收集使用rustscan对靶机TCP端口进行开放扫描将靶机TCP开放端口号提取并保存使用nmap对靶机TCP开放端口进行脚本、服务扫描使用nmap对靶机TCP开放端口进行漏洞、系统扫描使用nmap对靶机常用UDP端口进行开放扫描使用ldapsearch…...

编程日记 2025/1/27 0:05:49

导出地图为pdf文件

有时我们只是想创建能共享的pdf文件,而不是将地图打印出来,arcpy的ExportToPDF()函数可以实现该功能. 操作方法: 1.在arcmap中打开目标地图 2.导入arcpy.mapping模块 import arcpy.mapping as mapping 3.引用当前活动地图文档,把该引用赋值给变量 mxd mapping.MapDocumen…...

编程日记 2025/1/27 0:03:46

Linux中关于glibc包编译升级导致服务器死机或者linux命令无法使用的情况

服务器上编译glibc2.29版本导致命令不能用 Inconsistency detected by ld.so: dl-call-libc-early-init.c: 37: _dl_call_libc_early_init: Assertion sym ! NULL failed!下面是造成不可用的原因 1.编译完gcc 2.29版本后，开始做映射，以达到能使用最新版…...

编程日记 2025/1/26 23:59:38

Golang Gin系列-8：单元测试与调试技术

在本章中，我们将探讨如何为Gin应用程序编写单元测试，使用有效的调试技术，以及优化性能。这包括设置测试环境、为处理程序和中间件编写测试、使用日志记录、使用调试工具以及分析应用程序以提高性能。为Gin应用程序编写单元测试设置测试环境…...

编程日记 2025/1/26 23:58:35

linux如何修改密码,要在CentOS 7系统中修改密码

要在CentOS 7系统中修改密码，你可以按照以下步骤操作： 步骤 1: 登录到系统在登录提示符 localhost login: 后输入你的用户名。输入密码并按回车键。步骤 2: 修改密码登录后，使用 passwd 命令来修改密码： passwd 系统会提…...

编程日记 2025/1/26 23:56:31

#保存日志 nohup ./kafka-server-start.sh ../config/server.properties > /path/to/logfile.log 2>&1 &#不保存日志 nohup ./kafka-server-start.sh ../config/server.properties >/dev/null 2>&1 & nohup: 是一个Unix/Linux命令，用于…...

编程日记 2025/1/26 23:53:28

使用Cline+deepseek实现VsCode自动化编程

不知道大家有没有听说过cursor这个工具，类似于AIVsCode的结合体，只要绑定chatgpt、claude等大模型API，就可以实现对话式自助编程，简单闲聊几句便可开发一个软件应用。但cursor受限于外网，国内用户玩不了，…...

编程日记 2025/1/26 23:48:22

【redis初阶】redis客户端

目录一、基本介绍二、认识RESP（redis自定的应用层协议名称） 三、访问github的技巧四、安装redisplusplus 4.1 安装 hiredis** 4.2 下载 redis-plus-plus 源码 4.3 编译/安装 redis-plus-plus 五、编写运行helloworld 六、redis命令演示 6.1 通用命令的…...

编程日记 2025/1/26 23:36:07

【ComfyUI专栏】ComfyUI 部署Kolors

什么是Kolors？我相信一定会有朋友可能第一次听说这个生图的模型，开始我也很难想象，这竟然是快手推出的可灵AI的项目，我们可以直接利用模型来生成图片和视频。大家可以通过直接访问可灵AI的网址获取到可灵的项目，但是对于我们来说我们需要基于ComfyUI来生成必要的图片和视…...

编程日记 2025/1/26 23:35:06

深入了解 HTTP 头部中的 Accept-Encoding：gzip、deflate、br、zstd

在现代Web开发中，性能优化是至关重要的一部分。HTTP协议中的Accept-Encoding头部正是为性能提升提供了一个非常有效的方式，它告知服务器客户端能够理解并接收哪些压缩算法的响应内容。在这篇博客中，我们将详细探讨Accept-Encoding头部的作用&…...

编程日记 2025/1/26 23:31:57

【含代码】逆向获取 webpack chunk 下的__webpack_require__ 函数，获悉所有的模块以及模块下的函数

背景 Webpack 打包后的代码是不会直接暴露 __webpack_require__ 函数，目的是为了避免污染全局变量同时也为了保护 webpack 的打包后的模块都隐藏在闭包函数里，达到数据的安全性。而有时我们为了测试某个函数，想直接获取这个内置函数&#…...

编程日记 2025/1/26 23:30:52

2025牛客寒假算法基础集训营2

H 一起画很大的圆！ 看起来像是一道计算几何的题，实际上通过分析和猜想，是有O1复杂度的结论的。具体证明略，结论是三点越接近共线，得出的半径越大。 #include <bits/stdc.h> using namespace std; #define endl \…...

编程日记 2025/1/26 23:29:48

落地 ORB角点检测与sift检测

ORB角点检测可以说ORB是由FAST、灰度质心和BRIEF等技术组合优化形成的，不过更准确地说，ORB是在FAST特征检测算法基础上，结合了灰度质心确定方向以及改进后的BRIEF描述子等技术形成的，以下是具体分析： • FAST特征检…...

编程日记 2025/1/26 23:26:44

16 分布式session和无状态的会话

在我们传统的应用中session存储在服务端，减少服务端的查询压力。如果以集群的方式部署，用户登录的session存储在该次登录的服务器节点上，如果下次访问服务端的请求落到其他节点上就需要重新生成session，这样用户需要频繁的登录。 …...

编程日记 2025/1/26 23:23:42

SpringBoot整合Swagger UI 用于提供接口可视化界面

目录一、引入相关依赖二、添加配置文件三、测试四、Swagger 相关注解一、引入相关依赖图像化依赖 Swagger UI 用于提供可视化界面： <dependency><groupId>io.springfox</groupId><artifactId>springfox-swagger-ui</artifactI…...

编程日记 2025/1/26 23:22:39

如何实现滑动开关功能

文章目录 1 概念介绍2 使用方法3 示例代码我们在上一章回中介绍了PageView这个Widget,本章回中将介绍Switch Widget.闲话休提，让我们一起Talk Flutter吧。 1 概念介绍我们在这里介绍的Switch是指左右滑动的开关，常用来表示某项设置是打开还是关闭。Fl…...

编程日记 2025/1/26 23:21:34

C++实现分布式网络通信框架RPC(3)--rpc调用端

目录一、前言二、UserServiceRpc_Stub 三、 CallMethod方法的重写头文件实现四、rpc调用端的调用实现五、 google::protobuf::RpcController *controller 头文件实现六、总结一、前言在前边的文章中，我们已经大致实现了rpc服务端的各项功能代…...

编程新知 2025/10/29 11:04:36

CVPR 2025 MIMO: 支持视觉指代和像素grounding 的医学视觉语言模型

CVPR 2025 | MIMO：支持视觉指代和像素对齐的医学视觉语言模型论文信息标题：MIMO: A medical vision language model with visual referring multimodal input and pixel grounding multimodal output作者：Yanyuan Chen, Dexuan Xu, Yu Hu…...

编程新知 2025/10/6 14:17:21

【Oracle APEX开发小技巧12】

有如下需求： 有一个问题反馈页面，要实现在apex页面展示能直观看到反馈时间超过7天未处理的数据，方便管理员及时处理反馈。我的方法：直接将逻辑写在SQL中，这样可以直接在页面展示完整代码： SELECTSF.FE…...

编程新知 2025/11/2 21:23:47

可靠性+灵活性：电力载波技术在楼宇自控中的核心价值

可靠性灵活性：电力载波技术在楼宇自控中的核心价值在智能楼宇的自动化控制中，电力载波技术（PLC）凭借其独特的优势，正成为构建高效、稳定、灵活系统的核心解决方案。它利用现有电力线路传输数据，无需额外布…...

编程新知 2025/9/27 2:43:26

条件运算符

C中的三目运算符（也称条件运算符，英文：ternary operator）是一种简洁的条件选择语句，语法如下： 条件表达式 ? 表达式1 : 表达式2• 如果“条件表达式”为true，则整个表达式的结果为“表达式1”…...

编程新知 2025/9/19 12:51:08

屋顶变身“发电站” ，中天合创屋面分布式光伏发电项目顺利并网！

5月28日，中天合创屋面分布式光伏发电项目顺利并网发电，该项目位于内蒙古自治区鄂尔多斯市乌审旗，项目利用中天合创聚乙烯、聚丙烯仓库屋面作为场地建设光伏电站，总装机容量为9.96MWp。项目投运后，每年可节约标煤3670…...

编程新知 2025/10/30 21:12:38

MODBUS TCP转CANopen 技术赋能高效协同作业

在现代工业自动化领域，MODBUS TCP和CANopen两种通讯协议因其稳定性和高效性被广泛应用于各种设备和系统中。而随着科技的不断进步，这两种通讯协议也正在被逐步融合，形成了一种新型的通讯方式——开疆智能MODBUS TCP转CANopen网关KJ-TCPC-CANP…...

编程新知 2025/10/31 17:03:04

c#开发AI模型对话

AI模型前面已经介绍了一般AI模型本地部署，直接调用现成的模型数据。这里主要讲述讲接口集成到我们自己的程序中使用方式。微软提供了ML.NET来开发和使用AI模型，但是目前国内可能使用不多，至少实践例子很少看见。开发训练模型就不介绍了&am…...

编程新知 2025/10/30 5:08:13

C++.OpenGL （14/64）多光源（Multiple Lights）

多光源（Multiple Lights）多光源渲染技术概览 #mermaid-svg-3L5e5gGn76TNh7Lq {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-3L5e5gGn76TNh7Lq .error-icon{fill:#552222;}#mermaid-svg-3L5e5gGn76TNh7Lq .erro…...

编程新知 2025/6/11 3:15:20

CRMEB 中 PHP 短信扩展开发：涵盖一号通、阿里云、腾讯云、创蓝

目前已有一号通短信、阿里云短信、腾讯云短信扩展扩展入口文件文件目录 crmeb\services\sms\Sms.php 默认驱动类型为：一号通 namespace crmeb\services\sms;use crmeb\basic\BaseManager; use crmeb\services\AccessTokenServeService; use crmeb\services\sms\…...

编程新知 2025/10/5 5:38:24

初步搭建并使用Scrapy框架

目标

版本

实战

搭建框架

获取图片链接、书名、价格

通过管道下载数据

通过多条管道下载数据

下载多页数据

相关文章：

初步搭建并使用Scrapy框架

基于SpringBoot的软件产品展示销售系统

pycharm 运行远程环境问题 Error:Failed to prepare environment.

Redis vs. 其他数据库：深度解析，如何选择最适合的数据库？

HTB：Support[WriteUP]

导出地图为pdf文件

Linux中关于glibc包编译升级导致服务器死机或者linux命令无法使用的情况

Golang Gin系列-8：单元测试与调试技术

linux如何修改密码,要在CentOS 7系统中修改密码

Kafka后台启动命令

使用Cline+deepseek实现VsCode自动化编程

【redis初阶】redis客户端

【ComfyUI专栏】ComfyUI 部署Kolors

深入了解 HTTP 头部中的 Accept-Encoding：gzip、deflate、br、zstd

【含代码】逆向获取 webpack chunk 下的__webpack_require__ 函数，获悉所有的模块以及模块下的函数

2025牛客寒假算法基础集训营2

落地 ORB角点检测与sift检测

16 分布式session和无状态的会话

SpringBoot整合Swagger UI 用于提供接口可视化界面

如何实现滑动开关功能

C++实现分布式网络通信框架RPC(3)--rpc调用端

CVPR 2025 MIMO: 支持视觉指代和像素grounding 的医学视觉语言模型

【Oracle APEX开发小技巧12】

可靠性+灵活性：电力载波技术在楼宇自控中的核心价值

条件运算符

屋顶变身“发电站” ，中天合创屋面分布式光伏发电项目顺利并网！

MODBUS TCP转CANopen 技术赋能高效协同作业

c#开发AI模型对话

C++.OpenGL （14/64）多光源（Multiple Lights）

CRMEB 中 PHP 短信扩展开发：涵盖一号通、阿里云、腾讯云、创蓝