当前位置：首页 > news >正文

爬虫 scrapy ——scrapy shell调试及下载当当网数据（十一）

news 2026/5/14 7:26:45

一、scrapy shell

1.什么是scrapy shell？

2.安装 ipython

3.使用scrapy shell

二、当当网案例

1.在items.py中定义数据结构

2.在dang.py中解析数据

3.使用pipeline保存

4.多条管道的使用

5.多页下载

参考

一、scrapy shell

1.什么是scrapy shell？

什么是scrapy shell？

scrapy终端，是一个交互终端，供您在未启动spider的情况下尝试及调试您的爬取代码。其本意是用来测试提取数据的代码，不过您可以将其作为正常的python终端，在上面测任何的python代码。该终端是用来测试Xpath或css表达式，查看他们的工作方式及从爬取的网页中提取的数据。在编写您的spider时，一旦熟悉了scrapy终端后，您会发现其在开发和调试spider时发挥的最大作用。

2.安装 ipython

安装ipython

pip install ipython

安装ipython后，scrapy终端将使用ipython代替python终端，ipython终端与其他相比更为强大，提供智能的自动补全，高亮输出及其他特性。

3.使用scrapy shell

在终端输入以下命令

scrapy shell 域名

eg：scrapy shell www.baidu.com

输出：进入到ipython

以上命令返回了一个response，可以直接使用

如下所示：可以调试返回的结果

二、当当网案例

目标：爬取当当网目标图书类目的所有图片、书名和价格，实现三者并行下载。

1.在items.py中定义数据结构

定义要获取的图片、书名和价格

class Scrapy095Item(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()# 通俗地讲就是你下载的数据都有什么# 爬取图片img = scrapy.Field()# 爬取书名name = scrapy.Field()# 爬取价格price = scrapy.Field()pass

2.在dang.py中解析数据

同时下载书名、图片和价格，找到三者共在的标签 ‘ul’

定位Xpath路径，我们之前是这样写的，获取了每个内容的列表，但是我们想要的是书名、图片和价格相对应的结果。

# 找到三者共同所在的标签
img = response.xpath('//ul[@id="component_59"]/li//img/@src')
name = response.xpath('//ul[@id="component_59"]/li//img/@alt')
response.xpath('//ul[@id="component_59"]/li//p[@class="price"]/span[1]/text()')

所以我们现在这样写：

调用selector下的Xpath，可以同时获取一个 li 中的三个内容。

# 所有selector对象可以在此调用 Xpath方法
li_list = response.xpath('//ul[@id="component_59"]/li')
for li in li_list:img = li.xpath('.//img/@src').extract_first()name = li.xpath('.//img/@alt').extract_first()price = li.xpath('.//p[@class="price"]/span[1]/text()').extract_first()print(img,name,price)

这样就获取到了。

但是发现，图片全都为 “none”，这是因为网页的懒加载造成的，避免网页一下子加载太多数据。

所以我们要找到真正的图片链接，即 ‘data-original’，而不是‘src’。

然后我们修改路径，得到下面结果。

又发现了问题，我们并没有拿到第一个数据的链接，因为第一个数据没有‘data-original’属性。

修改为以下代码

 # 所有selector对象可以在此调用 Xpath方法
li_list = response.xpath('//ul[@id="component_59"]/li')
for li in li_list:# 第一章图片的链接在 src 里# 其余图片的链接在 data-original 里img = li.xpath('.//img/@data-original').extract_first()if img:img = imgelse:img = li.xpath('.//img/@src').extract_first()name = li.xpath('.//img/@alt').extract_first()price = li.xpath('.//p[@class="price"]/span[1]/text()').extract_first()print(img,name,price)

这样我们就获取到了所有数据

3.使用pipeline保存

将数据交给 pipeline，添加最后两行代码。

调用 items.py 中的 Scrapy095Item 类。其中img=，name=和price=为 items.py中定义的变量。

# 所有selector对象可以在此调用 Xpath方法
li_list = response.xpath('//ul[@id="component_59"]/li')
for li in li_list:# 第一章图片的链接在 src 里# 其余图片的链接在 data-original 里img = li.xpath('.//img/@data-original').extract_first()if img:img = imgelse:img = li.xpath('.//img/@src').extract_first()name = li.xpath('.//img/@alt').extract_first()price = li.xpath('.//p[@class="price"]/span[1]/text()').extract_first()print(img,name,price)book = Scrapy095Item(img=img,name=name,price=price)# 将 book 交给 pipeline 下载yield book

什么是yield？

        带有yield的函数可以视作一个生成器generator，可用于迭代。yield是一个类似于return的关键字，迭代一个遇到yield时就返回yield后面的值。重点是：下一次迭代时，从上一次迭代遇到的yield后面的代码开始执行。

        也就是说，yield会不断把book传递给pipeline。

如果要使用管道的话，就要在 settings.py 中开启管道，解开注释。

在 pipelines.py 中保存数据

# 如果要使用管道的话，就要在 settings.py 中开启管道
class Scrapy095Pipeline:# item 就是 yield 的返回值def process_item(self, item, spider):# 保存数据with open('book.json','a', encoding='utf-8') as file:# 存在的问题# item 是一个对象，需要将其转换为 str# 写文件的方式要改为 ‘a’ 追加模式，而不是 ‘w’覆盖模式。file.write(str(item))return item

需要注意的是：

item 是一个对象，需要将其转换为 str

写文件的方式要改为 ‘a’ 追加模式，而不是 ‘w’覆盖模式。

这样就把内容保存下载来了

但是这样写文件的缺点是，写数据时需要频繁的打开关闭文件，对文件的操作过于频繁。

所以我们只要打开并关闭一次文件

定义两个函数 open_spider 和 close_spider ，这两个函数是 scrapy的内置函数，可以操作文件只打开或者关闭一次。

# 如果要使用管道的话，就要在 settings.py 中开启管道
class Scrapy095Pipeline:# 在爬虫文件开始之前就执行的一个文件def open_spider(self, spider):print('++++++++++++++++++++++++++')self.fp = open('book.json','w',encoding='utf-8')# item 就是 yield 的返回值def process_item(self, item, spider):# 我们不这样保存# # 保存数据# with open('book.json','a', encoding='utf-8') as file:#     # 存在的问题#     # item 是一个对象，需要将其转换为 str#     # 写文件的方式要改为 ‘a’ 追加模式，而不是 ‘w’覆盖模式。#     file.write(str(item))self.fp.write(str(item))return item# 在爬虫文件执行完之后再执行的方法def close_spider(self, spider):print('----------------------')self.fp.close()

4.多条管道的使用

在 pipelines.py 中添加一个类，模仿上一个类写，用来下载图片，注意，这个类中定义的方法要与上一个类相同，然后我们在这个类中写下载图片的代码，最后返回 item

import urllib.request
# 多条管道开启
# (1)定义管道类
# (2)在settings中开启管道
class Scrapy095_download_Pipeline:def process_item(self, item, spider):url = 'http:' + item.get('img')filename = './books/' + item.get('name') + '.jpg'urllib.request.urlretrieve(url=url, filename=filename)return item

重要的是，我们要为下图片创建一个新管道，才能实现JSON数据保存和图片下载的同时进行。

在 settings.py 中新添加一个管道，修改的名字就是我们定义的类名。

这样再运行爬虫文件，就可以得到JSON文件和所有的图片了。

5.多页下载

找一下每一页的url之间的规律

# http://category.dangdang.com/pg2-cp01.36.04.00.00.00.html

# http://category.dangdang.com/pg3-cp01.36.04.00.00.00.html

# http://category.dangdang.com/pg4-cp01.36.04.00.00.00.html

可以看到，只有page不一样

所以我们可以在 dang.py 的类中定义一个url_base。

url_base = 'http://category.dangdang.com/pg'
page = 1

然后在 parse方法中添加以下代码

使用 yield 将新的url再传递给 parse() 方法。

# 多个页面的请求
# 每一页爬取的业务逻辑都是一样的，所以我们只需要将执行的那个页的请求再次调用parse方法
# http://category.dangdang.com/pg2-cp01.36.04.00.00.00.html
# http://category.dangdang.com/pg3-cp01.36.04.00.00.00.html
# http://category.dangdang.com/pg4-cp01.36.04.00.00.00.htmlif self.page < 10:self.page = self.page + 1url = self.url_base + str(self.page) + '-cp01.36.04.00.00.00.html'# 怎么调用 parse 方法# scrapy.Request 就是scrapy的get请求# url 就是请求地址，callback就是你要执行的那个函数，不需要加‘ () ’yield scrapy.Request(url=url, callback=self.parse)

完整代码：

dang.py

import scrapy
from ..items import Scrapy095Itemclass DangSpider(scrapy.Spider):name = 'dang'# 如果是多页下载，allowed_domains只保留域名，去掉协议和地址，为的是扩大允许范围allowed_domains = ['category.dangdang.com']start_urls = ['http://category.dangdang.com/cp01.36.04.00.00.00.html']url_base = 'http://category.dangdang.com/pg'page = 1def parse(self, response):print('=============================')# pipeline  下载数据# items     定义数据结构# 找到三者共同所在的标签# img = response.xpath('//ul[@id="component_59"]/li//img/@data-original')# name = response.xpath('//ul[@id="component_59"]/li//img/@alt')# price = response.xpath('//ul[@id="component_59"]/li//p[@class="price"]/span[1]/text()')# 所有selector对象可以在此调用 Xpath方法li_list = response.xpath('//ul[@id="component_59"]/li')for li in li_list:# 第一章图片的链接在 src 里# 其余图片的链接在 data-original 里img = li.xpath('.//img/@data-original').extract_first()if img:img = imgelse:img = li.xpath('.//img/@src').extract_first()name = li.xpath('.//img/@alt').extract_first()price = li.xpath('.//p[@class="price"]/span[1]/text()').extract_first()print(img,name,price)book = Scrapy095Item(img=img,name=name,price=price)# 将 book 交给 pipeline 下载yield book# 多个页面的请求# 每一页爬取的业务逻辑都是一样的，所以我们只需要将执行的那个页的请求再次调用parse方法# http://category.dangdang.com/pg2-cp01.36.04.00.00.00.html# http://category.dangdang.com/pg3-cp01.36.04.00.00.00.html# http://category.dangdang.com/pg4-cp01.36.04.00.00.00.htmlif self.page < 10:self.page = self.page + 1url = self.url_base + str(self.page) + '-cp01.36.04.00.00.00.html'# 怎么调用 parse 方法# scrapy.Request 就是scrapy的get请求# url 就是请求地址，callback就是你要执行的那个函数，不需要加‘ () ’yield scrapy.Request(url=url, callback=self.parse)print('=============================')

items.py

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.htmlimport scrapyclass Scrapy095Item(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()# 通俗地讲就是你下载的数据都有什么# 爬取图片img = scrapy.Field()# 爬取书名name = scrapy.Field()# 爬取价格price = scrapy.Field()pass

pipelines.py

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html# useful for handling different item types with a single interface
from itemadapter import ItemAdapter# 如果要使用管道的话，就要在 settings.py 中开启管道
class Scrapy095Pipeline:# 在爬虫文件开始之前就执行的一个文件def open_spider(self, spider):print('++++++++++++++++++++++++++')self.fp = open('book.json', 'w', encoding='utf-8')# item 就是 yield 的返回值def process_item(self, item, spider):# 我们不这样保存# # 保存数据# with open('book.json','a', encoding='utf-8') as file:#     # 存在的问题#     # item 是一个对象，需要将其转换为 str#     # 写文件的方式要改为 ‘a’ 追加模式，而不是 ‘w’覆盖模式。#     file.write(str(item))self.fp.write(str(item))return item# 在爬虫文件执行完之后再执行的方法def close_spider(self, spider):print('----------------------')self.fp.close()import urllib.request
# 多条管道开启
# (1)定义管道类
# (2)在settings中开启管道
class Scrapy095_download_Pipeline:def process_item(self, item, spider):url = 'http:' + item.get('img')filename = './books/' + item.get('name') + '.jpg'urllib.request.urlretrieve(url=url, filename=filename)return item

settings.py 中只取消ROBOTSTXT_OBEY的注释，并添加下面的管道。

# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {# 管道可以有很多个，但管道是有优先级的，优先级范围是 1-1000， 值越小，优先级越高。'scrapy_095.pipelines.Scrapy095Pipeline': 300,'scrapy_095.pipelines.Scrapy095_download_Pipeline': 301,
}

参考

尚硅谷Python爬虫教程小白零基础速通（含python基础+爬虫案例）

爬虫 scrapy ——scrapy shell调试及下载当当网数据（十一）

目录一、scrapy shell 1.什么是scrapy shell？ 2.安装 ipython 3.使用scrapy shell 二、当当网案例 1.在items.py中定义数据结构 2.在dang.py中解析数据 3.使用pipeline保存 4.多条管道的使用 5.多页下载参考一、scrapy shell 1.什么是scrapy shell&am…...

编程日记 2023/12/18 9:49:30

Linux驱动（中断、异步通知）：红外对射，并在Qt StatusBus使用指示灯进行显示

本文工作： 1、Linux驱动与应用程序编写：使用了设备树、中断、异步通知知识点，实现了红外对射状态的异步信息提醒。 2、QT程序编写：自定义了一个“文本指示灯”类，并放置在QMainWidget的StatusBus中。 3、C与C混合编程与…...

编程日记 2023/12/18 9:48:29

echarts地图的常见用法：基本使用、区域颜色分级、水波动画、区域轮播、给地图添加背景图片和图标、3d地图、飞线图

前言最近几天用echarts做中国地图，就把以前写的demo：在vue中实现中国地图拿来用，结果到项目里直接报错了，后来发现是因为版本的问题，没办法只能从头进行踩坑了。以下内容基于vue3 和 echarts 5.32 基本使用获取地…...

编程日记 2023/12/18 9:47:28

进程间通讯-管道

介绍管道（Pipe）是操作系统提供的一种进程间通信（IPC，Inter-Process Communication）机制，它允许一个进程的输出直接作为另一个进程的输入。管道主要分为以下两种类型： 无名管道（Unn…...

编程日记 2023/12/18 9:44:25

项目总结-自主HTTP实现

终于是写完了，花费了2周时间，一点一点看，还没有扩展，但是基本功能是已经实现了。利用的是Tcp为网络链接，在其上面又写了http的壳。没有使用epoll，多路转接难度比较高，以后有机会再写&#xff0c…...

编程日记 2023/12/18 9:43:24

Java语言＋二维数组＋非递归实现五子棋游戏

以前做过一个C语言版五子棋：Ｃ语言＋二维数组＋非递归实现五子棋游戏现在做一个Java语言版五子棋，规则如下： 1､白子为O; 2､黑子为； 3､白子先手；…...

编程日记 2023/12/18 9:42:23

WordCloud—— 词云

【说明】文章内容来自《机器学习入门——基于sklearn》，用于学习记录。若有争议联系删除。 wordcloud 是python的第三方库，称为词云，也成文字云，可以根据文本中的词频以直观和艺术化的形式展示文本中词语的重要性。依赖于pillow …...

编程日记 2023/12/18 9:40:21

linux网络----UDP编程

一、函数接口: 1.socket:创建一个用来网络通信的终端节点； 参数: type：套接字类型 SOCK_STREAM 流式套接字 TCP SOCK_DGRAM 数据报套接字 UDP SOCK_RAM 原始套接字 domain: 协议族 AF_INET protocal: 默认为0 2.s…...

编程日记 2023/12/18 9:39:20

[AI工具推荐]AiRestful智能API代码生成

智能API代码示例生成工具AiRestful 一、产品介绍二、如何使用1、第一步(必须):2、第二步(可选):3、第三步(智能生成): 三、如何集成到您的网站(应用)1、开始接入2、接入案例四、注意点一、产品介绍 AiRestful是一款基于智能AI的,帮助小白快速生成任意编程语言的API接口调用示…...

编程日记 2023/12/18 9:35:17

Elasticsearch 8.10.0同义词API用法详解，支持同义词热更新

Elasticsearch 的同义词功能非常强大，如果使用得当，可以显着提高搜索引擎的效果。使用同义词功能时的一个常见问题是更新同义词集。同义词在搜索引擎领域用途同义词在搜索引擎领域的用途可概括如下：增强搜索的准确性——当用户输入一个关键词时，可能与他们实际意图相关…...

编程日记 2023/12/18 9:33:15

深度学习之模型权重

在深度学习中，模型的权重（weights）是指神经网络中的参数，这些参数用于调整和学习模型的行为，以便能够对输入数据进行有效的映射和提取有用的特征。深度学习模型通常由许多神经元和连接组成，而权重就是连接这…...

编程日记 2023/12/18 9:31:14

1 单个sheet page.js(页面中的导出方法) import { exportExcel } from ../../../utils/exportExcel.js; leadOut() {const arr [{ id: 1, name: 张三, age: 14, sex: 男 },{ id: 2, name: 李四, age: 15, sex: 女 },{ id: 3, name: 王五, age: 16, sex: 男 },];const allR…...

编程日记 2023/12/18 9:29:12

将mjpg格式数转化成opencv Mat格式

该博客可以解决如下两个问题： 1、将mjpg格式数据转化成opencv Mat格式 2、v4l2_buffer 格式获取的mjpg格式数据转换成Mat格式。要将 MJPEG 格式的数据转换为 OpenCV 的 Mat 格式，您可以使用 imdecode 函数。imdecode 函数可以将图像数据解码为 Mat 对象…...

编程日记 2023/12/18 9:28:10

【golang/g3n】3D游戏引擎G3N的windows安装与测试

目录说在前面安装测试说在前面操作系统：win 11go version：go1.21.5 windows/amd64g3n版本：github.com/g3n/engine v0.2.0其他：找了下golang 3d相关的库，目前好像就这个比较活跃安装按照官方教程所说，…...

编程日记 2023/12/18 9:27:08

sap table 获取 valuation class MBEW 查表获取

参考 https://www.tcodesearch.com/sap-tables/search?qvaluationclass...

编程日记 2023/12/18 9:26:08

介绍一些操作系统—— Ubuntu 系统

介绍一些操作系统—— Ubuntu 系统 Ubuntu 系统 Ubuntu 是一个以桌面应用为主的 Linux 发行版操作系统，其名称来自非洲南部祖鲁语或豪萨语的“ubuntu"一词，意思是“人性”“我的存在是因为大家的存在"，是非洲传统的一种价值观。U…...

编程日记 2023/12/18 9:23:04

React中props 和 state异同初探

在 React 中，props 和 state 是两个非常重要的概念，它们决定了组件的行为和渲染方式。 Props props（属性）是父组件传递给子组件的数据。它们类似于函数的参数，可以在组件内部被访问和使用，但不能被修改。…...

编程日记 2023/12/18 9:20:00

spring-kakfa依赖管理之org/springframework/kafka/listener/CommonErrorHandler错误

问题： 整个项目使用spring-boot2.6.8版本，使用gradle构建，在common模块指定了implementation org.springframework.kafka:spring-kafka:2.6.8’这个工程也都能运行（这正常发送kafka消息和接收消息），但是执行…...

编程日记 2023/12/18 9:17:59

基于go语言开发的海量用户及时通讯系统

文章目录二十三、海量用户即时通讯系统1、项目开发前技术准备2.实现功能-显示客户端登录菜单3.实现功能-完成用户登录-1.完成客户端可以该长度值发送消息长度，服务器端可以正常接收到-2.完成客户端可以发送消息，服务器端可以接收到消息并根据客户端发送…...

编程日记 2023/12/18 9:16:57

19.Oracle 中count(1) 、count(*) 和count(列名) 函数的区别

count(1) and count(字段) 两者的主要区别是 count(1) 会统计表中的所有的记录数，包含字段为null 的记录。count(字段) 会统计该字段在表中出现的次数，忽略字段为null 的情况。即不统计字段为null 的记录。 count(*) 和 count(1)和count(列名)区别 …...

编程日记 2023/12/18 9:14:55

Syzygy-of-Thoughts：用代数几何思想提升大语言模型推理能力

1. 项目概述：当大语言模型遇上代数几何如果你最近在折腾大语言模型（LLM）的推理能力提升，大概率听说过“思维链”（Chain of Thought, CoT）和“自洽性”（Self-Consistency, CoT-SC）这些…...

编程新知 2026/5/14 7:14:32

S32K3 FlexCAN实战：从MCAL配置到DMA接收，手把手教你避开那些手册里没写的坑

S32K3 FlexCAN深度实战：从寄存器配置到DMA优化全链路解析在车载电子架构快速迭代的今天，S32K3系列MCU凭借其强大的FlexCAN模块成为汽车电子开发者的首选。但官方文档往往只勾勒出理想状态下的功能框架，当工程师真正着手实现CAN FD通信时&…...

编程新知 2026/5/14 5:54:55

基于Rust构建命令行任务监控与通知工具：openclaw-tui-notify实践

1. 项目概述与核心价值最近在折腾一个后台数据处理脚本，它经常一跑就是好几个小时。问题来了，我总不能一直盯着终端看它什么时候结束吧？有时候去开个会、吃个饭，回来发现脚本早就跑完了，白白浪费了时间等结果。更头疼的…...

编程新知 2026/5/14 5:09:51

从A*到平滑：拉绳算法如何为游戏角色“剪裁”最优路径

1. 游戏寻路为什么需要平滑处理？ 想象一下你在玩一款开放世界游戏，控制角色从城堡出发前往远处的森林。如果直接使用A*算法生成的路径，角色可能会像喝醉酒一样左右摇摆，贴着导航网格的边缘移动。这种"锯齿状路径"不仅看…...

编程新知 2026/5/14 3:31:33

抽水蓄能电站岔管结构智能优化【附模型】

✨ 长期致力于抽水蓄能、球形钢岔管、智能优化、鲸鱼算法、静力分析研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）球形钢岔管参数化有限元建模&…...

编程新知 2026/5/14 2:30:14

多物流机器人任务调度与路径规划【附程序】

✨ 长期致力于物流机器人、任务调度、路径规划、沙猫群算法研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）栅格-拓扑双层地图建模与任务分配&#xf…...

编程新知 2026/5/14 2:30:14

如何反查竞品最近30天内新增的差评关键词，并优化Listing卖点？

很多亚马逊卖家做竞品分析，只盯价格、BSR、广告位、关键词排名，却很少认真看竞品最近30天新增的差评。其实，最新差评往往比老差评更有价值。老差评更多反映历史问题，可能来自旧批次、旧包装、旧版本；但最近30天新增差评…...

编程新知 2026/5/13 22:38:48

全栈开发新范式：Vibe-Stack集成技术栈实战解析

1. 项目概述与核心价值最近在探索全栈开发的新范式时，我注意到了 pastropsucez/vibe-stack 这个项目。乍一看这个名字，你可能会觉得有点“玄学”，但深入探究后，我发现它其实是一个高度集成、开箱即用的现代Web应用开发栈。简单…...

编程新知 2026/5/13 22:25:19

智慧校园平台建设要多少钱？这份预算规划指南帮你理清思路

✅作者简介：合肥自友科技 📌核心产品：智慧校园平台(包括教工管理、学工管理、教务管理、考务管理、后勤管理、德育管理、资产管理、公寓管理、实习管理、就业管理、离校管理、科研平台、档案管理、学生平台等26个子平台) 。公司所有人员均有多…...

编程新知 2026/5/13 21:42:19

从零到一：DPDK高性能网络开发实战指南

1. 为什么你需要了解DPDK？ 如果你正在开发需要处理高吞吐量网络数据的应用，比如视频流服务器、金融交易系统或者云计算平台，传统的Linux网络栈可能会成为性能瓶颈。我亲身经历过一个项目，用传统方式开发的网关每秒只能处理30万包…...

编程新知 2026/5/13 21:02:10

一、scrapy shell

1.什么是scrapy shell？

2.安装 ipython

3.使用scrapy shell

二、当当网案例

1.在items.py中定义数据结构

2.在dang.py中解析数据

3.使用pipeline保存

4.多条管道的使用

5.多页下载

参考

相关文章：