当前位置：首页 > news >正文

Python爬虫---scrapy框架---当当网管道封装

news 2025/7/9 5:56:11

项目结构：

dang.py文件：自己创建，实现爬虫核心功能的文件

import scrapy
from scrapy_dangdang_20240113.items import ScrapyDangdang20240113Itemclass DangSpider(scrapy.Spider):name = "dang"  # 名字# 如果是多页下载的话, 那么必须要调整的是allowed_domains的范围 一般情况下只写城名# allowed_domains = ["https://category.dangdang.com/cp01.01.00.00.00.00.html"]allowed_domains = ["category.dangdang.com"]start_urls = ["https://category.dangdang.com/cp01.01.00.00.00.00.html"]# 第1页:"https://category.dangdang.com/cp01.01.00.00.00.00.html"# 第2页: "https://category.dangdang.com/pg2-cp01.01.00.00.00.00.html"# 第3页: "https://category.dangdang.com/pg3-cp01.01.00.00.00.00.html"base_url = "https://category.dangdang.com/pg"page = 1def parse(self, response):print("========================================================================")# pipelines: 下载数据# items: 定义数据结构# xpath语法# src = //ul[@id='component_59']/li/a/img/@src# 除了第一张,其他做了懒加载 所以不能使用src,要使用这个data-original# src = //ul[@id='component_59']/li/a/img/@data-original# alt = //ul[@id='component_59']/li/a/img/@alt# price = //ul[@id='component_59']/li/p[@class='price']/span[1]/text()# 所有的seletor的对象都可以再次调用xpath语法li_list = response.xpath("//ul[@id='component_59']/li")for li in li_list:src = li.xpath(".//img/@data-original").extract_first()if src:src = srcelse:src = li.xpath(".//img/@src").extract_first()name = li.xpath(".//img/@alt").extract_first()price = li.xpath(".//p[@class='price']/span[1]/text()").extract_first()print(src, name, price)# 将爬取的数据放在对象里book = ScrapyDangdang20240113Item(src=src, name=name, price=price)# 获取一个book将book交给pipelines，将对象放在管道里yield book# 每一页的爬取业务的逻辑全都是一样的，所以我们只需要将执行的那个页的请求再次调用if self.page < 100:self.page = self.page + 1url = self.base_url + str(self.page) + "-cp01.01.00.00.00.00.html"# 调用parse万法# scrapy.Request就是scrpay的get请求 url就是请求地址# callback是你要执行的那个函数注意不需要加()yield scrapy.Request(url=url, callback=self.parse)

items文件：定义数据结构的地方

import scrapyclass ScrapyDangdang20240113Item(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()# 通俗的说就是你要下载的数据都有什么src = scrapy.Field()name = scrapy.Field()price = scrapy.Field()

settings文件：配置文件，例如开启管道

# 开启管道
ITEM_PIPELINES = {# 管道可以有很多个，那么管道是有优先级的，优先级的范围是1到1000，值越小优先级越高"scrapy_dangdang_20240113.pipelines.ScrapyDangdang20240113Pipeline": 300,"scrapy_dangdang_20240113.pipelines.DangdangDownloadPipeline": 301,
}

pipelines.py文件：管道文件，里面只有一个类，用于处理下载数据的，值越小优先级越高

# 下载数据# 如果想使用管道的话 那么就必须在settings中开启管道
class ScrapyDangdang20240113Pipeline:# item就是yield后面的book对象# 方式一：# 以下这种模式不推荐，因为每传递过来一个对象，那么就打开一次文件，对文件的作过于频繁# def process_item(self, item, spider):# （1）write万法必须要写一个字符串，而不能是其他的对象，使用str()强转# （2）w模式 会每一个对象都打开一次文件 覆盖之前的内容# with open("book.json","a",encoding="utf-8")as fp:#     fp.write(str(item))# return item# 方式二：# 在爬虫文件开始之前就执行的方法def open_spider(self, spider):print("++++++++++++++++++++++++++++++++++++++++++++++++++")self.fp = open("book.json", "w", encoding="utf-8")def process_item(self, item, spider):self.fp.write(str(item))return item# 在爬虫文件开始之后就执行的方法def close_spider(self, spider):print("----------------------------------------------------")self.fp.close()# 多条管道同时开启
# （1）定义管道类
# （2）在settings中开启管道
import urllib.request
class DangdangDownloadPipeline:def process_item(self, item, spider):# 下载图片url = "https:" + item.get("src")filename = "./books/" + item.get("name")[0:6] + ".jpg"urllib.request.urlretrieve(url=url, filename=filename)return item

Python爬虫---scrapy框架---当当网管道封装

项目结构： dang.py文件：自己创建，实现爬虫核心功能的文件 import scrapy from scrapy_dangdang_20240113.items import ScrapyDangdang20240113Itemclass DangSpider(scrapy.Spider):name "dang" # 名字# 如果是多页下载的话, …...

编程日记 2024/1/21 20:27:17

【机器学习】机器学习四大类第01课

一、机器学习四大类有监督学习 (Supervised Learning) 有监督学习是通过已知的输入-输出对（即标记过的训练数据）来学习函数关系的过程。在训练阶段，模型会根据这些示例调整参数以尽可能准确地预测新的、未见过的数据点的输出。实例&#x…...

编程日记 2024/1/21 20:21:12

下述默认构造函数有什么问题?

12.4 // points to string allocated by new // holds length of string 独立的、相同的数据,而不会重叠。由于同样的原因,必须定义赋值操作符。对于每一种情况,最终目的都是执行深度复制,也就是说,复制实际的数据,而不仅仅是复制指向数据的指针。对象的存储持续性为自动或…...

编程日记 2024/1/21 20:20:11

vite和mockjs配合使用

vite mockjs 当后端还没准备完成之前，前端可以使用 mock 模拟后端响应，提高开发效率 1、安装插件使用 vite-plugin-mock 插件，配合mockjs完成项目的 mock 配置 npm install mockjs vite-plugin-mock2、vite配置插件在 vite.config.js…...

编程日记 2024/1/21 20:19:09

【数据结构】常见八大排序算法总结

目录前言 1.直接插入排序 2.希尔排序 3.选择排序 4.堆排序 5.冒泡排序 6.快速排序 6.1Hoare版本 6.2挖坑法 6.3前后指针法 6.4快速排序的递归实现 6.5快速排序的非递归实现 7.归并排序 8.计数排序（非比较排序） 9.补充:基数排序 10.总结…...

编程日记 2024/1/21 20:18:07

系统学英语 — 句法 — 常规句型

目录文章目录目录5 大基本句型复合句型主语从句宾语从句表语从句定语从句状语从句同位语从句补语从句谓语句型 5 大基本句型主谓：主语发出一个动作，例如：He cried.主谓宾：we study English.主系表：主语具有某些特…...

编程日记 2024/1/21 20:17:05

Github操作网络异常笔记

Github操作网络异常笔记 1. 源由2. 解决2.1 方案一2.2 方案二 3. 总结 1. 源由开源技术在国内永远是“蛋疼”，这些"政治"问题对于追求技术的我们，形成无法回避的障碍。 $ git pull ssh: connect to host github.com port 22: Connection ti…...

编程日记 2024/1/21 20:11:01

Vue3新特性defineModel()便捷的双向绑定数据

官网介绍传送门配置要求： 版本： vue > 3.4(必须！！！)配置：vite.config.js 使用场景和案例使用场景：父子组件的数据双向绑定，不用emit和props的繁重代码具体案例代码实…...

编程日记 2024/1/21 20:08:59

vue列表飞入效果

效果实现代码 <template><div><button click"add">添加</button><TransitionGroup name"list" tag"ul"><div class"list-item" v-for"item in items" :key"item.id">{{ i…...

编程日记 2024/1/21 20:06:55

C语言·预处理详解

1. 预定义符号 C语言设置了一些预定义符号，可以直接使用，预定义符号也是在预处理期间处理的 __FILE__ 进行编译的源文件 __LINE__ 文件当前的行号 __DATE__ 文件被编译的日期 __TIME__ 文件被编译的时间 __STDC__ 如果编译器遵循ANSI C，…...

编程日记 2024/1/21 20:05:54

服务器与普通电脑的区别，普通电脑可以当作服务器用吗？

服务器在我们日常应用中非常常见，手机APP、手机游戏、PC游戏、小程序、网站等等都需要部署在服务器上，为我们提供各种计算、应用服务。服务器也是计算机的一种，虽然内部结构相差不大，但是服务器的运行速度更快、负载更高、成本更高…...

编程日记 2024/1/21 20:02:52

数字身份所有权：Web3时代用户数据的掌控权

随着Web3时代的来临，数字身份的概念正焕发出崭新的光芒。在这个数字化的时代，用户的个人数据变得愈加珍贵，而Web3则为用户带来了数字身份所有权的概念，重新定义了用户与个人数据之间的关系。本文将深入探讨Web3时代用户数据的掌控…...

编程日记 2024/1/21 19:57:48

python爬虫如何写，有哪些成功爬取的案例

编写Python爬虫时，常用的库包括Requests、Beautiful Soup和Scrapy。以下是三个简单的Python爬虫案例，分别使用Requests和Beautiful Soup，以及Scrapy。 1. 使用Requests和Beautiful Soup爬取网页内容： import requests from bs4 …...

编程日记 2024/1/21 19:56:47

PLC物联网网关BL104实现PLC协议转MQTT、OPC UA、Modbus TCP

随着物联网技术的迅猛发展，人们深刻认识到在智能化生产和生活中，实时、可靠、安全的数据传输至关重要。在此背景下，高性能的物联网数据传输解决方案——协议转换网关应运而生，广泛应用于工业自动化和数字化工厂应用环境中。无缝衔…...

编程日记 2024/1/21 19:55:46

explain工具优化mysql需要达到什么级别？

explain工具优化mysql需要达到什么级别？ 一、explain工具是什么？二、explain查询后各字段的含义三、explain查询后type字段有哪些类型？四、type类型需要优化到哪个阶段？ 一、explain工具是什么？ explain是什么&#x…...

编程日记 2024/1/21 19:53:44

RHCE作业

架设一台NFS服务器，并按照以下要求配置 1、开放/nfs/shared目录，供所有用户查询资料 2、开放/nfs/upload目录，为192.168.xxx.0/24网段主机可以上传目录，并将所有用户及所属的组映射为nfs-upload,其UID和GID均为210 3、将/home/to…...

编程日记 2024/1/21 19:51:42

在Java中调企微机器人发送消息到群里

目录如何使用群机器人消息类型及数据格式文本类型 markdown类型图片类型图文类型文件类型模版卡片类型文本通知模版卡片图文展示模版卡片消息发送频率限制文件上传接口 Java 执行语句 String url "webhook的Url"; String result HttpReque…...

编程日记 2024/1/21 19:50:41

鸿蒙开发（四）UIAbility和Page交互

通过上一篇的学习，相信大家对UIAbility已经有了初步的认知。在上篇中，我们最后实现了一个小demo，从一个UIAbility调起了另外一个UIAbility。当时我提到过，暂不实现比如点击EntryAbility中的控件去触发跳转，而是在Entry…...

编程日记 2024/1/21 19:49:40

K8s（七）四层代理Service

Service概述 Service在Kubernetes中提供了一种抽象的方式来公开应用程序的网络访问，并提供了负载均衡和服务发现等功能，使得应用程序在集群内外都能够可靠地进行访问。每个Service都会自动关联一个对应的Endpoint。当创建一个Service时，Ku…...

编程日记 2024/1/21 19:41:32

鼎捷软件获评国家级智能制造“AAA级集成实施+AA级咨询设计”供应商

为贯彻落实《“十四五”智能制造发展规划》，健全智能制造系统解决方案供应商(以下简称“供应商”)分类分级体系，推动供应商规范有序发展，智能制造系统解决方案供应商联盟组织开展了供应商分类分级评定(第一批)工作，旨在遴选一批专…...

编程日记 2024/1/21 19:38:29

业务系统对接大模型的基础方案：架构设计与关键步骤

业务系统对接大模型：架构设计与关键步骤在当今数字化转型的浪潮中，大语言模型（LLM）已成为企业提升业务效率和创新能力的关键技术之一。将大模型集成到业务系统中，不仅可以优化用户体验，还能为业务决策提供…...

编程新知 2025/7/8 12:03:11

智慧医疗能源事业线深度画像分析（上）

引言医疗行业作为现代社会的关键基础设施，其能源消耗与环境影响正日益受到关注。随着全球"双碳"目标的推进和可持续发展理念的深入，智慧医疗能源事业线应运而生，致力于通过创新技术与管理方案，重构医疗领域的能源使用模式。这一事业线融合了能源管理、可持续发…...

编程新知 2025/7/7 20:59:23

微软PowerBI考试 PL300-选择 Power BI 模型框架【附练习数据】

微软PowerBI考试 PL300-选择 Power BI 模型框架 20 多年来，Microsoft 持续对企业商业智能 (BI) 进行大量投资。 Azure Analysis Services (AAS) 和 SQL Server Analysis Services (SSAS) 基于无数企业使用的成熟的 BI 数据建模技术。同样的技术也是 Power BI 数据…...

编程新知 2025/7/8 7:24:54

【网络安全产品大调研系列】2. 体验漏洞扫描

前言 2023 年漏洞扫描服务市场规模预计为 3.06（十亿美元）。漏洞扫描服务市场行业预计将从 2024 年的 3.48（十亿美元）增长到 2032 年的 9.54（十亿美元）。预测期内漏洞扫描服务市场 CAGR（增长率&…...

编程新知 2025/7/8 23:35:09

LeetCode - 394. 字符串解码

题目 394. 字符串解码 - 力扣（LeetCode） 思路使用两个栈：一个存储重复次数，一个存储字符串遍历输入字符串： 数字处理：遇到数字时，累积计算重复次数左括号处理：保存当前状态&a…...

编程新知 2025/7/7 17:44:01

【第二十一章 SDIO接口(SDIO)】

第二十一章 SDIO接口目录第二十一章 SDIO接口(SDIO) 1 SDIO 主要功能 2 SDIO 总线拓扑 3 SDIO 功能描述 3.1 SDIO 适配器 3.2 SDIOAHB 接口 4 卡功能描述 4.1 卡识别模式 4.2 卡复位 4.3 操作电压范围确认 4.4 卡识别过程 4.5 写数据块 4.6 读数据块 4.7 数据流…...

编程新知 2025/7/8 16:22:26

对WWDC 2025 Keynote 内容的预测

借助我们以往对苹果公司发展路径的深入研究经验，以及大语言模型的分析能力，我们系统梳理了多年来苹果 WWDC 主题演讲的规律。在 WWDC 2025 即将揭幕之际，我们让 ChatGPT 对今年的 Keynote 内容进行了一个初步预测，聊作存档。等到明…...

编程新知 2025/7/8 9:45:53

相机从app启动流程

一、流程框架图二、具体流程分析 1、得到cameralist和对应的静态信息目录如下：重点代码分析：启动相机前，先要通过getCameraIdList获取camera的个数以及id，然后可以通过getCameraCharacteristics获取对应id camera的capabilities（静态信息）进行一些openCamera前的…...

编程新知 2025/7/8 15:01:38

Python爬虫（一）：爬虫伪装

一、网站防爬机制概述在当今互联网环境中，具有一定规模或盈利性质的网站几乎都实施了各种防爬措施。这些措施主要分为两大类： 身份验证机制：直接将未经授权的爬虫阻挡在外反爬技术体系：通过各种技术手段增加爬虫获取数据的难度…...

编程新知 2025/7/8 15:20:35

C# SqlSugar：依赖注入与仓储模式实践

C# SqlSugar：依赖注入与仓储模式实践在 C# 的应用开发中，数据库操作是必不可少的环节。为了让数据访问层更加简洁、高效且易于维护，许多开发者会选择成熟的 ORM（对象关系映射）框架，SqlSugar 就是其中备受…...

编程新知 2025/7/5 18:24:10

相关文章：