当前位置: 首页 > news >正文

爬虫实战——scrapy框架爬取多张图片

scrapy框架的基本使用,请参考我的另一篇文章:scrapy框架的基本使用

起始爬取的网页如下:

点击每张图片,可以进入图片的详情页,如下:

 代码实现:

项目文件结构如下

img_download.py文件代码

import scrapy
# 这里导包的时候会显示报错,但其实不影响运行,如果想去掉,可以百度一下方法
from caixin591.items import Caixin591Itemclass ImgDownloadSpider(scrapy.Spider):name = "img_download"allowed_domains = ["m.mms591.com"]# 修改默认的爬虫入口# start_urls = ["https://m.mms591.com"]start_urls = ["https://m.mms591.com/filter.php?q=dongwu_zhiwu-0-0-755-2"]def parse(self, response, **kwargs):# print(response.text)  # 打印页面源代码# 从页面源代码中拿到图片详情网址# 这里有多种方法进行解析,大家可以按照自己的思路来# 我这里先拿到每个图片所在lilis = response.xpath('//div[@class="am-list-news-bd"]/ul/li')for li in lis:href = li.xpath('./div/a/@href').extract_first()# 这里拿到的地址是不完整的,需要拼接完整的URL# print(href)  # '/dongwu-zhiwu/1015_he-ma.html'# 之前我们是用from urllib.parse import urljoin进行拼接# 但是scrapy中的response对象有相应的URL拼接方法detail_img = response.urljoin(href)# print(detail_img)  # https://m.mms591.com/dongwu-zhiwu/1023_qi-e.html# 向图片的详情地址发送请求# 之前我们说爬虫程序要么解析出具体的数据,传递给引擎,然后通过引擎传递给通道# 要么解析出新的URL,然后传递给引擎,引擎封装成request对象,再给调度器# 所以这里我们解析出了一个新的URL,那么就封装成request对象,# 至于引擎是怎么给调度器、怎么发送这个请求得到数据的不用我们关心req = scrapy.Request(url=detail_img,  # 要请求的地址method='get',  # 请求的方式# 这里是自定义一个解析函数# 请求返回的内容交给谁进行数据解析callback=self.parse_detail_page)# 把请求返回给引擎yield reqbreak# 上面的过程只下载了一页图片,如果我们想下载多页图片,可以在这里进行# 可以一次性拿到所有分页的URL,然后协程或者for循环进行下载# 这里采取拿到“下一页”这个按钮的URL,然后一页一页的下载# 相当于不断地手动点击下一页这个按钮# 从页面中获取下一页按钮的URL# 这里的URL也是不完整的,需要拼接next_page_url = response.xpath(# a[contains(text(), "下一页")] 表示获取文本内容包含“下一页”的a标签'//ul[@data-am-widget="pagination"]/li/a[contains(text(), "下一页")]/@href').extract_first()print(next_page_url)if next_page_url:  # 如果有下一页yield scrapy.Request(url=response.urljoin(next_page_url),method='get',# 请求返回的又是一页新的有多个图片的页面,解析逻辑桶上面,所以调用parse方法callback=self.parse)def parse_detail_page(self, response):"""在这个函数里对图片的详情页进行解析,这个方法是自定义的:param response: 请求详情页网址时返回的内容:return:"""# print(response.text)# 拿到图片真正的下载地址img_url = response.xpath('//img[@class="mainimg"]/@src').extract_first()# print(img_url)title = response.xpath('//h3/text()').extract_first()# print(title)item = Caixin591Item()item['img_url'] = img_urlitem['title'] = titleyield item  # 把具体的数据传递给管道

settings.py文件代码(删掉了没有用到的注释代码)

BOT_NAME = "caixin591"SPIDER_MODULES = ["caixin591.spiders"]
NEWSPIDER_MODULE = "caixin591.spiders"# Obey robots.txt rules
ROBOTSTXT_OBEY = TrueITEM_PIPELINES = {"caixin591.pipelines.Caixin591Pipeline": 300,"caixin591.pipelines.DownloadImgPipeline": 299
}# 配置日志界别
LOG_LEVEL = 'WARNING'# 配置保存图片的文件夹
IMAGES_STORE = './images'# 要配置这个,否则图片管道下载图片的时候会报错:
# File (code: 301): Error downloading file from <GET http:...> referred in <None>
MEDIA_ALLOW_REDIRECTS = TrueREQUEST_FINGERPRINTER_IMPLEMENTATION = "2.7"
TWISTED_REACTOR = "twisted.internet.asyncioreactor.AsyncioSelectorReactor"
FEED_EXPORT_ENCODING = "utf-8"

pipelines.py文件代码

import scrapy
from scrapy.pipelines.images import ImagesPipelineclass Caixin591Pipeline:def process_item(self, item, spider):return item# 下载图片
# 这里利用图片管道完成图片下载操作
# 注意要在settings文件中配置保存文件的文件夹
class DownloadImgPipeline(ImagesPipeline):# 下面三个方法都是重写ImagesPipeline类中的def get_media_requests(self, item, info):# 本方法负责发送请求进行下载# item 就是爬虫程序传递过来的数据# img_url是图片真正的下载地址,发送请求后会返回图片的字节信息# 而把图片的字节存储起来这一操作我们不需要关心# 只需要实现这三个方法就可以完成下载图片到本地这一需求req = scrapy.Request(url=item['img_url'], method='get')return req  # 把请求返回给引擎# 上面是封装一个请求然后下载一次,应该也可以先封装好所有请求然后一起下载# 但是我没尝试过,感兴趣的可以试一试def file_path(self, request, response=None, info=None, *, item=None):# 本方法负责提供图片文件的存储路径# request这里对应着上面方法get_media_requests中的req# 一个图片对应一个req# 和以前一样,我们以URL的最后一部分命名图片# 请求的URL可以通过request.url获取file_name = request.url.split('/')[-1]return f'img/{file_name}'  # 返回图片文件的存储路径def item_completed(self, results, item, info):# 本方法可以拿到文件的详细信息# 可以自己打印出来看看具体有什么东西# print(results)# print(item)# print(info)pass

items.py文件代码

import scrapyclass Caixin591Item(scrapy.Item):img_url = scrapy.Field()title = scrapy.Field()

相关文章:

爬虫实战——scrapy框架爬取多张图片

scrapy框架的基本使用&#xff0c;请参考我的另一篇文章&#xff1a;scrapy框架的基本使用 起始爬取的网页如下&#xff1a; 点击每张图片&#xff0c;可以进入图片的详情页&#xff0c;如下&#xff1a; 代码实现&#xff1a; 项目文件结构如下 img_download.py文件代码 im…...

LLVM TableGen 系统学习笔记

Basic TableGen 系统可以帮助记录领域特定的信息。它也可以认为是一种小型的编译系统。 TableGen 责负分析文件&#xff0c; 分析结果交给领域特定的后端进行处理。 重要的概念 records 一个 record 有一个独立的名称&#xff0c;一系列值和一系列父类。 它保存了特定领域…...

基于stm32的流水灯设计

1基于stm32的流水灯设计[proteus仿真] 速度检测系统这个题目算是课程设计和毕业设计中常见的题目了&#xff0c;本期是一个基于51单片机的自行车测速系统设计 需要的源文件和程序的小伙伴可以关注公众号【阿目分享嵌入式】&#xff0c;赞赏任意文章 2&#xffe5;&#xff0c…...

kotlin图片合成和压缩

kotlin图片合成和压缩 之前的方法是继承AsyncTask 在doInBackground 里面去做压缩的操作&#xff0c;然后用 publishProgress 切到主线程里面更新 新方法是在协程里的去做 class ImageService {private fun getSumWidths(bitmaps: ArrayList<Bitmap>): Int {var sumWid…...

Java学习笔记004——接口概念理解及意义

一个类中有抽象方法&#xff0c;则必须声明为abstract&#xff08;做为抽象类&#xff09;&#xff0c;抽象类不能实例化。子类继承抽象类&#xff0c;必须对所有的抽象方法重写&#xff0c;否则依然有抽象方法&#xff0c;还是抽象的&#xff0c;无法实例化。故抽象类常做为基…...

MT笔试题

前言 某团硬件工程师的笔试题&#xff0c;个人感觉题目的价值还是很高的&#xff0c;分为选择题和编程题&#xff0c;选择题考的是嵌入式基础知识&#xff0c;编程题是两道算法题&#xff0c;一道为简单难度&#xff0c;一道为中等难度 目录 前言选择题编程题 选择题 C语言中变…...

50道SQL面试题

50道SQL面试题 有需要互关的小伙伴,关注一下,有关必回关,争取今年认证早日拿到博客专家 环境 -- ---------------------------- -- Table structure for teacher -- ---------------------------- DROP TABLE IF EXISTS teacher; CREATE TABLE teacher (t_id varchar(20) …...

2024蓝桥杯每日一题(双指针)

一、第一题&#xff1a;牛的学术圈 解题思路&#xff1a;双指针贪心 仔细思考可以知道&#xff0c;写一篇综述最多在原来的H指数的基础上1&#xff0c;所以基本方法可以是先求出原始的H指数&#xff0c;然后分类讨论怎么样提升H指数。 【Python程序代码】 n,l map(int,…...

Android 开发过程中常见的内存泄漏场景分析

场景1 Static变量存储上下文环境Context public class ClassName {// 定义1个静态变量private static Context mContext;//... // 引用的是Activity的contextmContext context; // 当Activity需销毁时&#xff0c;由于mContext 静态 & 生命周期 应用程序的生命周期&…...

Codeforces-1935E:Distance Learning Courses in MAC(思维)

E. Distance Learning Courses in MAC time limit per test 2 seconds memory limit per test 256 megabytes input standard input output standard output The New Year has arrived in the Master’s Assistance Center, which means it’s time to introduce a new feature…...

ZooKeeper和Diamond有什么不同

本文主要是讨论下两个类似产品&#xff1a;ZooKeeper和Diamond在配置管理这个应用场景上的异同点。 Diamond&#xff0c;顾名思义&#xff0c;寄寓了开发人员对产品稳定性的厚望&#xff0c;希望它像钻石一样&#xff0c;提供稳定的配置访问。Diamond是淘宝网Java中间件团队的核…...

三、N元语法(N-gram)

为了弥补 One-Hot 独热编码的维度灾难和语义鸿沟以及 BOW 词袋模型丢失词序信息和稀疏性这些缺陷&#xff0c;将词表示成一个低维的实数向量&#xff0c;且相似的词的向量表示是相近的&#xff0c;可以用向量之间的距离来衡量相似度。 N-gram 统计语言模型是用来计算句子概率的…...

QML 3D入门知识路线

目前使用的版本 v5.14.0 模块导入 使用QML 3D时需要 import Qt3D.Core 2.14 核心模块类 V6以上的版本已经发布&#xff0c;所以有很多module会发生变化&#xff0c;主要有核心module、输入、逻辑、渲染、动画和扩展module&#xff0c;以及2D/3D场景模块 类名 能…...

蓝牙系列五:开源蓝牙协议BTStack框架代码阅读(1)

蓝牙学习系列,借鉴卫东上老师的蓝牙视频教程。 BTStack协议栈学习。首先来看一下,对于硬件操作,它是如何来进行处理的。在上篇文章中曾说过,在main函数里面它会调用硬件相关的代码,调用操作系统相关的代码。在BTStack中,可以搜索一下main.c,将会发现有很多main.c,都是…...

c++ 类内可以定义引用数据成员吗?

在C中&#xff0c;类内是可以定义引用数据成员的&#xff0c;但是在初始化对象时&#xff0c;必须在构造函数的成员初始化列表中对引用进行初始化&#xff0c;因为引用必须在创建时被初始化&#xff0c;并且不能在其生存期内引用不同的对象。下面是一个简单的示例&#xff1a; …...

MacBook2024苹果免费mac电脑清理垃圾软件CleanMyMac X

CleanMyMac X是一款专业的Mac清理软件&#xff0c;具备多种强大功能。首先&#xff0c;它能够智能清理Mac磁盘上的垃圾文件和多余语言安装包&#xff0c;从而快速释放电脑内存。其次&#xff0c;CleanMyMac X可以轻松管理和升级Mac上的应用&#xff0c;同时强力卸载恶意软件并修…...

Vue.js计算属性:实现数据驱动的利器

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…...

10-ARM gicv3/gicv4的总结-基础篇

目录 1、gic的版本2、GICv3/gicv4的模型图3、gic中断号的划分4、GIC连接方式5、gic的状态6、gic框架7、gic Configuring推荐 本文转自 周贺贺&#xff0c;baron&#xff0c;代码改变世界ctw&#xff0c;Arm精选&#xff0c; armv8/armv9&#xff0c;trustzone/tee&#xff0c;s…...

数据库系统概论(超详解!!!) 第三节 关系数据库

1.基本概念 1. 域&#xff08;Domain&#xff09; 域是一组具有相同数据类型的值的集合。 2. 笛卡尔积&#xff08;Cartesian Product&#xff09; 给定一组域D1&#xff0c;D2&#xff0c;…&#xff0c;Dn&#xff0c;允许其中某些域是相同的。 D1&#xff0c;D2…...

Springboot 集成kafka 消费者实现ssl方式连接监听消息实现消费

证书准备&#xff1a;springboot集成kafka 消费者实现 如何配置是ssl方式连接的时候需要进行证书的转换。原始的证书是pem, 或者csr方式 和key方式的时候需要转换&#xff0c;因为kafka里面是jks 需要通过openssl进行转换。 证书处理&#xff1a; KeyStore 用于存储客户端的证…...

基于距离变化能量开销动态调整的WSN低功耗拓扑控制开销算法matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.算法仿真参数 5.算法理论概述 6.参考文献 7.完整程序 1.程序功能描述 通过动态调整节点通信的能量开销&#xff0c;平衡网络负载&#xff0c;延长WSN生命周期。具体通过建立基于距离的能量消耗模型&am…...

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility 1. 实验室环境1.1 实验室环境1.2 小测试 2. The Endor System2.1 部署应用2.2 检查现有策略 3. Cilium 策略实体3.1 创建 allow-all 网络策略3.2 在 Hubble CLI 中验证网络策略源3.3 …...

【Oracle】分区表

个人主页&#xff1a;Guiat 归属专栏&#xff1a;Oracle 文章目录 1. 分区表基础概述1.1 分区表的概念与优势1.2 分区类型概览1.3 分区表的工作原理 2. 范围分区 (RANGE Partitioning)2.1 基础范围分区2.1.1 按日期范围分区2.1.2 按数值范围分区 2.2 间隔分区 (INTERVAL Partit…...

2023赣州旅游投资集团

单选题 1.“不登高山&#xff0c;不知天之高也&#xff1b;不临深溪&#xff0c;不知地之厚也。”这句话说明_____。 A、人的意识具有创造性 B、人的认识是独立于实践之外的 C、实践在认识过程中具有决定作用 D、人的一切知识都是从直接经验中获得的 参考答案: C 本题解…...

Unsafe Fileupload篇补充-木马的详细教程与木马分享(中国蚁剑方式)

在之前的皮卡丘靶场第九期Unsafe Fileupload篇中我们学习了木马的原理并且学了一个简单的木马文件 本期内容是为了更好的为大家解释木马&#xff08;服务器方面的&#xff09;的原理&#xff0c;连接&#xff0c;以及各种木马及连接工具的分享 文件木马&#xff1a;https://w…...

CSS | transition 和 transform的用处和区别

省流总结&#xff1a; transform用于变换/变形&#xff0c;transition是动画控制器 transform 用来对元素进行变形&#xff0c;常见的操作如下&#xff0c;它是立即生效的样式变形属性。 旋转 rotate(角度deg)、平移 translateX(像素px)、缩放 scale(倍数)、倾斜 skewX(角度…...

学习一下用鸿蒙​​DevEco Studio HarmonyOS5实现百度地图

在鸿蒙&#xff08;HarmonyOS5&#xff09;中集成百度地图&#xff0c;可以通过以下步骤和技术方案实现。结合鸿蒙的分布式能力和百度地图的API&#xff0c;可以构建跨设备的定位、导航和地图展示功能。 ​​1. 鸿蒙环境准备​​ ​​开发工具​​&#xff1a;下载安装 ​​De…...

Leetcode33( 搜索旋转排序数组)

题目表述 整数数组 nums 按升序排列&#xff0c;数组中的值 互不相同 。 在传递给函数之前&#xff0c;nums 在预先未知的某个下标 k&#xff08;0 < k < nums.length&#xff09;上进行了 旋转&#xff0c;使数组变为 [nums[k], nums[k1], …, nums[n-1], nums[0], nu…...

用 Rust 重写 Linux 内核模块实战:迈向安全内核的新篇章

用 Rust 重写 Linux 内核模块实战&#xff1a;迈向安全内核的新篇章 ​​摘要&#xff1a;​​ 操作系统内核的安全性、稳定性至关重要。传统 Linux 内核模块开发长期依赖于 C 语言&#xff0c;受限于 C 语言本身的内存安全和并发安全问题&#xff0c;开发复杂模块极易引入难以…...

如何做好一份技术文档?从规划到实践的完整指南

如何做好一份技术文档&#xff1f;从规划到实践的完整指南 &#x1f31f; 嗨&#xff0c;我是IRpickstars&#xff01; &#x1f30c; 总有一行代码&#xff0c;能点亮万千星辰。 &#x1f50d; 在技术的宇宙中&#xff0c;我愿做永不停歇的探索者。 ✨ 用代码丈量世界&…...