当前位置：首页 > news >正文

17.网络爬虫—Scrapy入门与实战

news 2025/11/3 16:30:50

这里写目录标题

Scrapy基础
Scrapy运行流程原理
- Scrapy的工作流程
- Scrapy的优点
Scrapy基本使用(豆瓣网为例)
- - 创建项目
  - 创建爬虫
  - 配置爬虫
  - 运行爬虫
  - 如何用python执行cmd命令
  - 数据解析
  - 打包数据
  - 打开管道
  - - pipeline使用注意点
后记

前言：
🏘️🏘️个人简介：以山河作礼。
🎖️🎖️:Python领域新星创作者，CSDN实力新星认证
📝📝第一篇文章《1.认识网络爬虫》获得全站热榜第一，python领域热榜第一。
🧾 🧾第四篇文章《4.网络爬虫—Post请求(实战演示)》全站热榜第八。
🧾 🧾第八篇文章《8.网络爬虫—正则表达式RE实战》全站热榜第十二。
🧾 🧾第十篇文章《10.网络爬虫—MongoDB详讲与实战》全站热榜第八，领域热榜第二
🧾 🧾第十三篇文章《13.网络爬虫—多进程详讲(实战演示)》全站热榜第十二。
🧾 🧾第十四篇文章《14.网络爬虫—selenium详讲》测试领域热榜第二十。
🧾 🧾第十六篇文章《网络爬虫—字体反爬(实战演示)》全站热榜第二十五。
🎁🎁《Python网络爬虫》专栏累计发表十六篇文章，上榜七篇。欢迎免费订阅！欢迎大家一起学习，一起成长！！
💕💕悲索之人烈焰加身，堕落者不可饶恕。永恒燃烧的羽翼，带我脱离凡间的沉沦。

Scrapy基础

🧾 🧾Scrapy是一个用于爬取网站数据和提取结构化数据的Python应用程序框架。Scrapy的设计是用于Web爬虫，也可以用于提取数据和自动化测试。

Scrapy提供了一个内置的HTTP请求处理器，可以通过编写自定义的中间件来扩展其功能。Scrapy使用Twisted事件驱动框架，可以同时处理数千个并发请求。

🧾 Scrapy的主要组件包括：

ScrapyEngine(引擎)：负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler(调度器)：它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到Responses交还给ScrapyEngine(引擎)，由引擎交给Spider来处理。
Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)。
Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方。
Downloader Middlewares（下载中间件）：一个可以自定义扩展下载功能的组件。
Spider Middlewares（Spider中间件）：一个可以自定扩展和操作引擎和Spider中间通信的功能组件。

Scrapy运行流程原理

在这里插入图片描述

Scrapy的工作流程

1.引擎从爬虫的起始URL开始，发送请求至调度器。

2.调度器将请求放入队列中，并等待下载器处理。

3.下载器将请求发送给网站服务器，并下载网页内容。

4.下载器将下载的网页内容返回给引擎。

5.引擎将下载的网页内容发送给爬虫进行解析。

6.爬虫解析网页内容，并提取需要的数据。

7.管道将爬虫提取的数据进行处理，并保存到本地文件或数据库中。

Scrapy的优点

1.高效：Scrapy使用Twisted事件驱动框架，可以同时处理数千个并发请求。

2.可扩展：Scrapy提供了丰富的扩展接口，可以通过编写自定义的中间件来扩展其功能。

3.灵活：Scrapy支持多种数据格式的爬取和处理，包括HTML、XML、JSON等。

4.易于使用：Scrapy提供了丰富的文档和示例，可以快速入门。

Scrapy基本使用(豆瓣网为例)

🧾 安装scrapy模块:

pip install Scrapy

在这里插入图片描述

创建项目

🧾 🧾选择需要创建项目的位置
🎯进入cmd命令窗口（win+r），或者pycharm中打开终端也可以。
第一种方式：
在这里插入图片描述
第二种方式:

🎯进入到需要创建文件的盘符，在命令窗口使用命令（C:/D:/E:/F:）进入对应的盘符

🎯进入需要创建的路径：cd 路径

cd D:\新建文件夹\pythonProject1\测试\scrapy入门

在这里插入图片描述

🎯 当输入命令的前面部分出现对应的路径，代表进入成功

🎯检测scrapy是否成功，直接输入scrapy按确认，
注意：如果没有成功（需要配置pip的环境变量，检测scrapy是否下载成功，是否安装到了其他的解释器中）
在这里插入图片描述

🎯创建项目，使用命令在命令窗口输入：

scrapy startproject douban     # douban是项目的名称

🎯确认输入的命令后，会在当前路径下创建一个项目,以下为成功案例:
在这里插入图片描述

New Scrapy project 'douban', using template directory 'D:\Python3.10\Lib\site-packages\scrapy\templates\project', created in:D:\新建文件夹\pythonProject1\测试\scrapy入门\doubanYou can start your first spider with:cd doubanscrapy genspider example example.com

🎯创建完成后,如果没有出现文件，进行刷新即可
在这里插入图片描述

创建爬虫

🧾 🧾 进入到spiders文件下创建创建爬虫文件
cd 到spiders文件下

例如：

cd douban\douban\spiders

在这里插入图片描述

🎯创建爬虫命令：
[scrapy genspider 爬虫的名称爬虫网站]

爬虫的名称不能和项目名称一样
爬虫的网站是主网站即可

🎯成功后返回如下

Created spider 'douban_data' using template 'basic' in module:{spiders_module.__name__}.{module}

在这里插入图片描述

配置爬虫

# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36'
# Obey robots.txt rules
ROBOTSTXT_OBEY = False

在这里插入图片描述

运行爬虫

🎯启动爬虫文件 scarpy crawl 爬虫名称
例如

  scrapy crawl douban_data

运行结果：
在这里插入图片描述

如何用python执行cmd命令

🧾 🧾 终端获取的数据无法进行搜索，所以我们使用python的模块来运行cmd命令，获取相同的数据，方便我们数据的搜索和筛选。

🧾 我们创建一个start的py文件，帮助我们运行程序：
方法/步骤:

打开编辑器,导入python的os模块
使用os模块中的system方法可以调用底层的cmd,其参数os.system(cmd)
sublime编辑器执行快捷键Ctrl+B执行代码,此时cmd命令执行

代码如下：

# 'scrapy crawl douban_data'import os
os.system('scrapy crawl douban_data')

运行结果（展示部分内容）：
🎯红色不是报错，是日志文件，日志输出也是红色。
在这里插入图片描述

数据解析

🧾 🧾我们需要对全部数据进行分析，拿到我们想到的数据，电影名称和电影评分:

title = re.findall('<a class="nbg" href=".*?"  title="(.*?)">', response.text)print(title)nums = re.findall('<span class="rating_nums">(.*?)</span>', response.text)print(nums)

打包数据

  # 打包数据  /在items中定义传输数据的结构(结构可以定义,或者不进行定义)item = DoubanItem()# 需要将一条数据存入到字典中for title, nums in zip(title, nums):item['title'] = titleitem['nums'] = numsyield item

在这里插入图片描述

打开管道

🎯解除注释，打开管道

在这里插入图片描述

pipeline使用注意点

1. 使用之前需要在settings中开启
2. pipeline在setting中键表示位置(即pipeline在项目中的位置可以自定义)，值表示距离引擎的远近，越近数据会越先经过：权重值小的优先执行
3. 有多个pipeline的时候，process_item的方法必须return item,否则后一个pipeline取到的数据为None值
4. pipeline中process_item的方法必须有，否则item没有办法接受和处理
5. process_item方法接受item和spider，其中spider表示当前传递item过来的spider
6. open_spider(self, spider) :能够在爬虫开启的时候执行一次
7. close_spider(self, spider) :能够在爬虫关闭的时候执行一次
8. 上述俩个方法经常用于爬虫和数据库的交互，在爬虫开启的时候建立和数据库的连接，在爬虫关闭的时候断开和数据库的连接

🎯打开管道将数据写入txt文件中


class DoubanPipeline:def __init__(self):self.f = open('data.txt', 'w+', encoding='utf-8')def process_item(self, item, spider):self.f.write(f'{item}\n')return itemdef close_spider(self, spider):self.f.close()print('文件写入完成')

🎯运行结果：

在这里插入图片描述

后记

👉👉本专栏所有文章是博主学习笔记，仅供学习使用，爬虫只是一种技术，希望学习过的人能正确使用它。
博主也会定时一周三更爬虫相关技术更大家系统学习，如有问题，可以私信我，没有回，那我可能在上课或者睡觉，写作不易，感谢大家的支持！！🌹🌹🌹

17.网络爬虫—Scrapy入门与实战

这里写目录标题 Scrapy基础Scrapy运行流程原理Scrapy的工作流程Scrapy的优点 Scrapy基本使用(豆瓣网为例)创建项目创建爬虫配置爬虫运行爬虫如何用python执行cmd命令数据解析打包数据打开管道pipeline使用注意点后记前言： 🏘️🏘️个人简介…...

编程日记 2023/4/20 1:15:49

【面试题】JavaScript 中 try...catch 的使用技巧？

大厂面试题分享面试题库前后端面试题库 （面试必备） 推荐：★★★★★ 地址：前端面试题库 web前端面试题库 VS java后端面试题库大全作为一位 Web 前端工程师，JavaScript 中的 try...catch 是我们常用的特性之一。…...

编程日记 2023/4/20 1:10:48

Java 命名格式规范

Java 命名格式规范概述简洁清爽的代码风格应该是大多数开发工程师所期待的。在编码过程中笔者常常因为起名字而纠结，夸张点可以说是编程 5 分钟，命名两小时！究竟为什么命名成为了编码中的拦路虎。每个公司都有不同的标准，目…...

编程日记 2023/5/30 11:19:42

【C++】STL中的容器适配器 stack queue 和 priority_queue 的模拟实现

STL中的容器适配器一、容器适配器1、什么是容器适配器2、STL标准库中的容器适配器二、stack的模拟实现1、stack的简单介绍2、栈的模拟实现三、queue的模拟实现1、queue的简单介绍2、queue的模拟实现四、priority_queue的模拟实现1、priority_queue的简单介绍2、priority_qu…...

编程日记 2023/5/30 13:38:06

MongoDB 聚合管道中使用算术表达式运算符

算术表达式运算符主要用于实现数字之间的算术运算，主要包含了对加、减、乘、除、余数、截取、舍入等算术操作。下面我们进行详细介绍： 一、准备数据初始化商品数据 db.goods.insertMany([{ "_id": 1, name: "薯片", size: &q…...

编程日记 2023/4/20 0:55:45

代码随想录算法训练营第四十三天-动态规划5｜1049. 最后一块石头的重量 II , 494. 目标和 , 474.一和零

最后一块石头重量转化为将一个集合分隔成两个集合，两个集合之间的差值最小，就是最后剩下最小的石头重量。这里可以求集合的一个平均值，如果正好等于平均值，说明可以抵消，这时候重量为0，如果不行&#xff0c…...

编程日记 2023/5/30 10:31:06

《淘宝网店》：计算总收益

目录一、题目二、思路 1、当两个年份不一样的时候 （1）from年剩余之后的收益 （2）中间年份的全部收益 （3）to年有的收益 2、同一个年份三、代码详细注释版本： 简化注释版本&#xff…...

编程日记 2023/5/30 10:39:49

2023年03月青少年软件编程C语言一级真题答案——持续更新.....

1.字符长方形给定一个字符，用它构造一个长为4个字符，宽为3个字符的长方形，可以参考样例输出。时间限制：1000 内存限制：65536 输入输入只有一行，包含一个字符。输出该字符构成的长方形，长4个字符，宽3个字符。样例输入 * 样例输出 **** **** ****#include<bi…...

编程日记 2023/5/30 10:49:04

家用洗地机好用吗？好用的洗地机分享

洗地机是一种高效、节能、环保的清洁设备，广泛应用于各种场所的地面清洁工作。它不仅可以快速清洁地面，还可以有效去除污渍、油渍等难以清洁的污染物，让地面恢复光洁如新的状态。同时，洗地机还可以减少清洁人员的劳动强度&#xf…...

编程日记 2023/5/30 10:59:12

$\sqrt{n}$

《分解因数》：质因数分解

目录一、题目： 二、思路： 三、代码： 一、题目： 分解因数《分解因数》题目链接所谓因子分解，就是把给定的正整数a，分解成若干个素数的乘积，即 a a1 a2 a3 ... an,并且 1 < a1…...

编程日记 2023/5/30 11:13:38

(排序10)归并排序的外排序应用（文件排序）

TIPS 在一些文件操作函数当中，fputc与fgetc这两个函数都是针对字符的，如果说你需要往文件里面去放入整形啊等等，不是字符的类型，这时候就用fprintf，fscanf在参数里面数据类型控制一下就可以。但是话说回来&#xff0c…...

编程日记 2023/4/20 0:25:38

浅谈根号分治与分块

文章目录 1. 根号分治哈希冲突 2. 线性分块引入教主的魔法[CQOI2011] 动态逆序对[国家集训队] 排队[HNOI2010] 弹飞绵羊蒲公英 1. 根号分治哈希冲突题目1 n n n 个数， m m m 次操作。操作 1 为修改某一个数的值，操作 2 为查询所有满足下标模 x x x …...

编程日记 2023/4/20 0:20:37

（OpenAI）ChatGPT注册登录常见问题错误代码及其解决方法

在使用 ChatGPT 的时候我们可能会碰到一些错误的代码，本文统一来介绍一下每一种错误以及解决方法。错误代码1. 不能在当前国家使用出现场景：一般在注册或登录的时候会出现。原因：主要是ChatGPT检测到当前访问所在的地区不允许访问导致。 …...

编程日记 2023/5/30 12:32:00

MySQL主从复制、读写分离（MayCat2)实现数据同步

文章目录 1.MySQL主从复制原理。2.实现MySQL主从复制（一主两从）。3.基于MySQL一主两从配置，完成MySQL读写分离配置。（MyCat2） 1.MySQL主从复制原理。 MySQL主从复制是一个异步的复制过程，底层是基于Mysql数…...

编程日记 2023/5/30 12:40:39

Linux 云服务器好用吗？（解读Linux云服务器的特点优势）

　　如今，云计算越来越受欢迎，许多公司正在将业务转移到那里。企业向云过渡的主要原因是它提供的众多服务，包括安全和充足的存储、数据库、服务器和其他关键元素。作为相对前|沿的技术之一，云建立在虚拟服务器上。Linux 服务器…...

编程日记 2023/5/30 12:50:46

研读Rust圣经解析——Rust learn-8（match,if-let简洁控制流，包管理）

研读Rust圣经解析——Rust learn-8（match,if-let简洁控制流，包管理） matchother和占位符_区别 easy matchenum matchno valuematch inner Option matchmore better way if-let整洁控制包管理模块(mod)拆分声明modpub公开use展开引用拆解模块结…...

编程日记 2023/6/1 5:00:53

G8期刊《全体育》期刊简介及投稿要求

G8期刊《全体育》期刊简介及投稿要求《全体育》是由湖南体育产业集团有限公司主管、体坛传媒集团股份有限公司主办、中教体育出版发行的体育综合性期刊。主管：湖南体育产业集团有限公司主办：体坛传媒集团股份有限公司国内刊号：CN4…...

编程日记 2023/5/31 15:08:25

数据结构和算法学习记录——层序遍历（层次遍历）、二叉树遍历的应用（输出二叉树中的叶节点、求二叉树的高度、二元运算表达式树及其遍历、由两种遍历序列确定二叉树）

目录层序遍历思路图解代码实现二叉树遍历的应用输出二叉树中的叶节点代码实现求二叉树的高度思路图解代码实现二元运算表达式树及其遍历由两种遍历序列确定二叉树层序遍历层序遍历可以通过一个队列来实现，其基本过程为： 先根…...

编程日记 2023/5/30 14:19:31

【Neo4j数据库】图数据库_Neo4j增加节点（关系）、查询、删除数据库等操作解析（Cypher语句）

【Neo4j数据库】图数据库_Neo4j增加节点（关系）、查询、删除操作解析（Cypher语句） 文章目录【Neo4j数据库】图数据库_Neo4j增加节点（关系）、查询、删除操作解析（Cypher语句）1. 介绍2…...

编程日记 2023/5/30 14:31:12

Linux移动文件和文件夹（目录）命令

命令mv 英文move 翻译移动 mv命令可以移动文件或文件夹（目录），也可以重命令（覆盖）文件。 1. 移动文件/重命名单纯地移动某一个文件直接使用： mv <源文件名称/地址> <新文件名称/地址>这个方法…...

编程日记 2023/5/30 14:14:53

Python｜GIF 解析与构建（5）：手搓截屏和帧率控制

目录 Python｜GIF 解析与构建（5）：手搓截屏和帧率控制一、引言二、技术实现：手搓截屏模块 2.1 核心原理 2.2 代码解析：ScreenshotData类 2.2.1 截图函数：capture_screen 三、技术实现&…...

编程新知 2025/9/19 8:02:57

未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？

编辑：陈萍萍的公主一点人工一点智能未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战，在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…...

编程新知 2025/11/3 12:19:07

label-studio的使用教程(导入本地路径)

文章目录 1. 准备环境2. 脚本启动2.1 Windows2.2 Linux 3. 安装label-studio机器学习后端3.1 pip安装(推荐)3.2 GitHub仓库安装 4. 后端配置4.1 yolo环境4.2 引入后端模型4.3 修改脚本4.4 启动后端 5. 标注工程5.1 创建工程5.2 配置图片路径5.3 配置工程类型标签5.4 配置模型5.…...

编程新知 2025/10/30 6:24:43

AI Agent与Agentic AI：原理、应用、挑战与未来展望

文章目录一、引言二、AI Agent与Agentic AI的兴起2.1 技术契机与生态成熟2.2 Agent的定义与特征2.3 Agent的发展历程三、AI Agent的核心技术栈解密3.1 感知模块代码示例：使用Python和OpenCV进行图像识别 3.2 认知与决策模块代码示例：使用OpenAI GPT-3进…...

编程新知 2025/11/1 7:21:19

FFmpeg 低延迟同屏方案

引言在实时互动需求激增的当下，无论是在线教育中的师生同屏演示、远程办公的屏幕共享协作，还是游戏直播的画面实时传输，低延迟同屏已成为保障用户体验的核心指标。FFmpeg 作为一款功能强大的多媒体框架，凭借其灵活的编解码、数据…...

编程新知 2025/9/28 21:29:01

在HarmonyOS ArkTS ArkUI-X 5.0及以上版本中，手势开发全攻略：

在 HarmonyOS 应用开发中，手势交互是连接用户与设备的核心纽带。ArkTS 框架提供了丰富的手势处理能力，既支持点击、长按、拖拽等基础单一手势的精细控制，也能通过多种绑定策略解决父子组件的手势竞争问题。本文将结合官方开发文档&#xff0c…...

编程新知 2025/9/19 4:31:58

基于Docker Compose部署Java微服务项目

一. 创建根项目根项目（父项目）主要用于依赖管理一些需要注意的点： 打包方式需要为 pom<modules>里需要注册子模块不要引入maven的打包插件，否则打包时会出问题 <?xml version"1.0" encoding"UTF-8…...

编程新知 2025/11/3 0:30:34

在Ubuntu24上采用Wine打开SourceInsight

1. 安装wine sudo apt install wine 2. 安装32位库支持，SourceInsight是32位程序 sudo dpkg --add-architecture i386 sudo apt update sudo apt install wine32:i386 3. 验证安装 wine --version 4. 安装必要的字体和库（解决显示问题） sudo apt install fonts-wqy…...

编程新知 2025/10/14 0:47:25

[免费]微信小程序问卷调查系统(SpringBoot后端+Vue管理端)【论文+源码+SQL脚本】

大家好，我是java1234_小锋老师，看到一个不错的微信小程序问卷调查系统(SpringBoot后端Vue管理端)【论文源码SQL脚本】，分享下哈。项目视频演示【免费】微信小程序问卷调查系统(SpringBoot后端Vue管理端) Java毕业设计_哔哩哔哩_bilibili 项…...

编程新知 2025/11/2 20:24:05

【Linux】Linux 系统默认的目录及作用说明

博主介绍：✌全网粉丝23W，CSDN博客专家、Java领域优质创作者，掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域✌ 技术范围：SpringBoot、SpringCloud、Vue、SSM、HTML、Nodejs、Python、MySQL、PostgreSQL、大数据、物…...

编程新知 2025/10/29 23:03:35

这里写目录标题

Scrapy基础

Scrapy运行流程原理

Scrapy的工作流程

Scrapy的优点

Scrapy基本使用(豆瓣网为例)

创建项目

创建爬虫

配置爬虫

运行爬虫

如何用python执行cmd命令

数据解析

打包数据

打开管道

pipeline使用注意点

后记

相关文章：