当前位置：首页 > news >正文

8章：scrapy框架

news 2026/3/26 17:48:25

文章目录

scrapy框架
如何学习框架？
什么是scarpy？
scrapy的使用步骤
- 1.先转到想创建工程的目录下：cd ...
- 2.创建一个工程
- 3.创建之后要转到工程目录下
- 4.在spiders子目录中创建一个爬虫文件
- 5.执行工程
- setting文件中的参数
scrapy数据解析
scrapy持久化存储
- 基于终端指令：
- 基于管道持久化存储操作
- 基于Spider的全站数据爬取
- 请求传参
- scrapy爬取图片

scrapy框架

如何学习框架？

专门学习框架封装的各种功能的详细用法。

什么是scarpy？

是爬虫中封装好的一个明星框架，功能：高性能的持久化存储，异步的数据下载，高性能的数据解析，分布式。

scrapy的使用步骤

1.先转到想创建工程的目录下：cd …

2.创建一个工程

scrapy startproject 工程名  （XXPro：XXproject）

3.创建之后要转到工程目录下

cd 工程名

4.在spiders子目录中创建一个爬虫文件

这里不需要切换目录，在项目目录下即可。
www.xxx.com是要爬取的网站。

scrapy genspider 爬虫文件名 www.xxx.com

5.执行工程

在pycharm中直接执行是不管用的，无效。应该再在终端中执行

scrapy crawl 爬虫文件名				# 执行的是爬虫文件

setting文件中的参数

创建好项目后，在项目的settings.py里更改老多的参数：

# Obey robots.txt rules
ROBOTSTXT_OBEY = False#显示指定类型的日志信息 而不显示其他乱七八糟的
LOG_LEVEL = 'ERROR'# 设置用户代理 浏览器类型
USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"# 取消注释改行，意味着开启管道存储。
# 300表示优先级，数值越小优先级越高	
ITEM_PIPELINES = {"weiboPro.pipelines.WeiboproPipeline": 300,
}

scrapy数据解析

爬取B站视频的作者和视频名称

代码为项目下weibo.py的代码。想爬取微博但是失败了，改成爬B站

在这里插入图片描述

extract()可以将Selector对象中data参数存储的字符串提取出来对列表调用extract后，将列表的每一个Selector对象中的data对应的字符串提取了出来将列表转为字符串： .join方法
title = [......]
title = ''.join(title)

weibo.py  爬虫文件import scrapy# 导包失败：右键项目目录 => 将目标标记为 => 源代码根目录# 爬取微博失败了，返回为空。改为爬取B站了。
# 爬取B站的视频的名称和作者
class WeiboSpider(scrapy.Spider):name = "weibo"# allowed_domains = ["weibo.com"]start_urls = ["https://www.bilibili.com/"]def parse(self, response):author = []title = []div_list = response.xpath('//*[@id="i_cecream"]/div[2]/main/div[2]/div/div[1]/div')print("数据长度为", len(div_list))for div in div_list:# xpath返回的是列表，但是列表元素一定是Selector类型的对象# extract可以将Selector对象中data参数存储的字符串提取出来author=(div.xpath('//div[@class="bili-video-card__info--right"]//a/span[@class="bili-video-card__info--author"]/text()').extract())# 对列表调用extract后，将列表的每一个Selector对象中的data对应的字符串提取了出来title=(div.xpath('//div[@class="bili-video-card__info--right"]/h3/a/text()').extract())# 将列表转为字符串： .join方法# title = ''.join(title)print(author)print(title)print(len(author), len(title))

scrapy持久化存储

基于终端指令：

scrapy crawl weibo -o ./Bzhan.csv       # weibo是爬虫文件名，./Bzhan.csv是保存到本地的路径+文件名
- 要求：只可以将parse方法的返回值存储到本地的文本文件中
- 注意：持久化存储对应的文本文件的类型只可以为：'json', 'jsonlines', 'jl', 'csv', 'xml', 'marshal', 'pickle
- 指令：scrapy crawl xxx -o filePath
- 好处：简介高效便捷
- 缺点：局限性比较强（数据只可以存储到指定后缀的文本文件中）

8章：scrapy框架

文章目录 scrapy框架如何学习框架？什么是scarpy？scrapy的使用步骤1.先转到想创建工程的目录下：cd ...2.创建一个工程3.创建之后要转到工程目录下4.在spiders子目录中创建一个爬虫文件5.执行工程setting文件中的参数 scrapy数据解析scrapy持久…...

编程日记 2023/10/5 23:25:22

软件工程与计算总结（二）软件工程的发展

本章开始介绍第二节内容，主要是一些历史性的东西~ 一.软件工程的发展脉络 1.基础环境因素的变化及其对软件工程的推动抽象软件实体和虚拟计算机都是软件工程的基础环境因素，它们能从根本上影响软件工程的生产能力，而且是软件工程无法反向…...

编程日记 2023/10/5 23:23:21

Appium开发

特点开源免费支持多个平台 IOS(苹果)、安卓App的自动化都支持支持多种类型的自动化支持苹果、安卓应用原生界面的自动化支持应用内嵌网络视图的自动化支持手机浏览器(Chrome)中的web网站自动化支持flutter应用的自动化支持多种编程语言像selenium一样，可以用多…...

编程日记 2023/10/5 23:22:20

EGL函数翻译--eglInitialize

EGL函数翻译–eglInitialize 函数名 EGLBoolean eglInitialize(EGLDisplay display,EGLInt* major,EGLInit* minor); 参数描述参数display: EGL要初始化的显示连接。参数major: 输出EGL的主版本号；参数可为空。参数minor: 输出EGL的次版本号；参数可…...

编程日记 2023/10/5 23:21:18

二项分布以及实现

文章目录前言所谓二项分布就是只会产生两种结果的概率 1.概念前言所谓二项分布就是只会产生两种结果的概率 1.概念下面是一个二项分布的的theano实现 import numpy as np import theano import theano.tensor as T from theano.tensor.nnet import conv from theano.ten…...

编程日记 2023/10/5 23:18:15

css自学框架之幻灯片展示效果

这一节，我自学了焦点图效果(自动播放，圆点控制)，首先看一下效果： 下面我们还是老思路，css展示学习三个主要步骤：一是CSS代码，二是Javascript代码，三是Html代码。一、css代码主要如…...

编程日记 2023/10/5 23:17:14

坦克世界WOT知识图谱三部曲之爬虫篇

文章目录关于坦克世界1. 爬虫任务2. 获取坦克列表3. 获取坦克具体信息结束语关于坦克世界《坦克世界》(World of Tanks, WOT)是我在本科期间玩过的一款战争网游，由Wargaming公司研发。2010年10月30日在俄罗斯首发，2011年4月12日在北美和欧洲推出&…...

编程日记 2023/10/5 23:13:10

Idea上传项目到gitlab并创建使用分支

Idea上传项目到gitlab并创建使用分支 1 配置git 在idea的setting中，找到git，配置好git的位置，点击Test按钮显示出git版本号，则说明配置成功。 2 项目中引入git Idea通过VCS，选择Create Git Repository 在弹出的对话框…...

编程日记 2023/10/5 23:09:03

3D孪生场景搭建：参数化模型

1、什么是参数化模型参数化模型是指通过一组参数来定义其形状和特征的数学模型或几何模型。这些参数可以用于控制模型的大小、形状、比例、位置、旋转、曲率等属性，从而实现对模型进行灵活的调整和变形。在计算机图形学和三维建模领域，常见的参数化模…...

编程日记 2023/10/5 23:08:03

最短路径专题6 最短路径-多路径

题目： 样例： 输入 4 5 0 2 0 1 2 0 2 5 0 3 1 1 2 1 3 2 2 输出 2 0->1->2 0->3->2 思路： 根据题意，最短路模板还是少不了的， 我们要添加的是， 记录各个结点有多少个上一个结点走动得来的…...

编程日记 2023/10/5 23:07:02

【Linux】Linux常用命令—文件管理(上)

创作不易，本篇文章如果帮助到了你，还请点赞关注支持一下♡>𖥦<)!! 主页专栏有更多知识，如有疑问欢迎大家指正讨论，共同进步！ 🔥c系列专栏：C/C零基础到精通 🔥 给大…...

编程日记 2023/10/5 23:04:59

【Python】基于OpenCV人脸追踪、手势识别控制的求生之路FPS游戏操作

【Python】基于OpenCV人脸追踪、手势识别控制的求生之路FPS游戏操作文章目录手势识别人脸追踪键盘控制整体代码附录：列表的赋值类型和py打包列表赋值BUG复现代码改进优化总结 py打包视频： 基于OpenCV人脸追踪、手势识别控制的求实之路FPS游戏操作手…...

编程日记 2023/10/5 23:02:57

import optimtool as oo from optimtool.base import np, sp, pltpip install optimtool>2.4.2约束优化算法（optimtool.constrain） import optimtool.constrain as oc oc.[方法名].[函数名]([目标函数], [参数表], [等式约束表], [不等式约数表], [初…...

编程日记 2023/10/5 23:00:55

如何查看postgresql中的数据库大小？

你可以使用以下命令来查看PostgreSQL数据库的大小： SELECT pg_database.datname as "database_name", pg_size_pretty(pg_database_size(pg_database.datname)) AS size_in_mb FROM pg_database ORDER by size_in_mb DESC;这将返回一个表格&#xff0…...

编程日记 2023/10/5 22:59:54

使用python-opencv检测图片中的人像

最简单的方法进行图片中的人像检测使用python-opencv配合yolov3模型进行图片中的人像检测 1、安装python-opencv、numpy pip install opencv-python pip install numpy 2、下载yolo模型文件和配置文件： 下载地址： https://download.csdn.net/down…...

编程日记 2023/10/5 22:57:52

项目进展（三）-电机驱动起来了，发现了很多关键点，也遇到了一些低级错误，

一、前言昨天电机没有驱动起来，头发掉一堆，不过今天，终于终于终于把电机驱动起来了！！！！，特别开心，哈哈哈哈，后续继续努力完善！！&…...

编程日记 2023/10/5 22:53:47

目标检测算法改进系列之Backbone替换为RepViT

RepViT简介轻量级模型研究一直是计算机视觉任务中的一个焦点，其目标是在降低计算成本的同时达到优秀的性能。轻量级模型与资源受限的移动设备尤其相关，使得视觉模型的边缘部署成为可能。在过去十年中，研究人员主要关注轻量级卷积神经网络&a…...

编程日记 2023/10/5 22:49:43

学习 Kubernetes的难点和安排

Kubernetes 技术栈的特点可以用四个字来概括，那就是“新、广、杂、深”： 1.“新”是指 Kubernetes 用到的基本上都是比较前沿、陌生的技术，而且版本升级很快，经常变来变去。 2.“广”是指 Kubernetes 涉及的应用领域很多、覆盖面非…...

编程日记 2023/10/5 22:47:42

【MATLAB源码-第42期】基于matlab的人民币面额识别系统（GUI）。

操作环境： MATLAB 2022a 1、算法描述基于 MATLAB 的人民币面额识别系统设计可以分为以下步骤： 1. 数据收集与预处理数据收集： 收集不同面额的人民币照片，如 1 元、5 元、10 元、20 元、50 元和 100 元。确保在不同环境、不…...

编程日记 2023/10/5 22:46:41

【软件测试】软件测试的基础概念

一、一个优秀的测试人员需要具备的素质技能方面： 优秀的测试用例设计能力：测试用例设计能力是指，无论对于什么类型的测试，都能够设计出高效的发现缺陷，保证产品质量的优秀测试用例。这就需要我们掌握设计测试用例的方…...

编程日记 2023/10/5 22:45:39

WPS宏工具实战：5分钟搞定批量图片尺寸调整（JSA/VBA双版本代码）

WPS宏工具实战：5分钟搞定批量图片尺寸调整（JSA/VBA双版本代码） 在文档处理中，批量调整图片尺寸是个高频需求。想象一下，你手头有份50页的产品手册，每页都嵌入了不同尺寸的图片，而客户要求所有图…...

编程新知 2026/3/26 17:01:19

League Akari：英雄联盟玩家的智能效率助手，提升90%游戏体验

League Akari：英雄联盟玩家的智能效率助手，提升90%游戏体验【免费下载链接】League-Toolkit 兴趣使然的、简单易用的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit …...

编程新知 2026/3/26 16:59:19

OSMnx实战：从OpenStreetMap到GeoPackage，高效构建城市路网分析数据库

1. 为什么选择OSMnx和GeoPackage处理城市路网数据第一次接触城市路网分析时，我被各种数据格式搞得头大。直到发现OSMnx这个神器，配合GeoPackage格式，工作效率直接翻倍。OSMnx是Python生态中专门处理OpenStreetMap数据的工具包，它…...

编程新知 2026/3/26 16:37:14

别再踩坑PX4Flow了！实测优象LC-302光流模块，手把手教你搞定PX4无人机室内悬停

无人机室内悬停实战指南：优象LC-302光流模块深度评测与PX4调参技巧当无人机从开阔的室外飞入复杂的室内环境，GPS信号的突然消失往往让飞手们手忙脚乱。这时，一套可靠的光流定位系统就成了"空中救生绳"。本文将带您深入评测市面上主…...

编程新知 2026/3/26 16:06:53

从零开始：OCAT图形化配置工具让OpenCore黑苹果安装变得简单

从零开始：OCAT图形化配置工具让OpenCore黑苹果安装变得简单【免费下载链接】OCAuxiliaryTools Cross-platform GUI management tools for OpenCore（OCAT） 项目地址: https://gitcode.com/gh_mirrors/oc/OCAuxiliaryTools 还在为复杂的…...

编程新知 2026/3/26 14:35:49

毕业季、返修季、投稿季：SCI论文润色，到底能不能提高接收率？

“SCI论文如果先润色，再投稿，是不是更容易被接收？”这个问题，真的每年到了这个时间点都会高频出现。尤其是3月底到4月初，很多同学刚从基金申请、毕业论文、返修修改的高压节奏里缓过来，马上又进入下一轮“赶…...

编程新知 2026/3/26 13:28:58

革新性英雄联盟效率工具：League-Toolkit为玩家打造智能游戏体验

革新性英雄联盟效率工具：League-Toolkit为玩家打造智能游戏体验【免费下载链接】League-Toolkit 兴趣使然的、简单易用的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 在快节…...

编程新知 2026/3/26 10:51:27

使用 Java 8 Lambda 和 Map 重构 If 语句

本文介绍了如何使用 Java 8 的 Lambda 表达式和 Map 优雅重构数据结构包括多个数据结构 if 句子的代码可以提高代码的可读性、可维护性和可扩展性。存储验证逻辑 Map 中，并使用 Lambda 表达式处理可以有效减少代码冗余，使其更容易扩展新的验证规则。在传…...

编程新知 2026/3/26 10:41:24

从原理到实践：Matlab相机标定参数详解与坐标变换全流程

1. 相机标定基础概念与Matlab工具箱实战刚接触相机标定的朋友可能觉得那些参数看着就头疼，其实拆解开来并不复杂。我最早做机器人视觉项目时，也是被各种矩阵绕得晕头转向，直到自己动手标定了十几台工业相机才摸清门道。相机标定的本质就是建…...

编程新知 2026/3/26 10:27:16

ollama-QwQ-32B中文优化：提升OpenClaw处理本地文档的准确率

ollama-QwQ-32B中文优化：提升OpenClaw处理本地文档的准确率 1. 为什么需要专门优化中文文档处理去年我在用OpenClaw处理公司合同时，发现一个尴尬现象：同样的合同解析任务，英文版能准确提取条款和日期，中文版却频繁出…...

编程新知 2026/3/26 8:52:38