当前位置：首页 > news >正文

实训总结-----Scrapy爬虫

news 2026/5/12 2:48:55

1.安装指令

pip install scrapy

2.创建 scrapy 项目

任意终端进入到目录(用于存储我们的项目)

scrapy startproject 项目名

会在目录下面创建一个以项目名命名的文件夹

终端也会有提示

cd 项目名

scrapy genspider example example.com

3.运行爬虫指令

scrapy crawl 爬虫名 --nolog //nolog是不看日志

4.输出 xml csv json格式的文件

scrapy crawl 爬虫名 -o 文件名

5.目录

（1）__init__.py 此文件为项目的初始化文件，主要写的是一些项目的初始化信息。

（2）items.py 爬虫项目的数据容器文件，主要用来定义我们要获取的数据

（3）piplines.py 爬虫项目的管道文件，主要用来对items里面定义的数据进行进一步的加工与处理

（4）settings.py 爬虫项目的设置文件，主要为爬虫项目的一些设置信息

（5）spiders文件夹此文件夹下放置的事爬虫项目中的爬虫部分相关

6.novel.py文件

import scrapy
from scrapy import Selector
# scrapy01 文件的名字
# items scrapy01文件下面的名字
# Scrapy01Item items里面的类名
from scrapy01.items import Scrapy01Itemclass NovelSpider(scrapy.Spider):# 爬虫名name = "novel"#允许爬取的域名allowed_domains = ["www.shicimingju.com"]# 爬取的具体地址 必须在 允许域名的下面 子域名start_urls = ["https://www.shicimingju.com/book/hongloumeng.html"]# parse 爬取到数据 默认/调用的def parse(self, response):# response 已经 是爬取的结果 requests.get()sel = Selector(response)li_list = sel.css('div.book-mulu > ul > li')for li_item in li_list:novel_item = Scrapy01Item()# 章节是 a标签内容# 取标签内容 标签名::text# extract() 所有的标签# extract_first() 第一个标签chapter = li_item.css('a::text').extract_first()# 链接是 a标签属性# 取标签属性值  标签名::(属性)url = li_item.css("a::attr(href)").extract_first()# novel_item的字段和 items.py里面 定义的模型 对应novel_item['chapter'] = chapternovel_item['url'] = urlprint("novel_item:",novel_item)# return novel_item # 循环一次就出去了yield novel_item # yield 迭代器
# 配置伪装 头  settings里面配置 17行

7.piplines.py文件对数据进行json和xlsx导出

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html# useful for handling different item types with a single interface
import jsonimport openpyxl
from itemadapter import ItemAdapterclass Scrapy01XlsxPipeline:def __init__(self):print('init---------初始化')# 创建工作库self.wb = openpyxl.Workbook()# 获取激活的工作self.ws = self.wb.activeself.ws.title = '红楼梦'# 参数是元组self.ws.append(('章节','地址'))# item就是爬虫文件 解析/parse的数据def process_item(self, item, spider):print('process_item-----钩子----数据',item)# item.['chapter']chapter = item.get('chapter','默认值')url = item.get('url') or ''# 追加数据self.ws.append((chapter,url))return item# 开始爬取 必须写第二个参数spiderdef open_spider(self,spider):print('打开蜘蛛')# 爬取完毕def close_spider(self,spider):self.wb.save('红楼梦1.xslx')print('爬取完毕')class Scrapy01JsonPipeline:def __init__(self):# 存储爬取的数据self.data = []self.fp = open("./练习.json",'w',encoding='utf-8')# 拿到数据就走def process_item(self,item,spider):url = item.get("url") or ''chapter = item.get("chapter",'')# 添加爬取数据self.data.append((chapter,url))# 防止每爬取一次数据就写一次if len(self.data)>50:json.dump(self.data,self.fp,ensure_ascii=False)self.data.clear()return itemdef close_spider(self,spider):if len(self.data) > 0:json.dump(self.data, self.fp, ensure_ascii=False)self.fp.close()print('关闭')
# 共52条数据
# 节流 51次写入一次 置空
# 第52次 完了走关闭 发现还有一条数据写入

8.items.py

import scrapyclass Scrapy01Item(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()# passchapter = scrapy.Field()# 存储 章节内容的urlurl=scrapy.Field()# 根据自己的需求 定义字段 N个

9.settings.py文件

1.USER_AGENT需要打开爬取数据

USER_AGENT ="Mozilla/5.0 (Windows NT 10.0;Win64;x64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.57"

2.开启管道，Scrapy01XlsxPipeline和Scrapy01JsonPipeline都是iplines.py文件中的类名。

# 开启管道 配置多个管道 数字越小优先级越小
# Scrapy01XlsxPipeline 管道文件类名
ITEM_PIPELINES = {"scrapy01.pipelines.Scrapy01XlsxPipeline": 300,"scrapy01.pipelines.Scrapy01JsonPipeline": 200,
}

实训总结-----Scrapy爬虫

1.安装指令 pip install scrapy 2.创建 scrapy 项目任意终端进入到目录(用于存储我们的项目) scrapy startproject 项目名会在目录下面创建一个以项目名命名的文件夹终端也会有提示 cd 项目名 scrapy genspider example example.com 3.运行爬虫指令 scrapy craw…...

编程日记 2023/6/8 20:03:33

前端开发职业规划指南：如何做好职业规划与发展

引言前端开发是目前互联网行业中最火热的职业之一，也是非常具有发展前景的职业之一。随着互联网技术的不断更新和发展，前端开发的职业规划也在不断地发生变化。本文将从几个方面来探讨前端开发的职业规划。一、职业发展路径 1.前端初级工程师前端初…...

编程日记 2023/6/8 19:58:31

创业第一步：如何写好商业计划书

即使你的项目不需要融资，你也把标准商业计划书作为一个工具模板来应用，帮助更全面的盘点你要做的事情。撰写一份性感的商业计划书如同造房子：第一步是科学设计，打好结构（有清晰的撰写逻辑）；第…...

编程日记 2023/6/8 19:53:31

【Linux驱动】字符设备驱动相关宏 / 函数介绍（module_init、register_chrdev）

驱动运行有两种方式： 方式一：直接编译到内核，Linux内核启动时自动运行驱动程序方式二：编译成模块，使用 insmod 命令加载驱动模块我们在调试的时候，采用第二种方式是最合适的，每次修改驱动只需…...

编程日记 2023/6/8 19:48:26

axios解决跨域问题

Vue3中使用axios访问聚合的天气API，出现跨域问题，需要在前端进行一些配置： 首先是修改vue.config.js： const { defineConfig } require(vue/cli-service) module.exports defineConfig({transpileDependencies: true,devServe…...

编程日记 2023/6/8 19:43:25

R语言作图——热图聚类及其聚类结果输出

代码不多说了，做个记录，代码如下。 library(pheatmap) library(RColorBrewer) # args commandArgs(TRUE) betafile "twist_common_panel_434.csv" infofile "twist_common_panel_434.txt" title "twist_common_panel&qu…...

编程日记 2023/6/8 19:38:24

Tomcat优化

Tomcat优化 Tomcat默认安装下的缺省配置并不适合生产环境，它可能会频繁出现假死现象需要重启，只有通过不断压测优化才能让它最高效率稳定的运行。优化主要包括三方面，分别为操作系统优化（内核参数优化），Tom…...

编程日记 2023/6/8 19:33:23

我的GIT练习TWO

目录前言 GIT安装教程 Git作者 GIT优点 GIT缺点为什么要使用 Git GIT练习TWO C1 C2 C3 C4 C5 C6 C7 总结前言 Git 是一个分布式版本控制及源代码管理工具;Git 可以为你的项目保存若干快照，以此来对整个项目进行版本管理 GIT安装教程点击进入查看教程…...

编程日记 2023/6/8 19:28:22

个人器件库整理

样品本包含如下： 电容器件： 元件值封装备注钽电容47uF 10V1206钽电容10uF 10V1206电容10uF 10% 10V0603X5R，CL10A106KP8NNNC 元件值封装备注100nF电容50V，10%0603 电阻器件： 元件值封装备注75 Ω \Omega Ω…...

编程日记 2023/6/8 19:23:21

javascript——内存管理

JavaScript内存管理是Web开发中的一个重要主题。正确管理内存可以提高应用程序的性能和稳定性。本文将介绍JavaScript中的内存管理概念、常见的内存泄漏问题以及一些有效的内存管理技巧。什么是JavaScript内存管理？ JavaScript具有自动内存管理机制，开…...

编程日记 2023/6/8 19:18:20

1、Qt Creator 4.11.2 官方下载：https://download.qt.io/archive/qtcreator/4.11/4.11.2/ 镜像下载：https://mirrors.cloud.tencent.com/qt/archive/qtcreator/4.11/4.11.2/ 2、Qt 5.15.2 Android 官方更新器内部下载参考：https://blog…...

编程日记 2023/6/8 19:13:19

第四十三章弹跳训练2（灵识扫描）

“再不脱离便会陷死在里面。”这个声音似乎来自脑海深处某个隐秘角落。双眼一睁，灵识退去，空空的头壳兀自嗡嗡作响，一股说不清道不明的失落感笼罩全身，似要将自己拖入抑郁的谷底。不！没什么好失落沮丧的！…...

编程日记 2023/6/8 19:08:19

【location对象的方法，history对象，navigator--BOM】

location对象的方法 location.assign()//跟href一样，可以跳转页面（也称重定向页面） location.replace()//替换当前页面，因为不记录历史，所以不能后退页面 location.reload()//重新加载页面，相当于刷新按钮或…...

编程日记 2023/6/8 19:03:16

论文笔记：Normalizing Flows for Probabilistic Modeling and Inference

Abstract 正则流（Normalizing flows）提供了一种通用的机制来定义富有表达力的概率分布，只需要指定一个（通常简单的）基础分布和一系列可逆变换。 Intraduction 正则流通过将简单的密度通过一系列变换来产生更丰富、可…...

编程日记 2023/6/8 18:58:15

java 异常类介绍

Java 异常（Exception）是指在程序运行期间出现的错误或异常情况。Java 异常处理机制允许程序在出现异常情况时进行处理，避免程序崩溃或出现不可预知的错误一、Java 异常的概念 Java 异常是指程序在运行期间出现的错误或异常情况。Java 异常…...

编程日记 2023/6/8 18:53:14

shiro 550 反序列化rce

Apach shiro 是一款开源安全框架，提供身份验证，授权，会话管理等。 shiro 550 反序列化漏洞rce 通关利用它反序列化的漏洞直接执行rce 加密的用户信息序列化后储存在名为remenber -me的cooike中。攻击者可以使用shiro默认密钥伪造cooike&am…...

编程日记 2023/6/8 18:48:12

【C++】---模板初阶（超详练气篇）

个人主页：平行线也会相交💪 欢迎点赞👍 收藏✨ 留言✉ 加关注💓本文由平行线也会相交原创收录于专栏【C之路】💌 本专栏旨在记录C的学习路线，望对大家有所帮助🙇‍ 希望我们一起努力、成长&…...

编程日记 2023/6/8 18:43:11

windows系统典型漏洞分析

内存结构缓冲区溢出漏洞缓冲区溢出漏洞就是在向缓冲区写入数据时，由于没有做边界检查，导致写入缓冲区的数据超过预先分配的边界，从而使溢出数据覆盖在合法数据上而引起系统异常的一种现象。 ESP、EPB ESP：扩展栈指针&#xff08…...

编程日记 2023/6/8 18:38:10

WPF开发txt阅读器：需求分析和文件读写

文章目录需求分析读取文本文件保存文本文件需求分析尽管现在比较主流的阅读格式已经是epub, modi之类的，但txt的使用范围要远比前两者广泛，所以做一个txt阅读器还是有必要的。但是对于书籍阅读而言，纯文本不包含目录信息，这…...

编程日记 2023/6/8 18:33:09

C++服务器框架开发9——日志系统LogFormatter_4/各个类的关系梳理/std::function/std::get

该专栏记录了在学习一个开发项目的过程中遇到的疑惑和问题。其教学视频见：[C高级教程]从零开始开发服务器框架(sylar) 上一篇：C服务器框架开发8——日志系统LogFormatter_3/override/宏定义优化switchcase结构 C服务器框架开发9——日志系统LogFormatt…...

编程日记 2023/6/8 18:28:07

从玩具到生产：基于run-llama/rags构建模块化RAG系统的工程实践

1. 项目概述：从“玩具”到“生产力”的RAG系统构建如果你最近在关注大语言模型的应用落地，那么“RAG”这个词一定高频出现在你的视野里。RAG，即检索增强生成，它试图解决大模型“一本正经胡说八道”和“知识陈旧”两大核心痛点。简…...

编程新知 2026/5/12 2:38:49

YouTube 转 MP3 工具里，为什么预览要放在下载前

很多转换工具看起来解决的是“我要一个 MP3 文件”，但真正影响体验的，往往不是页面上有没有下载按钮。用户真正想确认的是：这个链接是不是被正确识别了，转换任务是不是还在进行，最后得到的音频是不是值得保存。对 Yo…...

编程新知 2026/5/12 1:54:30

AI驱动的网络安全：深度学习与LLM在威胁检测与教育中的应用

1. 项目概述：AI赋能的网络安全新范式在网络安全领域，我们正面临着一个日益严峻的悖论：一方面，攻击手段正变得前所未有的复杂和自动化；另一方面，74%的安全事件仍然源于人为因素。这种技术与人的双重挑战催生…...

编程新知 2026/5/12 1:50:24

技术演讲的恐惧症：从实验室到舞台的艰难跨越

一、实验室里的从容，舞台上的慌乱对于软件测试从业者而言，实验室是我们的“舒适区”。在堆满服务器、屏幕上跳动着代码与测试用例的空间里，我们能精准定位一行代码的bug，能设计出覆盖所有场景的测试方案，能在复杂的系统…...

编程新知 2026/5/12 1:41:59

003-VXLAN集中式网关实验（命令详解版）

VXLAN集中式网关实验1（命令详解版）最近有读者私信说刚开始学习VXLAN，实战技巧薄弱、部分命令不是很理解，想循序渐进通过实验过渡到真实项目案例。下面从一个简单的集中式网关实验开始，通过2个基础实验和1个项目实验完成…...

编程新知 2026/5/12 1:33:48

从STM32到华大HC32F460：手把手移植USB HOST MSC + FatFs R0.13c（含源码对比与避坑指南）

从STM32到华大HC32F460：USB HOST MSC与FatFs移植实战全解析 1. 迁移背景与核心挑战对于长期使用STM32的嵌入式开发者而言，切换到华大半导体HC32F460系列MCU既是一次技术升级，也面临实际移植的挑战。USB HOST MSC（Mass Storage Cl…...

编程新知 2026/5/12 0:03:29