当前位置：首页 > news >正文

scrapy案例教程

news 2025/11/26 22:20:07

文章目录

1 scrapy简介
2 创建项目
3 自定义初始化请求url
4 定义item
5 定义管道

1 scrapy简介

scrapy常用命令
|命令 | 格式 |说明|
|–|–|–|
|startproject |scrapy startproject <项目名> |创建一个新项目|
|genspider| scrapy genspider <爬虫文件名> <域名> |新建爬虫文件。
|runspider| scrapy runspider <爬虫文件> |运行一个爬虫文件，不需要创建项目。
|crawl| scrapy crawl |运行一个爬虫项目，必须要创建项目。
|list |scrapy list |列出项目中所有爬虫文件。
|view| scrapy view <url地址>| 从浏览器中打开 url 地址。
|shell| csrapy shell <url地址> |命令行交互模式。
|settings |scrapy settings |查看当前项目的配置信息。
项目的目录树结构
Scrapy 五大组件

名称	作用说明
Engine(引擎)	整个 Scrapy 框架的核心，主要负责数据和信号在不同模块间传递。
Scheduler(调度器)	用来维护引擎发送过来的 request 请求队列。
Downloader(下载器)	接收引擎发送过来的 request 请求，并生成请求的响应对象，将响应结果返回给引擎。
Spider(爬虫程序)	处理引擎发送过来的 response，主要用来解析、提取数据和获取需要跟进的二级URL，然后将这些数据交回给引擎。
Pipeline(项目管道)	用实现数据存储，对引擎发送过来的数据进一步处理，比如存 MySQL 数据库等。

两大中间件
下载器中间件，位于引擎和下载器之间，主要用来包装 request 请求头，比如 UersAgent、Cookies 和代理 IP 等
蜘蛛中间件，位于引擎与爬虫文件之间，它主要用来修改响应对象的属性。
工作流程图

2 创建项目

# 创建项目
scrapy startproject Medical
# 进入项目
cd Medical
# 创建爬虫文件
scrapy genspider medical www.baidu.com

3 自定义初始化请求url

import scrapy
import json
from scrapy.http import Response
from Medical.items import MedicalItem
from tqdm import tqdm'''
具体的爬虫程序
'''class MedicalSpider(scrapy.Spider):name = "medical"allowed_domains = ["beian.cfdi.org.cn"]# start_urls = ["https://beian.cfdi.org.cn/CTMDS/pub/PUB010100.do?method=handle05&_dt=20231101162330"]# 重写第一次请求处理函数def start_requests(self):start_url = 'https://www.baidu.com/CTMDS/pub/PUB010100.do?method=handle05&_dt=20231101162330'# 发送post请求data = {'pageSize': '1353','curPage': '1',}yield scrapy.FormRequest(url=start_url, formdata=data, callback=self.parse)def parse(self, response):# 转换为jsonjsonRes = json.loads(response.body)# 查看响应状态码status = jsonRes['success']# 如果状态为Trueif status:# 获取数据dataList = jsonRes['data']# 调用详细方法，发起请求（循环发起）for row in tqdm(dataList,desc='爬取进度'):# 请求详情页urlurlDetail = f"https://www.baidu.com/CTMDS/pub/PUB010100.do?method=handle04&compId={row['companyId']}"# 发起请求yield scrapy.Request(url=urlDetail, callback=self.parseDetail, meta={'row': row})def parseDetail(self, response: Response):# new 一个MedicalItem实例item = MedicalItem()# 获取上次请求的数据源row = response.meta['row']item['companyId'] = row['companyId']item['linkTel'] = row['linkTel']item['recordNo'] = row['recordNo']item['areaName'] = row['areaName']item['linkMan'] = row['linkMan']item['address'] = row['address']item['compName'] = row['compName']item['recordStatus'] = row['recordStatus']item['cancelRecordTime'] = row.get('cancelRecordTime', '')# 获取备案信息divTextList = response.xpath("//div[@class='col-md-8 textlabel']/text()").extract()# 去空白divtextList = [text.strip() for text in divTextList]compLevel = ''if len(divtextList) > 2:compLevel = divtextList[2]recordTime = ''if len(divtextList) > 5:recordTime = divtextList[6]item['compLevel'] = compLevelitem['recordTime'] = recordTime# 获取其他机构地址divListOther = response.xpath("//div[@class='col-sm-8 textlabel']/text()").extract()# 去空白divtextListOther = [text.strip() for text in divListOther]otherOrgAdd = ','.join(divtextListOther)item['otherOrgAdd'] = otherOrgAdd# 获取备案专业和主要研究者信息trList = response.xpath("//table[@class='table table-striped']/tbody/tr")tdTextList = [tr.xpath("./td/text()").extract() for tr in trList]item['tdTextList'] = tdTextList# 返回itemyield item

4 定义item

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html
import scrapyclass MedicalItem(scrapy.Item):# define the fields for your item here like:# 省份/地区areaName = scrapy.Field()# 公司idcompanyId = scrapy.Field()# 公司名称compName = scrapy.Field()# 公司等级compLevel = scrapy.Field()# 联系人linkMan = scrapy.Field()# 联系电话linkTel = scrapy.Field()# 备案号recordNo = scrapy.Field()# 地址address = scrapy.Field()# 备案状态recordStatus = scrapy.Field()# 取消备案时间cancelRecordTime = scrapy.Field()# 备案时间recordTime = scrapy.Field()# 其他机构地址otherOrgAdd = scrapy.Field()# 子表详情(矩阵)tdTextList = scrapy.Field()

5 定义管道

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html# useful for handling different item types with a single interface
from itemadapter import ItemAdapter
import pymysqlfrom Medical.items import MedicalItemclass MedicalPipeline:# 开始def open_spider(self, spider):# 初始化数据库self.db = pymysql.connect(host='localhost',port=3306,user='root',password='logicfeng',database='test2')# 创建游标对象self.cursor = self.db.cursor()def process_item(self, item, spider):companyId = item['companyId']linkTel = item['linkTel']recordNo = item['recordNo']areaName = item['areaName']linkMan = item['linkMan']address = item['address']compName = item['compName']recordStatus = item['recordStatus']cancelRecordTime = item.get('cancelRecordTime', '')compLevel = item.get('compLevel', '')recordTime = item.get('recordTime', '')otherOrgAdd = item.get('otherOrgAdd', '')tdTextList = item['tdTextList']sql1 = "insert INTO medical_register(company_id,area_name,record_no,comp_name,address,link_man,link_tel,record_status,comp_level,record_time,cancel_record_time,other_org_add) "sql2 = f"values('{companyId}','{areaName}','{recordNo}','{compName}','{address}','{linkMan}','{linkTel}','{recordStatus}','{compLevel}','{recordTime}','{cancelRecordTime}','{otherOrgAdd}')"sql3 = sql1 + sql2# 执行sqlself.cursor.execute(sql3)# 提交self.db.commit()for tdText in tdTextList:tdText.insert(0,companyId)# 插入数据库sql4 = "insert into medical_register_sub (company_id,professional_name,principal_investigator,job_title) values(%s,%s,%s,%s)"self.cursor.execute(sql4, tdText)# 提交到数据库self.db.commit()return itemdef close_spider(self, spider):self.cursor.close()self.db.close()print("关闭数据库！")

scrapy案例教程

文章目录 1 scrapy简介2 创建项目3 自定义初始化请求url4 定义item5 定义管道 1 scrapy简介 scrapy常用命令 |命令 | 格式 |说明| |–|–|–| |startproject |scrapy startproject <项目名> |创建一个新项目| |genspider| scrapy genspider <爬虫文件名> <域名…...

编程日记 2023/11/10 2:52:17

1-3 docker 安装 prometheus

一、环境 1、环境准备安装Docker 镜像加速安装 docker 检查版本安装Docker-compose 二、Docker-compose 安装 Prometheus 1、【方式一】手动创建 docker-compose 和配置文件创建prometheus监控的文件夹创建alertmanager的配置文件 - config.yml 新建grafana的…...

编程日记 2023/11/10 2:50:15

Mac使用brew搭建kafka集群

1. 第一步：单机搭建单机搭建： 安装完后，默认自动安装对应版本zookeeper brew install kafka2.第二步：修改配置文件: 配置3个Kafka 第一个（使用默认配置） vi /opt/homebrew/etc/kafka/server.propertie…...

编程日记 2023/11/10 2:49:14

图形界面应用案例——关灯游戏（以及扩展）（python）

7.8 图形界面应用案例——关灯游戏题目： [案例]游戏初步——关灯游戏。关灯游戏是很有意思的益智游戏，玩家通过单击关掉(或打开)一盏灯。如果关(掉（或打开)一个电灯，其周围(上下左右)的电灯也会触及开关，成功地关掉所有电灯即可过关。图7-43 关灯游戏运行效…...

编程日记 2023/11/10 2:48:13

Android平台上执行C/C++可执行程序，linux系统编程开发，NDK开发前奏。

Android平台上执行C/C可执行程序，linux系统编程开发，NDK开发前奏准备。 1.下载NDK，搭建NDK开发环境下载地址 https://developer.android.com/ndk/downloads 下载过程中点击下面箭头的地方，点击鼠标右键，复制好下载…...

编程日记 2023/11/10 2:47:12

官方文档：https://www.elastic.co/guide/en/elasticsearch/reference/current/elasticsearch-intro.html ES版本：8.10 By default, Elasticsearch indexes all data in every field and each indexed field has a dedicated, optimized data structure…...

编程日记 2023/11/10 2:46:11

pytorch中常用的损失函数

1 损失函数的作用损失函数是模型训练的基础，并且在大多数机器学习项目中，如果没有损失函数，就无法驱动模型做出正确的预测。通俗地说，损失函数是一种数学函数或表达式，用于衡量模型在某些数据集上的表现。损失函数在…...

编程日记 2023/11/10 2:45:10

申克SCHENCK动平衡机显示器维修CAB700系统控制面板

适用电枢转子的卧式平衡机，高测量率，自动测量循环，自动定标完整的切槽计数可选项，CAB700动平衡测量系统两种皮带驱动方式(上置式或下置式)适用于站立或坐姿操作的人性化工作台设计。动平衡机申克控制器面板维修型号：V…...

编程日记 2023/11/10 2:44:06

【论文阅读】PSDF Fusion：用于动态 3D 数据融合和场景重建的概率符号距离函数

【论文阅读】PSDF Fusion：用于动态 3D 数据融合和场景重建的概率符号距离函数 Abstract1 Introduction3 Overview3.1 Hybrid Data Structure3.2 3D Representations3.3 Pipeline 4 PSDF Fusion and Surface Reconstruction4.1 PSDF Fusion4.2 Inlier Ratio Evaluati…...

编程日记 2023/11/10 2:43:05

React 测试笔记 03 - 测试 Redux 中 Reducer 状态变化

React 测试笔记 03 - 测试 Redux 中 Reducer 状态变化这段时间都在重构代码，把本来奇奇怪怪(singleton)的实现改成用 redux 的实现，然后就突然想到……即然 redux 的改变不涉及到 UI 的改变，那么是不是说可以单独写 redux 的测试……&#…...

编程日记 2023/11/10 2:42:03

xilinx primitives(原语)

Xilinx的原语分为10类，包括：计算组件，IO端口组件，寄存器/锁存器，时钟组件，处理器组件，移位寄存器，配置和检测组件，RAM/ROM组件，Slice/CLB组件，G-t…...

编程日记 2023/11/10 2:41:03

机器学习 - DBSCAN聚类算法：技术与实战全解析

目录一、简介DBSCAN算法的定义和背景聚类的重要性和应用领域DBSCAN与其他聚类算法的比较二、理论基础密度的概念核心点、边界点和噪声点DBSCAN算法流程邻域的查询聚类的形成过程参数选择的影响三、算法参数eps（邻域半径）举例说明：如何选择…...

编程日记 2023/11/10 2:40:02

kafka微服务学习

消息中间件对比： 1、吞吐、可靠性、性能 Kafka安装 Kafka对于zookeeper是强依赖，保存kafka相关的节点数据，所以安装Kafka之前必须先安装zookeeper Docker安装zookeeper 下载镜像： docker pull zookeeper:3.4.14创建容器 do…...

编程日记 2023/11/10 2:39:01

5G网络切片，到底是什么？

网络切片，是5G引入的一个全新概念。一看到切片，首先想到的，必然是把一个完整的东西切成薄片。于是，切面包或者切西瓜这样的画面，映入脑海。添加图片注释，不超过 140 字（可选） 然而…...

编程日记 2023/11/10 2:38:00

linux安装nodejs

写在前面因为工作需要，需要使用到nodejs，所以这里简单记录下学习过程。 1：安装 wget https://nodejs.org/dist/v14.17.4/node-v14.17.4-linux-x64.tar.xz tar xf node-v14.17.4-linux-x64.tar.xz mkdir /usr/local/lib/node // 这一步骤根…...

编程日记 2023/11/10 2:36:59

第1天：Python基础语法（一）

** 1、Python简介 ** Python是一种高级、通用的编程语言，由Guido van Rossum于1989年创造。它被设计为易于阅读和理解，具有简洁而清晰的语法，使得初学者和专业开发人员都能够轻松上手。 Python拥有丰富的标准库，提供了广泛的功…...

编程日记 2023/11/10 2:35:58

ppt聚光灯效果

1.放入三张图片内容或其他 2.全选复制成图片 3.设置黑色矩形，透明度30% 4.粘贴复制后的图片，制定图层 5.插入椭圆，先选中矩形，再选中椭圆，点击绘图工具，选择相交即可（关键）...

编程日记 2023/11/10 2:34:57

图文解析 Nacos 配置中心的实现

目录一、什么是 Nacos 二、配置中心的架构三、Nacos 使用示例 （一）官方代码示例 （二）Properties 解读 （三）配置项的层级设计 （四）获取配置 （五）注册…...

编程日记 2023/11/10 2:33:54

P1918 保龄球

Portal. 记录每一个瓶子数对应的位置即可。注意到值域很大（ a i ≤ 1 0 9 a_i\leq 10^9 ai≤109），要用 map 存储。 #include <bits/stdc.h> using namespace std;map<int,int> p;int main() {int n;cin>>n;for(int i…...

编程日记 2023/11/10 2:32:53

SAP-PP-报错：工作中心 7333_JQ 工厂 7331 对任务清单类型 N 不存在

创建工艺路线时报错：工作中心 7333_JQ 工厂 7331 对任务清单类型 N 不存在， 这是因为在创建工作中心时未维护控制键值导致的...

编程日记 2023/11/10 2:31:52

React Native 导航系统实战（React Navigation）

导航系统实战（React Navigation） React Navigation 是 React Native 应用中最常用的导航库之一，它提供了多种导航模式，如堆栈导航（Stack Navigator）、标签导航（Tab Navigator）和抽屉…...

编程新知 2025/10/15 5:04:46

基于ASP.NET+ SQL Server实现（Web）医院信息管理系统

医院信息管理系统 1. 课程设计内容在 visual studio 2017 平台上，开发一个“医院信息管理系统”Web 程序。 2. 课程设计目的综合运用 c#.net 知识，在 vs 2017 平台上，进行 ASP.NET 应用程序和简易网站的开发；初步熟悉开发一…...

编程新知 2025/11/22 18:00:45

8k长序列建模，蛋白质语言模型Prot42仅利用目标蛋白序列即可生成高亲和力结合剂

蛋白质结合剂（如抗体、抑制肽）在疾病诊断、成像分析及靶向药物递送等关键场景中发挥着不可替代的作用。传统上，高特异性蛋白质结合剂的开发高度依赖噬菌体展示、定向进化等实验技术，但这类方法普遍面临资源消耗巨大、研发周期冗长…...

编程新知 2025/11/23 6:02:35

【SpringBoot】100、SpringBoot中使用自定义注解+AOP实现参数自动解密

在实际项目中，用户注册、登录、修改密码等操作，都涉及到参数传输安全问题。所以我们需要在前端对账户、密码等敏感信息加密传输，在后端接收到数据后能自动解密。 1、引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId...

编程新知 2025/10/30 6:37:10

如何在看板中有效管理突发紧急任务

在看板中有效管理突发紧急任务需要：设立专门的紧急任务通道、重新调整任务优先级、保持适度的WIP（Work-in-Progress）弹性、优化任务处理流程、提高团队应对突发情况的敏捷性。其中，设立专门的紧急任务通道尤为重要，这能…...

编程新知 2025/11/18 1:06:11

MODBUS TCP转CANopen 技术赋能高效协同作业

在现代工业自动化领域，MODBUS TCP和CANopen两种通讯协议因其稳定性和高效性被广泛应用于各种设备和系统中。而随着科技的不断进步，这两种通讯协议也正在被逐步融合，形成了一种新型的通讯方式——开疆智能MODBUS TCP转CANopen网关KJ-TCPC-CANP…...

编程新知 2025/11/26 11:51:07

在Ubuntu中设置开机自动运行（sudo）指令的指南

在Ubuntu系统中，有时需要在系统启动时自动执行某些命令，特别是需要 sudo权限的指令。为了实现这一功能，可以使用多种方法，包括编写Systemd服务、配置 rc.local文件或使用 cron任务计划。本文将详细介绍这些方法，并提供…...

编程新知 2025/10/28 23:14:00

DeepSeek 技术赋能无人农场协同作业：用 AI 重构农田管理 “神经网”

目录一、引言二、DeepSeek 技术大揭秘2.1 核心架构解析2.2 关键技术剖析三、智能农业无人农场协同作业现状3.1 发展现状概述3.2 协同作业模式介绍四、DeepSeek 的 “农场奇妙游”4.1 数据处理与分析4.2 作物生长监测与预测4.3 病虫害防治4.4 农机协同作业调度五、实际案例大…...

编程新知 2025/9/24 13:35:36

Redis的发布订阅模式与专业的 MQ（如 Kafka, RabbitMQ）相比，优缺点是什么？适用于哪些场景？

Redis 的发布订阅（Pub/Sub）模式与专业的 MQ（Message Queue）如 Kafka、RabbitMQ 进行比较，核心的权衡点在于：简单与速度 vs. 可靠与功能。下面我们详细展开对比。 Redis Pub/Sub 的核心特点它是一个发后…...

编程新知 2025/8/21 20:41:27

django blank 与 null的区别

1.blank blank控制表单验证时是否允许字段为空 2.null null控制数据库层面是否为空但是，要注意以下几点： Django的表单验证与null无关：null参数控制的是数据库层面字段是否可以为NULL，而blank参数控制的是Django表单验证时字…...

编程新知 2025/7/7 3:34:13

scrapy案例教程

文章目录

1 scrapy简介

2 创建项目

3 自定义初始化请求url

4 定义item

5 定义管道

相关文章：

scrapy案例教程

1-3 docker 安装 prometheus

Mac使用brew搭建kafka集群

图形界面应用案例——关灯游戏（以及扩展）（python）

Android平台上执行C/C++可执行程序，linux系统编程开发，NDK开发前奏。

elasticsearch 基本使用，ES8.10

pytorch中常用的损失函数

申克SCHENCK动平衡机显示器维修CAB700系统控制面板

【论文阅读】PSDF Fusion：用于动态 3D 数据融合和场景重建的概率符号距离函数

React 测试笔记 03 - 测试 Redux 中 Reducer 状态变化

xilinx primitives(原语)

机器学习 - DBSCAN聚类算法：技术与实战全解析

kafka微服务学习

5G网络切片，到底是什么？

linux安装nodejs

第1天：Python基础语法（一）

ppt聚光灯效果

图文解析 Nacos 配置中心的实现

P1918 保龄球

SAP-PP-报错：工作中心 7333_JQ 工厂 7331 对任务清单类型 N 不存在

React Native 导航系统实战（React Navigation）

基于ASP.NET+ SQL Server实现（Web）医院信息管理系统

8k长序列建模，蛋白质语言模型Prot42仅利用目标蛋白序列即可生成高亲和力结合剂

【SpringBoot】100、SpringBoot中使用自定义注解+AOP实现参数自动解密

如何在看板中有效管理突发紧急任务

MODBUS TCP转CANopen 技术赋能高效协同作业

在Ubuntu中设置开机自动运行（sudo）指令的指南

DeepSeek 技术赋能无人农场协同作业：用 AI 重构农田管理 “神经网”

Redis的发布订阅模式与专业的 MQ（如 Kafka, RabbitMQ）相比，优缺点是什么？适用于哪些场景？

django blank 与 null的区别