SpiderFlow平台v0.5.0流程的执行过程
流程执行过程:
1. 流程启动
流程的执行通常从一个 开始节点 开始,该节点是整个爬虫任务的起点。开始节点没有实际的功能作用,主要作用是标记流程的起始。
- 执行顺序:在执行过程中,系统按照流程中的连接线顺序依次执行每个节点。
2. 爬取节点执行
爬取节点(通常是HTTP请求节点)是爬虫流程中的核心部分,负责发送请求并获取网页数据。
- 请求方式:根据配置,爬取节点可以发送不同类型的HTTP请求(如GET、POST等)。
- 数据解析:爬取节点获取到页面响应后,通常会继续执行数据解析操作,提取需要的信息。解析的内容可能包括HTML、JSON、XML等。
请求流程:
- 系统向目标URL发送请求。
- 处理请求参数、请求头(Headers)、Cookie等信息。
- 等待服务器返回响应数据。
- 若请求成功,则继续下一步;若失败,重试或者跳过。
3. 数据存储节点
在数据爬取后,通常需要将爬取到的数据存储到数据库、文件、CSV文件等地方。SpiderFlow 提供了多个数据输出节点:
- 数据库存储:执行SQL节点将数据插入到指定的数据库表中。
- 文件存储:通过CSV输出节点将数据写入文件。
- 输出调试:通过输出节点将结果展示在SpiderFlow界面中,方便开发调试。
4. 逻辑处理节点
爬虫流程中可能需要做一些条件判断、循环等操作,这时会使用到逻辑处理节点:
-
条件判断节点:根据某些条件(如返回的HTTP状态码、页面内容等)决定下一步要执行哪个节点。比如,若返回的页面包含某些特定关键词,则执行某个节点,反之则跳过。
-
循环节点:用于执行循环操作,适用于分页或多次执行相似任务。例如,如果需要爬取多个页面,可以在循环节点中定义分页逻辑。
5. 变量与参数传递
在执行过程中,可能需要在不同节点间传递变量或参数。SpiderFlow 允许用户动态地定义变量,并将其传递给其他节点。
- 变量定义:通过变量节点定义需要在后续节点中使用的变量(如页面的链接、提取的内容等)。
- 表达式语法:用户可以在节点中使用表达式来动态传递数据,类似于
#${variable_name}#
这样的动态变量。
6. 子流程与模块化
如果爬虫任务较为复杂,可以将任务拆分成多个子流程。这样可以提高复用性和流程的可维护性。
- 调用子流程:在主流程中使用“子流程”节点来调用其他已定义的子流程。这样子流程可以单独执行,也可以作为主流程的一部分。
7. 执行结果与错误处理
在流程执行的过程中,若出现错误或异常(例如请求失败、数据解析错误等),SpiderFlow 提供了错误处理机制。
- 重试机制:爬虫节点可以配置重试次数,若请求失败,则会进行重试操作。
- 日志输出:系统会输出执行过程中的日志,用户可以通过日志查看爬虫的执行情况,便于调试和排查问题。
8. 流程结束
当所有节点执行完毕,流程会结束。此时,SpiderFlow 会对流程执行结果进行总结,可以查看成功的记录、失败的记录和错误日志。
- 输出:执行结果可以通过日志、数据库、文件等多种方式输出。
- 清理资源:结束时,系统会进行资源清理,如关闭数据库连接、清理缓存等。
流程实例分析:
简单一句话概括就是流程会按照箭头的方向一直流转下去,个别节点会打断流转(箭头)或重复流转(循环)。下面举几个例子来说明一下。
-
流程实例一
很容易就能看出流程执行过程是:A->B->C->D,但由于A节点是循环,假设A节点循环次数是3,那么此时执行过程会变成A,A,A->B,B,B->C,C,C->D,D,D(3个A一起执行,但是顺序不固定,每执行完一个就会直接流向下一个节点,而不是等3个A都结束),当D,D,D都执行完毕时,由于没有流向下一个节点,此时整个流程结束。
由于B,C,D节点中也可以设置循环,假设C节点也设置了循环,其循环次数是2次,那么此时整个流程的执行过程是A,A,A->B,B,B->C,C,C,C,C,C->D,D,D,D,D,D(即形成了嵌套循环)
-
流程实例二
- 先说运行顺序:A->B->(C->F),(D->E)->G->H
-
- 先执行A节点
- A节点执行完毕时,执行B节点
- B节点执行完毕时,同时执行C、D节点
- C节点执行完毕时,执行F节点
- D节点执行完毕时,执行E节点
- E、F节点都执行完毕时,执行G节点(G节点是等待结束节点,所以这里会等E、F都结束,否则无论E、F哪个节点执行完毕,都会执行G节点)
- G节点执行完毕时,执行H节点
- H节点执行完毕时,流程结束
由于C节点是循环节点,假设C节点循环次数是3次,则上方从C节点开始则变成C,C,C->F,F,F->G->H
-
流程实例三
- 运行顺序:A->B->A,C->B->C
-
- 先执行A节点
- A节点执行时,执行B节点
- B节点执行完毕时,执行A、C节点
- 共计执行2次A,2次B,2次C。
这里会形成递归,即A<->B,但是形成这种情况时,往往都需要加条件进行限制,即上图中的页数 < 3
总结:SpiderFlow v0.5.0 流程执行过程
- 开始节点:触发流程执行。
- 爬取节点:执行HTTP请求获取数据。
- 数据存储节点:将数据存储到数据库或文件中。
- 逻辑处理节点:处理业务逻辑,如条件判断、循环等。
- 变量与参数传递:在不同节点间传递数据。
- 子流程调用:通过子流程节点调用其他流程,保持模块化。
- 错误处理:在遇到错误时进行重试或记录错误日志。
- 流程结束:流程结束,进行资源清理和输出执行结果。
通过这些节点,用户可以灵活地设计和执行爬虫任务。每个节点都有明确的功能,配合流程图的设计,使得爬虫开发变得更加可视化和易于管理。
相关文章:

SpiderFlow平台v0.5.0流程的执行过程
流程执行过程: 1. 流程启动 流程的执行通常从一个 开始节点 开始,该节点是整个爬虫任务的起点。开始节点没有实际的功能作用,主要作用是标记流程的起始。 执行顺序:在执行过程中,系统按照流程中的连接线顺序依次执行…...

利用.NET Upgrade Assitant对项目进行升级
本教程演示如何把WPF程序从 <TargetFrameworkVersion>v4.8</TargetFrameworkVersion>升级到<TargetFramework>net8.0-windows</TargetFramework>. 下载并安装.NET Upgrade Assistant - Visual Studio Marketplace Supported .NET upgrades: .NET Frame…...
JAVA开发Erp时日志报错:SQL 当 IDENTITY_INSERT 设置为 OFF 时,不能为表 ‘***‘ 中的标识列插入显式值
错误提示 ### SQL: INSERT INTO sys_user ( user_id, username, password, status, create_time, update_time ) VALUES ( ?, ?, ?, ?, ?, ? ) ### Cause: com.microsoft.sqlserver.jdbc.SQLServerException: 当 IDENTITY_INSERT 设置为 OFF 时&…...

[计算机网络]ARP协议的故事:小明找小红的奇妙旅程
1.ARP小故事 在一个繁忙的网络世界中,每个设备都有自己的身份标识——MAC地址,就像每个人的身份证号码一样。在这个故事里,我们的主角小明(主机)需要找到小红(目标主机)的MAC地址,才…...
数学竞赛网站:构建互动学习的网络平台
2.1 MYSQL数据库 题目确定了是一个应用程序之后,就开始按部就班的进行设计与分析。本课题是需要数据库作为数据管理工具以及数据载体,从程序功能分析到数据分析,选择合适的关系型数据库是当下所选择的重要环节。关系型数据库可选择余地不多&a…...

IntelliJ IDEA 快捷键大全:提升开发效率的利器
目录 一、基础快捷键 1. 文件操作快捷键 2. 编辑(Editing) 2.1 代码补全与导航 2.2 代码编辑 2.3 代码折叠与展开 3. 查找与替换 4. 调试 5. 版本控制 高级快捷键 重构快捷键:让代码更加优雅 导航快捷键:快速定位代码 …...
机器人角度参考方式
机器人的角度可以根据需求和系统设计来决定。通常情况下,机器人角度(如航向角或偏航角)有两种常见的参考方式: 参考开机时的 0:这是最常见的方式,机器人在开机时会将当前的方向作为 0(即参考方向…...
VSCode:IDE显示设置 --自定义字体及主题颜色
VSCode:IDE显示设置 1.设置字体大小2.设置主题背景 1.设置字体大小 (1)打开VSCode。 (2)打开设置:File – Preferences – Settings。 (3)设置字体大小:Text Editor –…...

docker run命令大全
docker run命令大全 基本语法常用选项基础选项资源限制网络配置存储卷和挂载环境变量重启策略其他高级选项示例总结docker run 命令是 Docker 中最常用和强大的命令之一,用于创建并启动一个新的容器。该命令支持多种选项和参数,可以满足各种使用场景的需求。以下是 docker ru…...
Debezium日常分享系列之:Debezium 3.0.5.Final发布
Debezium日常分享系列之:Debezium 3.0.5.Final发布 重大变化Kafka信号源变更事件源信息块 新功能和改进核心允许在未知表上进行临时阻塞快照快照分发失败处理改进连接器启动配置日志改进 Postgres支持PostgreSQL 17的故障转移复制槽 Oracle跟踪部分回滚事件的新指标…...

机器学习常用评估Metric(ACC、AUC、ROC)
一、混淆矩阵 基于样本预测值和真实值是否相符,可得到4种结果: TP(True Positive):样本预测值与真实值相符且均为正,即真阳性 FP(False Positive):样本预测值为正而真实值为负,即假阳性 FN(False Negative…...

uniapp 微信小程序 功能入口
单行单独展示 效果图 html <view class"shopchoose flex jsb ac" click"routerTo(要跳转的页面)"><view class"flex ac"><image src"/static/dyd.png" mode"aspectFit" class"shopchooseimg"&g…...
typora数学符号
typora数学符号 Typora 是一个支持 LaTeX 数学公式的优秀 Markdown 编辑器,可以直接编写数学公式并实时渲染。以下是如何在 Typora 中使用数学公式的详细指南: 1. 启用数学公式支持 默认情况下,Typora 支持 LaTeX 格式的数学公式࿰…...
如何保障多个Facebook账号稳定运行:一账号一稳定IP?
在如今的数字营销和社交媒体运营中,管理多个Facebook账号已成为许多企业和个人的常态。然而,多个账号的管理不仅需要技巧,还需要策略,尤其是在IP地址和账号关联管理上。如果操作不当,可能会导致账号被封禁甚至无法解封…...
今日总结 2024-12-23
项目初始化 拉取代码与环境配置: 难点:Git 命令不熟悉,依赖文件定位不准,启动脚本含义不明。解决办法:系统学习 Git 基础操作,如通过官方文档、优质的 Git 教程视频,反复练习克隆、分支切换等常…...

c++------------------函数
函数定义 语法格式 函数定义包括函数头和函数体。函数头包含返回类型、函数名和参数列表。函数体是用花括号{}括起来的代码块,用于实现函数的功能。例如,定义一个计算两个整数之和的函数: int add(int a, int b) {return a b; }这里int是返回…...
软件信息化平台项目投标技术方案中如何进行项目实施方案以及安全质量方案培训售后方案应急预案的编写?
在软件平台投标技术方案中,项目实施方案、质量管理、安全管理、培训方案、售后服务方案和应急预案等章节至关重要,它们分别从不同角度确保项目的顺利实施、高质量交付、安全稳定运行、用户有效使用、持续服务保障以及应对突发情况的能力。各章节编制要点相互关联、协同作用,…...
Apache Tomcat 漏洞CVE-2024-50379条件竞争文件上传漏洞 servlet readonly spring boot 修复方式
1,关于漏洞 Apache Tomcat是一个流行的开源 Web 服务器和 Java Servlet 容器。 二、 漏洞描述 Apache Tomcat中修复了个 TOCTOU 竞争条件远程代码执行漏洞 (CVE-2024-50379),该漏洞的 CVSS 评分为 9.8。Apache Tomcat 中 JSP 编译期间存在检查时间使用时…...

中国信通院致信感谢易保全:肯定贡献能力,期许未来合作
近日,中国信息通信研究院(以下简称“中国信通院”)向易保全发感谢信表达谢意,对其在中国信通院牵头的“铸基计划”——企业数字化转型高质量发展推进行动实施中展现出的重要贡献给予了高度评价和肯定,并展望了双方至20…...

20241220流水的日报 mysql的between可以用于字符串 sql 所有老日期的,保留最新日期
1.F310A RKP有效性验证讨论:需连外网,需先用app生成标志,工具读标志。 2.M200 适配一个 给客户写配置的工具 mysql的between可以用于字符串 批量打印包装箱时,提示有重复N条的处理方法: --先备份数据库,删…...
[特殊字符] 智能合约中的数据是如何在区块链中保持一致的?
🧠 智能合约中的数据是如何在区块链中保持一致的? 为什么所有区块链节点都能得出相同结果?合约调用这么复杂,状态真能保持一致吗?本篇带你从底层视角理解“状态一致性”的真相。 一、智能合约的数据存储在哪里…...

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型
摘要 拍照搜题系统采用“三层管道(多模态 OCR → 语义检索 → 答案渲染)、两级检索(倒排 BM25 向量 HNSW)并以大语言模型兜底”的整体框架: 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后,分别用…...

全球首个30米分辨率湿地数据集(2000—2022)
数据简介 今天我们分享的数据是全球30米分辨率湿地数据集,包含8种湿地亚类,该数据以0.5X0.5的瓦片存储,我们整理了所有属于中国的瓦片名称与其对应省份,方便大家研究使用。 该数据集作为全球首个30米分辨率、覆盖2000–2022年时间…...

SpringCloudGateway 自定义局部过滤器
场景: 将所有请求转化为同一路径请求(方便穿网配置)在请求头内标识原来路径,然后在将请求分发给不同服务 AllToOneGatewayFilterFactory import lombok.Getter; import lombok.Setter; import lombok.extern.slf4j.Slf4j; impor…...

如何在最短时间内提升打ctf(web)的水平?
刚刚刷完2遍 bugku 的 web 题,前来答题。 每个人对刷题理解是不同,有的人是看了writeup就等于刷了,有的人是收藏了writeup就等于刷了,有的人是跟着writeup做了一遍就等于刷了,还有的人是独立思考做了一遍就等于刷了。…...

Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决
Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决 问题背景 在一个基于 Spring Cloud Gateway WebFlux 构建的微服务项目中,新增了一个本地验证码接口 /code,使用函数式路由(RouterFunction)和 Hutool 的 Circle…...

使用Spring AI和MCP协议构建图片搜索服务
目录 使用Spring AI和MCP协议构建图片搜索服务 引言 技术栈概览 项目架构设计 架构图 服务端开发 1. 创建Spring Boot项目 2. 实现图片搜索工具 3. 配置传输模式 Stdio模式(本地调用) SSE模式(远程调用) 4. 注册工具提…...
JavaScript基础-API 和 Web API
在学习JavaScript的过程中,理解API(应用程序接口)和Web API的概念及其应用是非常重要的。这些工具极大地扩展了JavaScript的功能,使得开发者能够创建出功能丰富、交互性强的Web应用程序。本文将深入探讨JavaScript中的API与Web AP…...

MySQL 知识小结(一)
一、my.cnf配置详解 我们知道安装MySQL有两种方式来安装咱们的MySQL数据库,分别是二进制安装编译数据库或者使用三方yum来进行安装,第三方yum的安装相对于二进制压缩包的安装更快捷,但是文件存放起来数据比较冗余,用二进制能够更好管理咱们M…...

认识CMake并使用CMake构建自己的第一个项目
1.CMake的作用和优势 跨平台支持:CMake支持多种操作系统和编译器,使用同一份构建配置可以在不同的环境中使用 简化配置:通过CMakeLists.txt文件,用户可以定义项目结构、依赖项、编译选项等,无需手动编写复杂的构建脚本…...