分享如何通过Mq、Redis、XxlJob实现算法任务的异步解耦调度
一、背景
1.1 产品简介
基于大模型塔斯,整合传统的多项能力(NLP、OCR、CV等),构建以场景为中心的新型智能文档平台。通过文档审阅,实现结构化、半结构化和非结构化文档的信息获取、处理及审核,同时基于大模型,提供文档问答、辅助阅读等能力。
1.2 文档说明
当用户使用产品的算法能力处理文档时,因文档大小、算法资源等因素,获取算法处理结果的时长具有不确定性,所以需要一套稳定、高效的异步解耦算法任务的技术方案来调度算法任务。本文档从技术的角度分享是如何进行算法任务调度,并为大家实现异步解耦调度任务提供思路。
二、实现思路
2.1.1 步骤解读
1、2:业务服务通过mq发送执行算法任务消息给调度服务
3:任务记录落库
4:定时任务读取数据库中的未执行任务记录
5:检查执行任务是否达到上限,未达到则把任务存入redis任务执行队列
6:创建任务执行记录数据
7:定时任务从redis中获取任务执行队列
8:读取任务执行队列中需要执行的任务,向算法服务发起异步处理请求
9:将执行的任务信息存入等待结果队列,并检查等待结果队列中的任务是否超时,超时则清除,并通知业务服务任务超时
10:更新任务执行记录数据
11:算法服务处理后将结果存入oss
12:算法服务请求调度服务,通知任务执行完成
13:将完成的任务从等待结果队列中清除
14:更新任务执行记录数据
15、16:将任务结束消息通过mq通知业务服务
17:业务服务从oss读取算法处理结果
2.1 简易时序图

2.1.2 简易时序图深入解析
通过细化时序图的每个步骤,深入探讨IDP·文档审阅平台如何高效地实现算法任务调度,确保系统在处理大量、多样化的文档时,保持高度的灵活性与稳定性。
- 步骤1-2: 业务服务利用消息队列(MQ)向调度服务传递执行算法任务的需求。这一设计旨在解耦业务逻辑与算法处理,提高系统的可扩展性和响应速度。MQ作为中间件,能够有效缓冲瞬时高峰流量,保证消息的可靠传输。
- 步骤3: 任务记录被持久化至数据库,这是为了确保任务的可追踪性和审计能力,即便在系统故障情况下也能恢复任务状态。
- 步骤4-5: 定时任务周期性地查询数据库中待处理的任务,通过智能判断当前系统负载(如算法服务的执行任务上限),决定是否将新任务加入到Redis任务执行队列。Redis以其高速的读写性能,适合作为高并发场景下的任务缓存队列。
- 步骤6-8: 创建任务执行记录,并通过定时任务从Redis队列中提取任务,向算法服务发起异步请求。异步处理机制允许算法服务并行处理多个任务,显著提升整体吞吐量。
- 步骤9: 引入等待结果队列和超时检测机制,确保即使在算法处理异常延迟的情况下,也能及时反馈给业务侧,维持用户体验。超时任务的清理与通知机制,是保障系统健康运行的关键。
- 步骤10-14: 算法服务处理完毕后,结果存储于对象存储服务(OSS),随后通知调度服务任务完成。调度服务据此更新任务状态,并从等待结果队列中移除已完成任务。这系列操作确保了任务生命周期管理的闭环,提高了资源利用率。
步骤15-16: 通过MQ通知业务服务任务结束,业务服务即可从OSS获取处理结果,完成文档处理流程。这种设计确保了数据处理的高效性和低延迟性
主要的是思路,代码就不放了~
四、结语
在文档审阅的算法任务调度体系中,异步解耦的设计理念发挥了至关重要的作用。通过将任务的提交与执行分离,业务服务无需等待算法处理结果,极大地提高了系统的响应速度和整体性能。任务调度机制则确保了算法任务能够有条不紊地进行。从消息队列的任务分发,到定时任务的入队和执行管理,再到超时清理和回调通知,每一个环节都紧密配合,保障了任务的高效执行和系统的稳定运行。
这种异步解耦与任务调度的完美结合,为智能文档平台的发展奠定了坚实的基础。未来,我们将持续探索和创新,进一步优化异步解耦和任务调度的策略,以适应不断增长的业务需求和更加复杂的技术环境,为用户带来更加卓越的文档处理体验。
相关文章:
分享如何通过Mq、Redis、XxlJob实现算法任务的异步解耦调度
一、背景 1.1 产品简介 基于大模型塔斯,整合传统的多项能力(NLP、OCR、CV等),构建以场景为中心的新型智能文档平台。通过文档审阅,实现结构化、半结构化和非结构化文档的信息获取、处理及审核,同时基于大…...
力扣-栈与队列-239 滑动窗口的最大值
双指针思路 每移动一次,可以比较上一次窗口的最大值和被移除的值,如果被移除的值小于最大值,则说明最大值仍在新的区间,但是最后超时了 双指针超时代码 class Solution { public:vector<int> maxSlidingWindow(vector<…...
在 MySQL 中,通过存储过程结合条件判断来实现添加表字段时,如果字段已存在则不再重复添加
-- 创建存储过程 DELIMITER $$ CREATE PROCEDURE add_column(IN db_name VARCHAR(255),IN table_name VARCHAR(255),IN column_name VARCHAR(255),IN column_definition VARCHAR(255),IN column_comment VARCHAR(255) ) BEGINDECLARE column_exists INT;-- 检查字段是否存在SEL…...
8.flask+websocket
http是短连接,无状态的。 websocket是长连接,有状态的。 flask中使用websocket from flask import Flask, request import asyncio import json import time import websockets from threading import Thread from urllib.parse import urlparse, pars…...
【大模型实战】使用Ollama+Chatbox实现本地Deepseek R1模型搭建
下载安装Ollama Ollama官方链接:https://ollama.com/,打开链接后就可以看到大大的下载按钮,如下图: 我选择用Win的安装。将Ollama的安装包下载到本地,如果下载慢可以复制链接到迅雷里面,提高下载速度,如下图: 双击之后,就可以开始安装了,如下图: 默认安装到C盘,…...
VMware 虚拟机 ubuntu 20.04 扩容工作硬盘
一、关闭虚拟机 关闭虚拟机参考下图,在vmware 调整磁盘容量 二、借助工具fdisk testubuntu ~ $ df -h Filesystem Size Used Avail Use% Mounted on udev 1.9G 0 1.9G 0% /dev tmpfs 388M 3.1M 385M 1% /run /dev/sda5 …...
ZooKeeper 和 Dubbo 的关系:技术体系与实际应用
引言 在现代微服务架构中,服务治理和协调是至关重要的环节。ZooKeeper 和 Dubbo 是两个在分布式系统中常用的技术工具,它们之间有着紧密的联系。本文将详细探讨 ZooKeeper 和 Dubbo 的关系,从基础概念、技术架构、具体实现到实际应用场景&am…...
【LeetCode 热题100】74:搜索二维矩阵(二分、线性两种方式 详细解析)(Go 语言实现)
🚀 力扣热题 74:搜索二维矩阵(详细解析) 📌 题目描述 力扣 74. 搜索二维矩阵 给你一个满足下述两条属性的 m x n 整数矩阵 matrix : 每行中的整数从左到右按非递减顺序排列。每行的第一个整数大于前一行的…...
《Peephole LSTM:窥视孔连接如何开启性能提升之门》
在深度学习的领域中,长短期记忆网络(LSTM)以其出色的序列数据处理能力而备受瞩目。而Peephole LSTM作为LSTM的一种重要变体,通过引入窥视孔连接,进一步提升了模型的性能。那么,窥视孔连接究竟是如何发挥作用…...
HTML之JavaScript变量和数据类型
HTML之JavaScript变量和数据类型 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</titl…...
(少儿编程)关于讲解C++函数(认识,了解)的思考与总结
前言: 在少儿编程中,讲解函数的概念时,需要将复杂的概念简化,并通过生动有趣的例子和互动方式来帮助孩子理解。以下是一个适合少儿的函数讲解思路和示例: 用生活中的例子引入函数的概念: 目标:…...
【漫话机器学习系列】082.岭回归(或脊回归)中的α值(alpha in ridge regression)
岭回归(Ridge Regression)中的 α 值 岭回归(Ridge Regression)是一种 带有 L2 正则化 的线性回归方法,用于处理多重共线性(Multicollinearity)问题,提高模型的泛化能力。其中&am…...
Node.js怎么调用到打包的python文件呢
在 Node.js 中调用打包后的 Python 可执行文件(如 PyInstaller 生成的 .exe 或二进制文件),可以通过以下步骤实现: 一、Python 打包准备 假设已有打包好的 Python 文件 your_script.exe(以 Windows 为例)&…...
9 Pydantic复杂数据结构的处理
在构建现代 Web 应用时,我们往往需要处理复杂的输入和输出数据结构。例如,响应数据可能包含嵌套字典、列表、元组,甚至是多个嵌套对象。Pydantic 是一个强大的数据验证和序列化库,可以帮助我们轻松地处理这些复杂的数据结构&#…...
C++ decltype 规则推导
C decltype 规则推导 文章目录 C decltype 规则推导**1. 基本规则****(1) 如果 decltype 的参数是变量名(无括号的标识符)****(2) 如果 decltype 的参数是表达式(带括号或操作符)** **2. 与 auto 的区别****3. 特殊场景****(1) 函…...
Rust 测试组织指南:单元测试与集成测试
一、为什么要同时使用单元测试与集成测试 单元测试:更为精细、聚焦某一逻辑单元;可以调用到私有函数,快速定位错误根源。集成测试:作为“外部代码”来使用库的公开接口,测试多个模块间的交互,确保整体功能…...
Day62_补20250210_图论part6_108冗余连接|109.冗余连接II
Day62_20250210_图论part6_108冗余连接|109.冗余连接II 108冗余连接 【把题意转化为并查集问题】 题目 有一个图,它是一棵树,他是拥有 n 个节点(节点编号1到n)和 n - 1 条边的连通无环无向图(其实就是一个线形图&am…...
kafka消费端之消费者协调器和组协调器
文章目录 概述回顾历史老版本获取消费者变更老版本存在的问题 消费者协调器和组协调器新版如何解决老版本问题再均衡过程**第一阶段CFIND COORDINATOR****第二阶段(JOINGROUP)**选举消费组的lcader选举分区分配策略 第三阶段(SYNC GROUP&…...
语法备忘04:将 事件处理函数 绑定到 组件 的事件上
示例1:<Table OnQueryAsync"OnQueryAsync" /> 示例2:<Table OnQueryAsync"OnQueryAsync" /> 说明:这两种写法在功能上是完全相同的,都是在将 OnQueryAsync 事件处理函数绑定到 Table 组件的 …...
C++20中的std::atomic_ref
一、std::atomic_ref 我们在学习C11后的原子操作时,都需要提前定义好std::atomic变量,然后才可以在后续的应用程序中进行使用。原子操作的优势在很多场合下优势非常明显,所以这也使得很多开发者越来习惯使用原子变量。 但是,在实…...
CSS 相关知识
1、高度已知,三栏布局,左右宽度 200,中间自适应,如何实现? <body><div class"box"><div class"box1">高度已知</div><div class"box2">左右宽度 200&…...
RocketMQ、RabbitMQ、Kafka 的底层实现、功能异同、应用场景及技术选型分析
1️⃣ 引言 在现代分布式系统架构中,📩消息队列(MQ)是不可或缺的组件。它在系统🔗解耦、📉流量削峰、⏳异步处理等方面发挥着重要作用。目前,主流的消息队列系统包括 🚀RocketMQ、&…...
IDEA升级出现问题Failed to prepare an update Temp directory inside installation
IDEA升级出现问题"Failed to prepare an update Temp directory inside installation…" 问题来源: 之前修改了IDEA的默认配置文件路径,然后升级新版本时就无法升级,提示"Failed to prepare an update Temp directory insid…...
DeepSeek提示词手册
一、核心原则:基于DeepSeek的推理特性 自然语言优先undefinedDeepSeek擅长理解自然表达,无需复杂模板。例如: ❌旧模板:"你是专业分析师,需分三步回答,第一步…" ✅高效提问:"…...
基于UVM搭验证环境
基于UVM搭验证环境基本思路: 首先,我们搭建环境时一般都有一个目标的DUT。此时,我们可以结合所要验证的的模块、是否需要VIP、验证侧重点等在典型的UVM验证环境的基础上做适当调整后形成一个大体的环境架构。比如,需要一个ahb_vip…...
C++性能优化—人工底稿版
C以高性能著称,性能优化是C程序员绕不过去的一个话题,性能优化是一个复杂、全局而又细节的问题,本文总结C性能分析中常用的知识。 性能优化的时机 大部分关于性能优化的文章都强调:不要过早的进行性能优化。 C编码层面 数据结…...
Java 使用腾讯翻译 API 实现含 HTML 标签文本精准翻译工具
一、翻译标签文本工具 package org.springblade.common.utils;import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern;public class TencentTranslationForHTML {public static void main(String[] args) {Stri…...
十款开源的论坛建站工具
以下是十款开源的论坛建站工具,它们各具特色,能够满足不同用户的需求: Discuz!(Crossday Discuz! Board) 特点:基础架构采用web编程组合PHPMySQL,用户可以在不需要任何编程的基础上,…...
vue学习6
1. 智慧商城 1. 路由设计配置 单个页面,独立展示的,是一级路由 2.二级路由配置 规则&组件配置导航链接配置路由出口 <template><div id"app"><!--二级路由出口--><router-view></router-view><van-…...
线程池以及日志、线程总结
一、线程池以及日志 1、基础线程池写法 主线程在main函数中构建一个线程池,初始化(Init)后开始工作(Start) 此时线程池中每个线程都已经工作起来了,只是任务队列中任务为空,所有线程处于休眠状态(通过线程同步中的条件变量实现,…...
