当前位置: 首页 > article >正文

NUS 提出 SkillGraph:让多模态多智能体边协作边进化

一句话总结本文提出 SkillGraph将动态通信拓扑与自进化 Skill Bank 闭环耦合让 VMAS 根据图像、问题和当前技能自动组织协作。在四个多模态基准、五种 MAS 结构和四类 VLM 上均稳定提升最高平均提升约 3.0%。 背景问题现有 Visual Multi-Agent Systems 在复杂多模态推理中仍受”结构固定、能力静止”限制1️⃣ 通信拓扑通常在推理前手工设定无法根据图像内容、问题语义和任务类型动态调整2️⃣ Agent 技能多依赖静态 prompt遇到 OCR、空间关系、数学图表等失败模式时缺少自我修正机制3️⃣ 技能演化与拓扑设计彼此割裂导致更强技能无法反向改变协作路径动态协作收益受限。 方法简介SkillGraph 将每个 Agent 绑定到从层次化 Skill Bank 中检索出的动态技能技能表示为 s 触发条件、策略描述、成功率、失败缓存、版本号并编码成节点特征使节点状态反映当前推理策略核心模块 Multimodal Graph TransformerMMGT联合编码图像 patch、问题语义、Agent 技能嵌入和角色先验通过 selective image attention 让不同 Agent 关注与自身技能相关的视觉区域MMGT 进一步用 Graph Transformer Layer 与 Global Relay Node 建模 Agent 间依赖并通过方向感知 bilinear edge predictor 预测有向通信边形成 query-conditioned collaboration graphSkill Designer 从错误样例中诊断失败模式对旧技能执行 Modify 或生成新技能 Create更新后的技能嵌入会重新进入 MMGT从而形成”技能进化—拓扑重构—失败归因—技能再进化”的闭环。 实验结果在 Qwen3-VL-8B 上SkillGraph 对 Linear、Layered、Centralized、Random、Complete 五种拓扑均带来稳定提升Complete SkillGraph 在 Thinking 设置下平均分从 82.3 提升到 84.6提升 2.3 分跨模型实验显示SkillGraph 在 LLaVA-OneVision-Qwen2-7B、Qwen2.5-VL-7B-Instruct 和 InternVL3-8B 上同样有效例如 InternVL3-8B 的 Complete 结构平均分从 77.4 提升到 79.4模型尺度实验表明该方法从 InternVL3-2B 到 InternVL3-38B 均有收益其中 InternVL3-2B 平均分从 68.0 提升到 71.0提升 3.0 分Qwen3-VL-4B 平均分从 78.7 提升到 80.8消融结果显示Skill Evolution 与 MMGT 均独立有效完整模型整体最优迭代分析进一步表明性能在 5 到 10 轮提升最明显并在 15 到 20 轮趋于稳定说明技能库并非无限膨胀而是逐步收敛到更可靠的多模态推理策略。✨ 一句话点评SkillGraph 用”技能进化—拓扑自适应”的关系揭示了多模态多智能体协作的本质真正能提升复杂推理的不是更多 Agent 的堆叠而是让 Agent 的能力变化反过来重塑协作结构——这意味着未来 VMAS 应当从”静态编排”走向”自进化协作”。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关文章:

NUS 提出 SkillGraph:让多模态多智能体边协作边进化

📌 一句话总结: 本文提出 SkillGraph,将动态通信拓扑与自进化 Skill Bank 闭环耦合,让 VMAS 根据图像、问题和当前技能自动组织协作。在四个多模态基准、五种 MAS 结构和四类 VLM 上均稳定提升,最高平均提升约 3.0%。…...

2026届最火的降重复率工具横评

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 于学术写作范畴之内,维普降AI已然变成众多学者以及毕业生所聚焦关注的重点。伴随…...

2026毕业论文自救指南|3个工具搞定初稿+降重+答辩PPT [特殊字符]

根据你的需求,我对比了目前市场上主流的毕业之家和PaperRed两款AI论文写作软件。 简单来说:毕业之家更像一位“全流程管家”,擅长从开题到答辩材料的完整生成与排版,尤其贴合国内高校的格式要求;而PaperRed则更像一位…...

2025届毕业生推荐的AI辅助论文网站解析与推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 当下,学术研究越发受到人们的重视,在此种背景状况之下,论…...

2026届必备的六大AI写作神器解析与推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 当下,鉴于人工智能生成内容(AIGC)技术越来越普及&#x…...

终极Windows窗口管理指南:用AltSnap实现高效多任务处理

终极Windows窗口管理指南:用AltSnap实现高效多任务处理 【免费下载链接】AltSnap Maintained continuation of Stefan Sundins AltDrag 项目地址: https://gitcode.com/gh_mirrors/al/AltSnap 你是否厌倦了在Windows系统中精确点击窗口标题栏的繁琐操作&…...

Opensmile实战:从零到一的音频特征提取指南

1. 为什么选择Opensmile处理音频特征? 第一次接触音频分析时,我被各种专业工具搞得眼花缭乱。直到实验室的师兄推荐了Opensmile,这个开源工具彻底改变了我的工作效率。它最吸引我的地方在于三点:全流程覆盖(从特征提取…...

保姆级教程:从零开始给SkyWalking Agent写一个自定义日志插件(Logback篇)

深入SkyWalking Agent插件开发:构建自定义日志组件的完整方法论 在分布式系统的监控领域,SkyWalking以其强大的全链路追踪能力广受开发者青睐。但很多团队在基础监控之外,往往需要根据业务特点定制专属的监控指标——比如在日志中嵌入用户ID、…...

告别原生标题栏!用Qt 6.x打造一个可拖拽、可美化的自定义标题栏(附完整源码)

Qt 6.x自定义标题栏实战:从零构建高颜值可拖拽界面组件 当你在开发一款专业级桌面应用时,系统默认的标题栏往往会成为整体UI设计的短板。不同操作系统下的标题栏风格各异,无法与应用主体保持视觉统一,更难以实现个性化的交互效果。…...

Python plt.imshow参数实战:从数据可视化到图像处理

1. 从零认识plt.imshow:你的图像处理瑞士军刀 第一次接触plt.imshow时,我完全被它强大的功能震撼到了。这个看似简单的函数,实际上就像一把瑞士军刀,能搞定从数据可视化到专业图像处理的各类任务。简单来说,plt.imshow…...

3个技巧让窗口管理更智能:如何用开源工具提升专注力?

3个技巧让窗口管理更智能:如何用开源工具提升专注力? 【免费下载链接】AlwaysOnTop Make a Windows application always run on top 项目地址: https://gitcode.com/gh_mirrors/al/AlwaysOnTop 想象一下这样的工作场景:你正在编写代码…...

Manus Open Claw开源技能库:构建可共享的机器人抓取解决方案

1. 项目概述:一个面向机器人抓取的开源技能库最近在机器人抓取领域,一个名为simpliolabs/manus-open-claw-skill-hunter-and-developer的项目引起了我的注意。乍一看这个标题,信息量不小,它融合了“开放爪具”、“技能猎人”和“开…...

嵌入式通信系统抗干扰设计:从硬件防护到协议容错的实战指南

1. 项目概述:当通信遇上“嘈杂”的现实世界干了十几年嵌入式,从工业控制到智能家居,从车载网络到物联网终端,我踩过最多的坑,往往不是算法有多复杂,代码有多难写,而是通信链路在各种现实环境下的…...

AI 驱动多渠道网络钓鱼攻击演化与闭环防御体系研究

摘要 2026 年全球网络空间中,AI 技术全面渗透使网络钓鱼攻击呈现工业化、多渠道、高仿真、强隐蔽的演化趋势,攻击载体从传统邮件快速扩散至即时通讯、协作平台、二维码与短链接等多元场景,传统基于特征库与规则匹配的防御机制失效风险显著上升…...

WarcraftHelper:让经典魔兽在现代系统上重获新生

WarcraftHelper:让经典魔兽在现代系统上重获新生 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 你是否还记得那个在老旧电脑上流畅运行的…...

用Java+GDAL+OpenCV玩转遥感图像:手把手教你实现Landsat标准假彩色合成(附完整代码)

JavaGDALOpenCV遥感图像处理实战:Landsat标准假彩色合成全流程解析 遥感图像处理正逐渐从专业软件向通用编程语言生态迁移。对于熟悉Java的开发者而言,利用GDAL和OpenCV这两个强大的库,完全可以构建自主可控的遥感处理流程。本文将完整展示如…...

3步高效部署AutoJs6:Android自动化开发实战指南

3步高效部署AutoJs6:Android自动化开发实战指南 【免费下载链接】AutoJs6 安卓平台 JavaScript 自动化工具 (Auto.js 二次开发项目) 项目地址: https://gitcode.com/gh_mirrors/au/AutoJs6 AutoJs6作为Android平台领先的JavaScript自动化工具,为开…...

全境透视·智域重构系统 技术发布会完整版宣讲稿

全境透视智域重构系统 技术发布会完整版宣讲稿 镜像视界浙江科技有限公司 尊敬的各位领导、行业专家、合作伙伴、各界来宾: 大家上午好! 当下数字智慧建设迈入全新进阶阶段,传统二维监控视野受限、物理遮挡形成大量管理盲区,静态…...

思源宋体TTF完全指南:7种字重免费使用,打造专业中文排版

思源宋体TTF完全指南:7种字重免费使用,打造专业中文排版 【免费下载链接】source-han-serif-ttf Source Han Serif TTF 项目地址: https://gitcode.com/gh_mirrors/so/source-han-serif-ttf 还在为中文排版找不到合适的免费字体而烦恼吗&#xff…...

双足机器人步态规划算法与动平衡控制【附仿真】

✨ 长期致力于双足机器人、步态规划、动平衡控制、运动发散分量、模型预测控制、二次优化、可视化仿真研究工作,擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流,点击《获取方式》 (1&#xff09…...

多变量分数阶系统的频域分析与设计【附程序】

✨ 长期致力于多变量系统、频率域、分数阶PID控制、鲁棒控制、参数拟合、参数优化、工具箱、框图法研究工作,擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流,点击《获取方式》 (1)基…...

OpenClaw用户如何快速接入Taotoken并开始使用Agent工作流

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 OpenClaw用户如何快速接入Taotoken并开始使用Agent工作流 对于已经在使用OpenClaw进行Agent开发的用户来说,接入Taotok…...

基于wechat_bot_sdk的微信机器人开发:从协议模拟到工程化实践

1. 项目概述与核心价值最近在折腾一个需要对接微信消息通知的项目,发现市面上很多现成的机器人框架要么太重,要么封装得过于“黑盒”,想改点东西得扒好几层源码。后来在GitHub上翻到了waro163/wechat_bot_sdk这个项目,看名字就知道…...

猫抓:创新视角下的浏览器资源嗅探技术完全指南

猫抓:创新视角下的浏览器资源嗅探技术完全指南 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 猫抓(cat-catch)…...

写论文缺参考文献?教你一招最快的反向查文献

写文献综述、毕业论文、科研报告时,你是不是也常遇到这些难题:观点明明写得很清楚,却找不到权威文献支撑;文献综述凑不够篇幅,论据来源不充分;逐篇翻数据库筛选文献太耗时,引文格式排版还总出错…...

【SI_DP】深入理解DP协议AUX通道信号

1. DP AUX通道概述 1.1. DP协议AUX信号概述 DisplayPort(DP)协议中的AUX差分信号是一条独立的双向传输辅助通道,采用交流耦合差分传输方式。 该通道为半双工传输,单一方向速率约为1Mbit/s,主要用于传输设定与控制指…...

微信读书笔记助手:3分钟快速上手的终极笔记管理指南

微信读书笔记助手:3分钟快速上手的终极笔记管理指南 【免费下载链接】wereader 一个浏览器扩展:主要用于微信读书做笔记,对常使用 Markdown 做笔记的读者比较有帮助。 项目地址: https://gitcode.com/gh_mirrors/wer/wereader 微信读书…...

C#怎么给PDF添加水印_C#如何保护电子文档版权【案例】

...

Adobe-GenP 3.0终极指南:5分钟快速激活Adobe全系列专业软件

Adobe-GenP 3.0终极指南:5分钟快速激活Adobe全系列专业软件 【免费下载链接】Adobe-GenP Adobe CC 2019/2020/2021/2022/2023 GenP Universal Patch 3.0 项目地址: https://gitcode.com/gh_mirrors/ad/Adobe-GenP Adobe-GenP是一款专门为Adobe Creative Clou…...

从ok-skills项目解析技能树:设计理念、技术实现与工程实践

1. 项目概述与核心价值最近在GitHub上看到一个挺有意思的项目,叫“ok-skills”。光看这个名字,可能有点摸不着头脑,但点进去一看,发现这是一个关于“技能树”或“知识图谱”的开源项目。简单来说,它试图用一种结构化的…...