当前位置: 首页 > article >正文

OmniBench

提出了OmniBench—— 一个自生成、跨平台、图结构的虚拟代理评估基准以及配套的OmniEval多维度评估框架。论文通过自动化任务合成、精细粒度能力评估系统揭示了当前虚拟代理的能力边界并验证了图结构数据对代理训练的增益为虚拟代理的研发提供了标准化工具和关键洞察。一、研究背景与核心问题随着多模态大语言模型MLLMs的发展基于 MLLMs 的虚拟代理在网页导航、设备控制、计算机交互等场景中展现出潜力但现有评估基准存在显著局限任务复杂度不可控且固定现有基准多直接提供完整任务无法按能力维度生成渐进式复杂度任务难以适配不同水平的代理也无法精准定位能力瓶颈人工标注成本高且场景有限依赖人工标注演示轨迹或评估函数规模扩展困难且标注数据受人类经验局限难以覆盖多样化真实场景缺乏多维度细粒度评估仅关注任务最终结果或与人类轨迹的相似度忽略中间执行过程无法量化代理在规划、指令理解等细分能力上的表现难以指导后续优化。为解决上述问题论文核心目标是构建一个低成本、可扩展、复杂度可控的基准以及一套多维度、细粒度的评估框架全面衡量虚拟代理的核心能力。二、相关工作综述虚拟数字代理现有代理如 CogAgent、SeeClick、UGround在 GUI 理解、视觉接地等方面取得进展但缺乏统一的评估标准来量化其综合能力虚拟代理基准轨迹基基准如 AndroidInTheWild对比代理与人类轨迹相似度但忽略多可行轨迹的合理性结果基基准如 OSWorld关注任务最终状态缺乏中间过程评估图结构基准如 CRAB、TASKBENCH支持多轨迹和中间评估但任务分析不系统缺乏复杂度可控性和多维度能力覆盖。论文指出OmniBench 是首个通过图结构定义可组合任务复杂度、并评估多类核心能力的可扩展基准。三、核心设计OmniBench 基准构建OmniBench 的核心是图结构任务表示和自动化任务合成流水线实现 “复杂度可控、场景多样、低成本生成” 的目标具体设计如下1. 任务图与五维复杂度定义论文将任务建模为有向无环图DAGG{S,R}其中S{s1​,s2​,...,sn​} 为子任务集合每个子任务是独立可执行的最小单元含输入 / 输出资源R{(sa​,sb​)} 为子任务依赖关系sb​ 依赖 sa​ 的输出资源作为输入。基于图拓扑结构论文定义五维任务复杂度每类复杂度分 “简单 / 中等 / 困难” 三级可精准控制任务难度表格复杂度维度计算方式简单中等困难依赖复杂度图中边的数量子任务依赖数≤12~3≥4指令复杂度图中节点的数量子任务数≤23~4≥5知识复杂度涉及的应用类别数≤12~3≥4层级复杂度图的深度子任务层级数≤23~4≥5分支复杂度图的宽度并行子任务数≤23~4≥52. 自动化任务合成流水线Bottom-up为避免人工标注论文设计四步自动化流水线生成 36k 高质量图结构任务人类接受率达 91%子任务探索构建含 49 个应用覆盖办公、多媒体、编程等 12 类的环境让 MLLMs 结合应用文档和示例生成多样化可执行子任务并定义每个子任务的输入 / 输出资源如 “下载图片” 的输入是 “图片 URL”输出是 “本地图片路径”迭代合成轨迹合成用先进 MLLMs 生成子任务的执行轨迹含截图、动作、思考过程评估函数合成预定义 11 个系统级 API如检查文件存在、键盘输入、文本识别通过 Code LLMClaude-3.5-Sonnet组合 API生成子任务的细粒度评估函数支持部分得分交叉验证迭代优化轨迹和评估函数确保准确性任务组合提取 “任务意图”如 “为 Emily 创建个人介绍 PPT”将子任务池中的相关子任务按资源依赖关系组合为图结构任务避免无意义组合如 “打开外卖 APP 后立即关闭”任务验证用 GPT-4o 基于任务图生成自然语言指令再让 GPT-4o 仅通过指令推断子任务依赖若与原图一致则验证通过确保指令与图结构语义对齐。3. OmniBench 核心特征与统计任务规模36,076 个图结构任务是主流环境基准的 40 倍场景覆盖20 个真实场景如办公协作、视频编辑、屏幕录制支持桌面 / 移动 / 网页跨平台评估任务类型含网络独立本地任务53.95%和网络依赖真实任务46.05%平均每个任务涉及 2.21 个应用复杂度分布困难级任务占比最高如知识复杂度 52.4%、分支复杂度 46.7%符合真实场景任务特性。四、评估框架OmniEval 多维度能力评估OmniEval 针对虚拟代理的核心能力设计细粒度评估指标和10 类能力测试集实现 “过程可量化、能力可拆解” 的评估目标1. 图基评估器与双指标设计针对传统评估的粗粒度缺陷OmniEval 引入图基评估器定义子任务的三种状态Completed/Evaluating/Waiting按拓扑序逐步评估并设计两个核心指标覆盖率Coverage Rate, CR量化代理在任务图上的进展对深层子任务依赖多赋予更高权重公式如下w(si​)∑j1n​d(sj​)d(si​)​,CR∑i1n​w(si​)∑i1n​w(si​)⋅I(si​)​其中 d(si​) 为子任务 si​ 的深度I(si​)1 表示子任务完成逻辑一致性Logical Consistency, LC量化代理与人类操作逻辑的相似度人类倾向于完成同一应用的子任务后再切换公式如下LCCSmax​CSagent​​其中 CS 为子任务序列的连贯性得分相邻子任务同应用则 1CSmax​ 为所有拓扑序列中的最大连贯性得分。2. 10 类核心能力与测试集构建论文将虚拟代理的核心能力拆解为 10 类每类能力对应特定的五维复杂度组合通过约束复杂度维度生成测试任务具体如下表格能力类别核心要求对应复杂度组合困难级并行规划PP处理多并行子任务依赖复杂度 分支复杂度长程规划LRP处理深层级依赖子任务依赖复杂度 层级复杂度长序列推理LSR处理长序列子任务指令复杂度 层级复杂度长指令遵循LIF理解长文本指令层级复杂度 分支复杂度顺序决策SDK按序完成依赖子任务层级复杂度 分支复杂度跨域决策CDDK跨应用类别完成任务分支复杂度 知识复杂度子任务识别SI从指令中拆解子任务依赖复杂度 指令复杂度依赖识别DI识别子任务间依赖关系依赖复杂度 指令复杂度跨域知识CDK运用多应用领域知识指令复杂度 知识复杂度领域特定知识DSK运用单一应用专业知识指令复杂度 知识复杂度单一领域五、实验设计与核心结果论文在 OmniBench 上评估了 12 种主流模型开源 MLLMs、闭源 MLLMs、虚拟代理、基于 OmniBench 微调的代理并通过多维度分析揭示虚拟代理的能力边界和优化方向。1. 实验设置硬件NVIDIA A100 80G GPU输入统一缩放图像至 1024×1024支持截图 辅助技术A11Y双模态输入基线模型4 类共 12 个模型如 GPT-4o、Qwen2-VL-7B、Aguvis-7B、OS-Atlas-Pro-4B 等微调模型基于 OmniBench 数据微调 OS-Atlas-Base-4B 和 UGround-V1-7B验证图结构数据的有效性。2. 核心实验结果1主流代理的能力边界整体性能GPT-4o 表现最优CR38.7、LC49.0但远低于人类基线CR80.1、LC92.8开源模型如 InternVL2.5-8B和普通虚拟代理如 Aguvis-7B性能更低CR≈17-25能力短板所有模型在子任务识别SI和长指令遵循LIF上表现最差即使 GPT-4o 的 SI 仅 30.6、LIF 仅 32.2远低于人类的 69.1 和 66.1成为当前代理的核心瓶颈微调增益基于 OmniBench 微调的代理如 Omni-UGround-V1-7B在规划、决策类能力上显著提升SDK42.4、CDDK43.1验证了图结构数据的训练价值。2图结构任务处理能力薄弱对比链结构线性和图结构含并行 / 分支任务节点 / 边数、知识复杂度一致发现GPT-4o 在图结构任务上的准确率仅 20.5%远低于人类的 80.1% 和链结构任务的 35.2%原因现有代理多在链结构数据上微调倾向于将图结构任务解读为线性难以识别子任务依赖关系。3任务复杂度的影响所有模型的性能随复杂度提升显著下降平均下降 6.19 分且在指令复杂度和知识复杂度上的下降最明显如 UGround-7B 在困难级指令复杂度任务上性能下降 13.6 分验证了 OmniBench 复杂度控制的有效性。3. 深度分析1任务意图的关键作用闭源模型在 prompt 中加入任务意图如 “为 Emily 创建 PPT”规划性能平均从 23.4% 提升至 28.9%GPT-4o 提升最显著8.9 分开源模型微调数据中加入任务意图规划性能从 30.5% 提升至 31.9%证明任务意图能帮助代理把握核心目标优化规划逻辑。2指令表达顺序的敏感性现有代理如 OS-Atlas-Pro、Aguvis对指令顺序敏感标准差平均 8.21顺序变化导致性能波动基于 OmniBench 微调的代理如 Omni-OS-Atlas敏感性降低 7.91 分说明图结构数据能帮助代理识别指令中的内在依赖提升鲁棒性。3错误类型分析对 100 个失败案例的分析显示代理失败的五大原因幻觉成功36%错误认为任务完成上下文记忆薄弱指令理解错误23%忽略指令关键操作如保存文件知识缺失21%不熟悉应用功能如 Zotero 创建参考文献列表接地错误17%知道要点击的目标但定位错误环境干扰3%网络延迟等外部因素。六、消融实验与扩展性验证1. 质量控制模块的有效性OmniBench 的三个质量控制模块交叉验证、意图提取、一致性验证对任务质量至关重要移除交叉验证人类接受率从 90.7% 降至 61.2%最大降幅移除意图提取接受率降至 82.7%移除一致性验证接受率降至 86.5%证明三者协同保障了任务的合理性和语义一致性。2. 跨基准扩展性在 AndroidControl 和 OmniAct 基准上基于 OmniBench 微调的代理表现更优Omni-OS-Atlas-4B 在 AndroidControl 上的成功率提升 0.46 分OmniAct 上提升 0.73 分Omni-UGround-V1-7B 在 AndroidControl 上提升 0.4 分OmniAct 上提升 0.3 分验证了 OmniBench 数据的泛化价值。七、结论与贡献1. 核心贡献提出OmniBench首个自生成、跨平台、图结构基准通过五维复杂度定义和自动化流水线生成 36k 高质量任务解决现有基准的复杂度不可控和标注成本高问题提出OmniEval首个多维度评估框架设计细粒度指标和 10 类能力测试集实现任务过程和核心能力的量化评估系统揭示能力边界通过大规模实验发现当前代理在图结构任务、子任务识别、长指令遵循上的核心短板并验证了任务意图和图结构数据的优化价值开源资源项目开源https://omni-bench.github.io/为虚拟代理研发提供标准化工具。2. 未来方向扩展更多环境如嵌入式设备和任务类型如实时协作任务探索更高效的图结构数据利用方式进一步提升代理的复杂任务处理能力优化评估框架支持动态复杂度调整和实时能力反馈。

相关文章:

OmniBench

提出了OmniBench—— 一个自生成、跨平台、图结构的虚拟代理评估基准,以及配套的OmniEval多维度评估框架。论文通过自动化任务合成、精细粒度能力评估,系统揭示了当前虚拟代理的能力边界,并验证了图结构数据对代理训练的增益,为虚…...

数字电路入门:手把手教你理解RS触发器的核心原理(附避坑指南)

数字电路入门:手把手教你理解RS触发器的核心原理(附避坑指南) 在数字电路的世界里,触发器(Flip-flop)就像是一个微型的记忆单元,能够存储一个比特的信息。而RS触发器作为最基础的触发器类型&…...

基于Java的OPC DA客户端开发与常见问题解析

1. OPC DA基础概念与Java开发准备 工业自动化领域的数据采集一直是个技术难点,不同厂商的设备协议各异,就像一群人说着不同的方言难以沟通。这时候OPC(OLE for Process Control)协议就像个专业翻译,而OPC DA&#xff0…...

算法复杂度理论的边界与不可计算性探讨的技术7

引言算法复杂度理论的核心问题与意义边界与不可计算性研究的动机文章结构概述计算模型与复杂度类图灵机与计算模型的形式化定义复杂度类(P、NP、PSPACE、EXP等)的关系与层次归约与完全性问题(如NP完全性)复杂度理论的边界时间与空…...

AGV调度算法深度解析:从避碰优化到千车并行的技术演进

1. AGV调度算法的核心挑战与演进脉络 AGV(自动导引车)调度系统是现代智能仓储和物流的核心基础设施,其核心算法经历了从单机控制到千车协同的技术跃迁。早期AGV系统主要解决单个车辆的路径规划问题,就像在空旷停车场里找车位那么…...

02:远程调用与负载均衡-RestTemplate+OpenFeign+Spring Cloud LoadBalancer

一:Ribbon-Feign 1.1:Ribbon–Fegin源码流程图 1.2:Ribbon实现负载均衡的原理 1:LoadBalancerAutoConfiguration这个类,这个类主要做的就是把LoadBalancer拦截器封装到RestTemplte拦截器集合里面去。 2:然后…...

关于Linux系统安装MySQL的流程

步骤1:手动下载 RHEL 9 适配的 MySQL 源包步骤2:安装源配置,清理并刷新 YUM 缓存步骤3:安装 MySQL 服务器步骤4:验证服务是否启动成功设置开机自启(避免重启失效)获取临时密码(安装后…...

WebRTC+H265实战:用WASM和WebGL打造浏览器端高清解码方案(附性能优化技巧)

WebRTCH265实战:用WASM和WebGL打造浏览器端高清解码方案(附性能优化技巧) 在视频技术领域,H265(HEVC)以其出色的压缩效率成为4K/8K时代的首选编码标准。然而浏览器原生支持的滞后性,让开发者不得…...

下单支付异常场景与测试场景

一、功能异常场景1. 订单创建阶段异常场景测试方法预期结果实际发现的问题商品库存不足下单时商品库存为0提示“库存不足”,订单创建失败✅ 正常商品已下架下单时商品状态为“已下架”提示“商品已下架”,订单创建失败✅ 正常商品价格异常价格字段为0或负…...

CloudWatch 告警实战:CPU 飙了自动扩容,账单超了 Slack 通知

上周五晚上 11 点,手机响了——线上服务 CPU 飙到 95%,用户开始投诉卡顿。等我打开电脑登上服务器,已经过去 15 分钟了。手动扩了一台实例,又花了 5 分钟。整个故障影响了将近 20 分钟。后来我花了一个下午搭了一套 CloudWatch 告…...

AirMusic 音乐视频推送手机变音响变电视 支持 AirPlay DLNA、Google Cast、Sonos、Denon HEOS 支持iPhone安卓电脑

AirMusic 一款可以将 Android 上正在播放的音频流推送到局域网 AirPlay 音箱的小工具 ​下载地址: 链接:​​https://pan.quark.cn/s/84ac7a6831ee​​ 链接:​​https://pan.xunlei.com/s/VOLKmmcSbOOmeiPqXp-wM0pIA1?pwdzvs8#​​ 简单…...

从对讲机到手机通话:图解单工、半双工、全双工,选错通信方式有多坑?

从对讲机到手机通话:图解单工、半双工、全双工,选错通信方式有多坑? 想象一下,你正在用对讲机组织一场户外活动。每次按下通话键时,你无法听到队友的回应;而当你松开按键准备接收时,对方又可能正…...

Qwen-Image-2512企业级部署方案:高可用架构设计

Qwen-Image-2512企业级部署方案:高可用架构设计 1. 企业级部署需求分析 现在越来越多的企业开始将AI图像生成能力集成到自己的业务系统中,但真正要在生产环境稳定运行,可不是简单装个软件就能解决的。特别是像Qwen-Image-2512这样的高质量文…...

终极免费NCM格式解密工具:ncmppGui完整使用指南

终极免费NCM格式解密工具:ncmppGui完整使用指南 【免费下载链接】ncmppGui 一个使用C编写的转换ncm文件的GUI工具 项目地址: https://gitcode.com/gh_mirrors/nc/ncmppGui 你是否曾经遇到过这样的困扰?在网易云音乐下载的歌曲只能在官方客户端播放…...

【C++面经】轻舟智航自动驾驶应用软件开发实习岗位

一面: 1、项目相关 (1)介绍一下你的多线程模型以及线程之间是怎麽通信的; (2)“消息风暴”是什么怎麽造成的 (3)关于机器人项目的串口协议是怎么自定义的 2、智能指针讲一下 3、Malloc和new的区别(底层实现也说一下) 能不能对mall…...

6.1.1 软件->PEP标准(PSF基金会):Python 标准库标准(Python Standard Library Specification)

详解 一句话定位:由 Python 软件基金会(PSF)制定并维护的官方规范,定义了 Python 标准库的核心组件、接口、行为准则及跨平台兼容性要求,是 multiprocessing、os、sys 等内置库的开发与使用依据 基本信息 特性说明制…...

DeepSpeed多卡通信避坑指南:all_to_all_single的5个常见错误及解决方法

DeepSpeed多卡通信实战:all_to_all_single高频问题排查手册 在分布式训练中,高效的数据交换是性能优化的关键环节。DeepSpeed作为当前最流行的深度学习优化库之一,其all_to_all_single方法被广泛应用于多GPU间的张量交换场景。然而在实际工程…...

scGPT环境配置:从零搭建深度学习研究平台

1. 深度学习环境搭建入门指南 刚接触scGPT时,我被复杂的依赖关系搞得晕头转向。后来才发现,搭建深度学习环境就像组装乐高积木,只要按步骤来其实并不难。这里分享我在NVIDIA A6000显卡上成功配置scGPT环境的完整过程,特别适合刚入…...

别再手动跳纤了!用MEMS光开关搭建智能光配线架(iODF)实战指南

MEMS光开关构建智能光配线架(iODF)的工程实践 凌晨三点的数据中心,运维工程师小王面对密密麻麻的ODF配线架,手中的光纤跳线在昏暗的灯光下泛着微光。业务部门紧急要求的链路调整,意味着他又要在这个狭小空间里完成数十…...

论文写作新利器:书匠策AI,让数据分析变得像呼吸一样自然!

在学术探索的征途中,每一位研究者都像是手持地图的探险家,而数据,则是那张藏满宝藏的神秘地图。然而,面对浩如烟海的数据,如何高效、准确地挖掘出其中的价值,成为了许多研究者心中的难题。别担心&#xff0…...

线性分类器:从基础概念到逻辑运算的实战解析

1. 线性分类器入门:从二维空间到超平面 想象你面前有一张白纸,上面随机散落着红色和蓝色的圆点。如果能够用一支笔直接画条直线把两种颜色的点分开,这就是线性分类器最直观的体现。在机器学习领域,这种能通过直线(或高…...

XSS攻防实战笔记:从反射、存储到DOM型的漏洞原理与靶场复现

1. XSS漏洞初探&#xff1a;当输入框变成攻击入口 第一次接触XSS漏洞时&#xff0c;我盯着那个普通的搜索框看了很久——谁能想到这个每天都要打交道的网页元素&#xff0c;竟然能成为黑客的攻击入口&#xff1f;记得当时我在一个测试网站上随手输入<script>alert(嘿&…...

文墨共鸣新手指南:如何构造高质量测试文本以验证‘异曲同工’判别力

文墨共鸣新手指南&#xff1a;如何构造高质量测试文本以验证‘异曲同工’判别力 1. 认识文墨共鸣系统 文墨共鸣是一个将深度学习技术与传统水墨美学相结合的语义相似度分析系统。它基于阿里达摩院开源的StructBERT大模型&#xff0c;专门针对中文语义优化设计。 这个系统的核…...

AIVideo赋能电商带货:自动生成产品介绍视频,节省拍摄剪辑成本

AIVideo赋能电商带货&#xff1a;自动生成产品介绍视频&#xff0c;节省拍摄剪辑成本 1. 电商视频制作的痛点与解决方案 在电商行业&#xff0c;产品介绍视频已经成为提升转化率的关键因素。然而传统视频制作面临三大难题&#xff1a; 成本高昂&#xff1a;专业拍摄团队日薪…...

单链表经典例题:相交链表 你一看就会

力扣的题目链接原题 https://leetcode.cn/problems/intersection-of-two-linked-lists/ 给你两个单链表的头节点 headA 和 headB &#xff0c;请你找出并返回两个单链表相交的起始节点。如果两个链表不存在相交节点&#xff0c;返回 null 。 图示两个链表在节点 c1 开始相交…...

Cosmos-Reason1-7B多场景落地:覆盖机器人、自动驾驶、工业质检等6大领域

Cosmos-Reason1-7B多场景落地&#xff1a;覆盖机器人、自动驾驶、工业质检等6大领域 1. 项目概述 Cosmos-Reason1-7B是NVIDIA推出的7B参数规模的多模态视觉语言模型&#xff0c;专注于物理常识理解和思维链推理能力。作为Cosmos世界基础模型平台的核心组件&#xff0c;它能够…...

我试了试用 SQL查 Linux日志,好用到飞起

最近发现点好玩的工具&#xff0c;迫不及待的想跟大家分享一下。大家平时都怎么查Linux日志呢&#xff1f;像我平时会用tail、head、cat、sed、more、less这些经典系统命令&#xff0c;或者awk这类三方数据过滤工具&#xff0c;配合起来查询效率很高。但在使用过程中有一点让我…...

别再纠结React拖拽库了!2025年实战对比:dnd-kit vs react-dnd vs antd Table

2025年React拖拽库深度选型指南&#xff1a;从垂直列表到复杂交互的全场景决策 在React生态系统中&#xff0c;拖拽功能实现一直是开发者面临的技术选型难题之一。随着2025年React 19的稳定发布和各类库的迭代演进&#xff0c;dnd-kit、react-dnd和antd Table等解决方案各自形成…...

别再为STM32F407+LAN8720以太网通信发愁了,这份CubeMX+FreeRTOS+LWIP的避坑配置指南请收好

STM32F407LAN8720以太网通信实战避坑指南&#xff1a;从CubeMX配置到FreeRTOSLWIP调优 实验室的灯光下&#xff0c;你盯着屏幕上闪烁的Ping请求超时提示&#xff0c;第17次尝试让STM32F407通过LAN8720与主机通信。作为嵌入式开发者&#xff0c;以太网通信本该是基础技能&#x…...

OpenClaw学习总结_II_频道系统_1:WhatsApp集成详解

II. 频道系统 - 1. WhatsApp &#x1f4cd; 课程位置 阶段&#xff1a;II. 频道系统 课序&#xff1a;第 1 课 前置知识&#xff1a;I. 核心架构&#xff08;Gateway/Session/Tools&#xff09; 后续课程&#xff1a;II-2. Telegram&#x1f3af; 本课核心问题&#xff08;你不…...