当前位置：首页 > article >正文

OmniBench

article 2026/3/23 20:55:38

提出了OmniBench—— 一个自生成、跨平台、图结构的虚拟代理评估基准以及配套的OmniEval多维度评估框架。论文通过自动化任务合成、精细粒度能力评估系统揭示了当前虚拟代理的能力边界并验证了图结构数据对代理训练的增益为虚拟代理的研发提供了标准化工具和关键洞察。一、研究背景与核心问题随着多模态大语言模型MLLMs的发展基于 MLLMs 的虚拟代理在网页导航、设备控制、计算机交互等场景中展现出潜力但现有评估基准存在显著局限任务复杂度不可控且固定现有基准多直接提供完整任务无法按能力维度生成渐进式复杂度任务难以适配不同水平的代理也无法精准定位能力瓶颈人工标注成本高且场景有限依赖人工标注演示轨迹或评估函数规模扩展困难且标注数据受人类经验局限难以覆盖多样化真实场景缺乏多维度细粒度评估仅关注任务最终结果或与人类轨迹的相似度忽略中间执行过程无法量化代理在规划、指令理解等细分能力上的表现难以指导后续优化。为解决上述问题论文核心目标是构建一个低成本、可扩展、复杂度可控的基准以及一套多维度、细粒度的评估框架全面衡量虚拟代理的核心能力。二、相关工作综述虚拟数字代理现有代理如 CogAgent、SeeClick、UGround在 GUI 理解、视觉接地等方面取得进展但缺乏统一的评估标准来量化其综合能力虚拟代理基准轨迹基基准如 AndroidInTheWild对比代理与人类轨迹相似度但忽略多可行轨迹的合理性结果基基准如 OSWorld关注任务最终状态缺乏中间过程评估图结构基准如 CRAB、TASKBENCH支持多轨迹和中间评估但任务分析不系统缺乏复杂度可控性和多维度能力覆盖。论文指出OmniBench 是首个通过图结构定义可组合任务复杂度、并评估多类核心能力的可扩展基准。三、核心设计OmniBench 基准构建OmniBench 的核心是图结构任务表示和自动化任务合成流水线实现 “复杂度可控、场景多样、低成本生成” 的目标具体设计如下1. 任务图与五维复杂度定义论文将任务建模为有向无环图DAGG{S,R}其中S{s1,s2,...,sn} 为子任务集合每个子任务是独立可执行的最小单元含输入 / 输出资源R{(sa,sb)} 为子任务依赖关系sb 依赖 sa 的输出资源作为输入。基于图拓扑结构论文定义五维任务复杂度每类复杂度分 “简单 / 中等 / 困难” 三级可精准控制任务难度表格复杂度维度计算方式简单中等困难依赖复杂度图中边的数量子任务依赖数≤12~3≥4指令复杂度图中节点的数量子任务数≤23~4≥5知识复杂度涉及的应用类别数≤12~3≥4层级复杂度图的深度子任务层级数≤23~4≥5分支复杂度图的宽度并行子任务数≤23~4≥52. 自动化任务合成流水线Bottom-up为避免人工标注论文设计四步自动化流水线生成 36k 高质量图结构任务人类接受率达 91%子任务探索构建含 49 个应用覆盖办公、多媒体、编程等 12 类的环境让 MLLMs 结合应用文档和示例生成多样化可执行子任务并定义每个子任务的输入 / 输出资源如 “下载图片” 的输入是 “图片 URL”输出是 “本地图片路径”迭代合成轨迹合成用先进 MLLMs 生成子任务的执行轨迹含截图、动作、思考过程评估函数合成预定义 11 个系统级 API如检查文件存在、键盘输入、文本识别通过 Code LLMClaude-3.5-Sonnet组合 API生成子任务的细粒度评估函数支持部分得分交叉验证迭代优化轨迹和评估函数确保准确性任务组合提取 “任务意图”如 “为 Emily 创建个人介绍 PPT”将子任务池中的相关子任务按资源依赖关系组合为图结构任务避免无意义组合如 “打开外卖 APP 后立即关闭”任务验证用 GPT-4o 基于任务图生成自然语言指令再让 GPT-4o 仅通过指令推断子任务依赖若与原图一致则验证通过确保指令与图结构语义对齐。3. OmniBench 核心特征与统计任务规模36,076 个图结构任务是主流环境基准的 40 倍场景覆盖20 个真实场景如办公协作、视频编辑、屏幕录制支持桌面 / 移动 / 网页跨平台评估任务类型含网络独立本地任务53.95%和网络依赖真实任务46.05%平均每个任务涉及 2.21 个应用复杂度分布困难级任务占比最高如知识复杂度 52.4%、分支复杂度 46.7%符合真实场景任务特性。四、评估框架OmniEval 多维度能力评估OmniEval 针对虚拟代理的核心能力设计细粒度评估指标和10 类能力测试集实现 “过程可量化、能力可拆解” 的评估目标1. 图基评估器与双指标设计针对传统评估的粗粒度缺陷OmniEval 引入图基评估器定义子任务的三种状态Completed/Evaluating/Waiting按拓扑序逐步评估并设计两个核心指标覆盖率Coverage Rate, CR量化代理在任务图上的进展对深层子任务依赖多赋予更高权重公式如下w(si)∑j1nd(sj)d(si),CR∑i1nw(si)∑i1nw(si)⋅I(si)其中 d(si) 为子任务 si 的深度I(si)1 表示子任务完成逻辑一致性Logical Consistency, LC量化代理与人类操作逻辑的相似度人类倾向于完成同一应用的子任务后再切换公式如下LCCSmaxCSagent其中 CS 为子任务序列的连贯性得分相邻子任务同应用则 1CSmax 为所有拓扑序列中的最大连贯性得分。2. 10 类核心能力与测试集构建论文将虚拟代理的核心能力拆解为 10 类每类能力对应特定的五维复杂度组合通过约束复杂度维度生成测试任务具体如下表格能力类别核心要求对应复杂度组合困难级并行规划PP处理多并行子任务依赖复杂度分支复杂度长程规划LRP处理深层级依赖子任务依赖复杂度层级复杂度长序列推理LSR处理长序列子任务指令复杂度层级复杂度长指令遵循LIF理解长文本指令层级复杂度分支复杂度顺序决策SDK按序完成依赖子任务层级复杂度分支复杂度跨域决策CDDK跨应用类别完成任务分支复杂度知识复杂度子任务识别SI从指令中拆解子任务依赖复杂度指令复杂度依赖识别DI识别子任务间依赖关系依赖复杂度指令复杂度跨域知识CDK运用多应用领域知识指令复杂度知识复杂度领域特定知识DSK运用单一应用专业知识指令复杂度知识复杂度单一领域五、实验设计与核心结果论文在 OmniBench 上评估了 12 种主流模型开源 MLLMs、闭源 MLLMs、虚拟代理、基于 OmniBench 微调的代理并通过多维度分析揭示虚拟代理的能力边界和优化方向。1. 实验设置硬件NVIDIA A100 80G GPU输入统一缩放图像至 1024×1024支持截图辅助技术A11Y双模态输入基线模型4 类共 12 个模型如 GPT-4o、Qwen2-VL-7B、Aguvis-7B、OS-Atlas-Pro-4B 等微调模型基于 OmniBench 数据微调 OS-Atlas-Base-4B 和 UGround-V1-7B验证图结构数据的有效性。2. 核心实验结果1主流代理的能力边界整体性能GPT-4o 表现最优CR38.7、LC49.0但远低于人类基线CR80.1、LC92.8开源模型如 InternVL2.5-8B和普通虚拟代理如 Aguvis-7B性能更低CR≈17-25能力短板所有模型在子任务识别SI和长指令遵循LIF上表现最差即使 GPT-4o 的 SI 仅 30.6、LIF 仅 32.2远低于人类的 69.1 和 66.1成为当前代理的核心瓶颈微调增益基于 OmniBench 微调的代理如 Omni-UGround-V1-7B在规划、决策类能力上显著提升SDK42.4、CDDK43.1验证了图结构数据的训练价值。2图结构任务处理能力薄弱对比链结构线性和图结构含并行 / 分支任务节点 / 边数、知识复杂度一致发现GPT-4o 在图结构任务上的准确率仅 20.5%远低于人类的 80.1% 和链结构任务的 35.2%原因现有代理多在链结构数据上微调倾向于将图结构任务解读为线性难以识别子任务依赖关系。3任务复杂度的影响所有模型的性能随复杂度提升显著下降平均下降 6.19 分且在指令复杂度和知识复杂度上的下降最明显如 UGround-7B 在困难级指令复杂度任务上性能下降 13.6 分验证了 OmniBench 复杂度控制的有效性。3. 深度分析1任务意图的关键作用闭源模型在 prompt 中加入任务意图如 “为 Emily 创建 PPT”规划性能平均从 23.4% 提升至 28.9%GPT-4o 提升最显著8.9 分开源模型微调数据中加入任务意图规划性能从 30.5% 提升至 31.9%证明任务意图能帮助代理把握核心目标优化规划逻辑。2指令表达顺序的敏感性现有代理如 OS-Atlas-Pro、Aguvis对指令顺序敏感标准差平均 8.21顺序变化导致性能波动基于 OmniBench 微调的代理如 Omni-OS-Atlas敏感性降低 7.91 分说明图结构数据能帮助代理识别指令中的内在依赖提升鲁棒性。3错误类型分析对 100 个失败案例的分析显示代理失败的五大原因幻觉成功36%错误认为任务完成上下文记忆薄弱指令理解错误23%忽略指令关键操作如保存文件知识缺失21%不熟悉应用功能如 Zotero 创建参考文献列表接地错误17%知道要点击的目标但定位错误环境干扰3%网络延迟等外部因素。六、消融实验与扩展性验证1. 质量控制模块的有效性OmniBench 的三个质量控制模块交叉验证、意图提取、一致性验证对任务质量至关重要移除交叉验证人类接受率从 90.7% 降至 61.2%最大降幅移除意图提取接受率降至 82.7%移除一致性验证接受率降至 86.5%证明三者协同保障了任务的合理性和语义一致性。2. 跨基准扩展性在 AndroidControl 和 OmniAct 基准上基于 OmniBench 微调的代理表现更优Omni-OS-Atlas-4B 在 AndroidControl 上的成功率提升 0.46 分OmniAct 上提升 0.73 分Omni-UGround-V1-7B 在 AndroidControl 上提升 0.4 分OmniAct 上提升 0.3 分验证了 OmniBench 数据的泛化价值。七、结论与贡献1. 核心贡献提出OmniBench首个自生成、跨平台、图结构基准通过五维复杂度定义和自动化流水线生成 36k 高质量任务解决现有基准的复杂度不可控和标注成本高问题提出OmniEval首个多维度评估框架设计细粒度指标和 10 类能力测试集实现任务过程和核心能力的量化评估系统揭示能力边界通过大规模实验发现当前代理在图结构任务、子任务识别、长指令遵循上的核心短板并验证了任务意图和图结构数据的优化价值开源资源项目开源https://omni-bench.github.io/为虚拟代理研发提供标准化工具。2. 未来方向扩展更多环境如嵌入式设备和任务类型如实时协作任务探索更高效的图结构数据利用方式进一步提升代理的复杂任务处理能力优化评估框架支持动态复杂度调整和实时能力反馈。

OmniBench

相关文章：

OmniBench

数字电路入门：手把手教你理解RS触发器的核心原理（附避坑指南）

基于Java的OPC DA客户端开发与常见问题解析

算法复杂度理论的边界与不可计算性探讨的技术7

AGV调度算法深度解析：从避碰优化到千车并行的技术演进

02：远程调用与负载均衡-RestTemplate+OpenFeign+Spring Cloud LoadBalancer

关于Linux系统安装MySQL的流程

WebRTC+H265实战：用WASM和WebGL打造浏览器端高清解码方案（附性能优化技巧）

下单支付异常场景与测试场景

CloudWatch 告警实战：CPU 飙了自动扩容，账单超了 Slack 通知

AirMusic 音乐视频推送手机变音响变电视支持 AirPlay DLNA、Google Cast、Sonos、Denon HEOS 支持iPhone安卓电脑

从对讲机到手机通话：图解单工、半双工、全双工，选错通信方式有多坑？

Qwen-Image-2512企业级部署方案：高可用架构设计

终极免费NCM格式解密工具：ncmppGui完整使用指南

【C++面经】轻舟智航自动驾驶应用软件开发实习岗位

6.1.1 软件-＞PEP标准（PSF基金会）：Python 标准库标准（Python Standard Library Specification）

DeepSpeed多卡通信避坑指南：all_to_all_single的5个常见错误及解决方法

scGPT环境配置：从零搭建深度学习研究平台

别再手动跳纤了！用MEMS光开关搭建智能光配线架（iODF）实战指南

论文写作新利器：书匠策AI，让数据分析变得像呼吸一样自然！

线性分类器：从基础概念到逻辑运算的实战解析

XSS攻防实战笔记：从反射、存储到DOM型的漏洞原理与靶场复现

文墨共鸣新手指南：如何构造高质量测试文本以验证‘异曲同工’判别力

AIVideo赋能电商带货：自动生成产品介绍视频，节省拍摄剪辑成本

单链表经典例题：相交链表你一看就会

Cosmos-Reason1-7B多场景落地：覆盖机器人、自动驾驶、工业质检等6大领域

我试了试用 SQL查 Linux日志，好用到飞起

别再纠结React拖拽库了！2025年实战对比：dnd-kit vs react-dnd vs antd Table

别再为STM32F407+LAN8720以太网通信发愁了，这份CubeMX+FreeRTOS+LWIP的避坑配置指南请收好

OpenClaw学习总结_II_频道系统_1：WhatsApp集成详解