当前位置：首页 > news >正文

下一代Windows系统曝光：基于GPT-4V，Agent跨应用调度，代号UFO

news 2026/5/19 2:33:58

下一代Windows操作系统提前曝光了？？

微软首个为Windows而设的智能体（Agent）亮相：

基于GPT-4V，一句话就可以在多个应用中无缝切换，完成复杂任务。整个过程无需人为干预，其执行成功率和效率是GPT-4的两倍，GPT-3.5的四倍。

比如，删除PPT演示文稿上的所有备注。

几个简单步骤就可完成。

还有像利用多个来源文本，比如word文档、图像文本内容，撰写电子邮件。

网友表示：这才是Windows级别应有的创新能力

第一个Windows Agent来了

这样一个智能体叫做UFO，全名“UI-Focused”，是一个专为Windows OS（操作系统）交互设计、面向用户界面（UI）的智能体框架，可以在单个或者多个应用程序中操作，由MSRA、微软AI与应用研究团队等共同打造。

用户就可以通过自然语言指令，来操作App的用户界面。

据介绍，UFO是第一个专为Windows OS环境中的任务完成量身定制的UI Agent。

就拿删除PPT上的所有注释为例。传统方式需要一页一页手动删除注释。如果PPT巨长无比，这个过程就会又久又无聊，让人瞬间暴躁。

但UFO得到指令后，简化了整个过程。

它先是提议用“删除所有演示笔记”功能，这个功能因为按钮位置藏得很深，经常被用户忽视。

而后，UFO导航到“File”选项，对后台视图进行访问；然后，再平滑地切换到“info”菜单，单击“检查问题”按钮，并选择“检查文档”，开始检查文档中所有包含的注释。

紧接着，UFO识别到菜单地步的“删除所有演示笔记”，向下滚动定位到其位置，启动单击功能。

考虑到误删的可能性，UFO这里有一道保护功能，需要用户再次确定是否真的要删除所有注释。

用户一旦确认，所有笔记就“ 彭 ”的一下都没有了～

如PowerPoint这般，文章中对其它几个场景进行了图文并茂的展示。

比如读一篇PDF：

设计PPT格式：

下载Docker拓展：

发条推文：

搜索总结：

读篇paper：

以及怎么利用UFO在Word文档里提取文本、描述图像、撰写然后发送电子邮件等。

研究团队在9个常用的Windows应用程序上对UFO进行了测试，包括Outlook、Photos、PPT、Word等，涵盖了Windows用户的高频使用场景，能够测试工作、交流、编码、阅读、网页浏览等目的。

对于每个应用程序，团队设计了5个不同的请求，共45个；另外还设计了5个设计跨多个交互应用程序的请求。

也就是说，共产生了50个请求，每个应用程序至少有一个请求链接到另一个后续请求，提供全面评估UFO的互动模式。

在评估指标方面，则从成功度、步骤、完成率和保障率这几个角度来评估UFO。

为了全面评估UFO的性能，团队开发了名为WindowsBench的测试基准。

考虑到没有现成的Windows Agent，团队选择GPT-3.5和GPT-4作为基座模型，并且指示它们提供一步一步的指导来完成用户请求。

值得注意的是，UFO在WindowsBench上成功率达到了86%，成倍超过了GPT-4——因此UFO可以被定位为一个高效的Agent。

而UFO的完成率也是最好的，这表明它有能力采取更精确的动作；此外，UFO完成任务的步骤也是最少的，安全度也是最高的。

最后，9个场景从4个角度在WindowsBench的详细得分如下：

三个模块组成

既然如此，这样一个操作系统级别的Agent，究竟是如何实现的呢？

首先，它理解用户的自然语言要求，然后将其分解为一系列子任务。然后观察用户界面，并对其控制元素进行操作，以实现总体目标。

既然如此，又是如何实现的呢？

架构上看，UFO是个双Agent框架，主要有三个模块：

应用智能体（AppAgent），选择一个应用程序满足用户请求。
行动智能体（ActAgent），负责在所选应用中反复执行任务。
交互控制，无需人工干预，全自动执行。

在收到用户请求后，AppAgent会对需求进行分析。除此之外，还有这些信息作为输入：桌面截图、App信息、记忆以及示例。

其中，UFO为AppAgent提供了完整的桌面截图和可用应用程序列表以供参考。

然后从当前激活的应用程序中选择一个合适的应用程序，并制定一个全局实现计划，将其传递给ActAgent。

一旦找到合适的应用程序，App就会出现在桌面上。随后ActAgent启动操作。

在每个操作选择之前，UFO都会捕获当前应用程序用户界面窗口的屏幕截图，并标注所有可用控件。此外，UFO还记录了每个控件的相关信息，供 ActAgent观察。

ActAgent的任务是选择要操作的控件，然后通过控件交互模块选择要在所选控件上执行的特定操作。

这一决定是基于 ActAgent 的观察结果、先前计划和操作记忆做出的。

这个递归过程一直持续到用户请求在所选应用程序中成功完成为止。至此，用户请求的一个阶段结束。

如果需要跨越多个应用程序，那么在ActAgent 完成当前任务之后，ActAgent 将把任务委托给 AppAgent，以便切换到不同的应用程序，从而启动请求的第二阶段。

用户可以选择提出新的请求，促使 UFO 通过重复上述过程来处理新任务。

研究团队依据日常鼠标操作，还开发了自定义操作，比如单击、选择文本、滚动等，以此来完成对于控件的操作。

主要有这些控制类型。

微软全球资深副总裁、MSRA副院长领衔

最后介绍一下UFO的研究团队，其中大多数都为华人。

通讯作者Chaoyun Zhang，是微软DKI（Data、Knowledge、Intelligence，数据/知识/情报）*小组的高级研究员。

他于2020年，在爱丁堡大学获得硕士和博士学位，研究兴趣包括时间序列建模、时空数据挖掘、因果推理以及云服务和 AIOps的可解释机器学习。

Chaoyun Zhang还是华中科技大学校友，出国前在华中科技大学电子信息与通信学院取得学士学位。

作者Liqun Li，现为微软DKI组首席研究员。

他先毕业于清华大学计算机科学与技术系，取得学士学位；而后又在2012年获得中国科学院软件研究所博士学位。期间，Liqun Li曾作为访问学者前往密歇根州立大学。

作者Saravan Rajmohan，Miceosoft 365的AI及应用研究的合作伙伴总监。

他领导应用研究团队与Microsoft的各个研究小组进行深入协作，将算法研究与AI/ML技术和硬件创新相结合

作者张冬梅，MSRA（微软亚洲研究院）常务副院长，微软杰出首席科学家。

她从2004年起加入MSRA，从事和领导DKI领域的研究工作，近几年，团队将研究扩大到商业智能领域。

作者张祺，微软全球资深副总裁。

此前，张祺曾任微软（亚洲）互联网工程院常务副院长，兼任微软移动联新互联网服务有限公司董事长，负责微软互联网业务及人工智能平台在亚洲的团队。

同时，他也是微软中国首位“全球杰出工程师”。

最后，简单介绍一下多位作者的工作单位：MSRA的DKI组。

DKI是Data、Knowledge、Intelligence的简写。

该小组致力于AI、数据分析、数据交互、数据可视化的研究，探索全新的数据分析、展示、交互技术，让数据和数据中的发现故事被高效地理解、广泛地传播。

团队与微软产品如Excel，PowerPoint等深度合作，常年在各个领域的顶会和期刊上发表论文。

下一代Windows系统曝光：基于GPT-4V，Agent跨应用调度，代号UFO

第一个Windows Agent来了

三个模块组成

微软全球资深副总裁、MSRA副院长领衔

相关文章：

下一代Windows系统曝光：基于GPT-4V，Agent跨应用调度，代号UFO

二.自定义头文件

【AIGC】Stable Diffusion之模型微调工具

探索未来科技前沿：深度学习的进展与应用

PTA | Wifi密码

Linux中gdb使用说明书

LInux——开发工具的使用

沁恒CH32V30X学习笔记03--64位systick

【JavaEE】IP协议

计算机网络-数据通信基础

【lesson53】线程控制

TypeScript（一）：TypeScript基本理解

C语言—指针

c++作业

什么是tomcat？tomcat是干什么用的？

中科院一区论文复现，改进蜣螂算法，Fuch映射+反向学习+自适应步长+随机差分变异，MATLAB代码...

C# 如何实现一个事件总线

Python学习路线图

作业2.14

基于python+django+mysql的小区物业管理系统

运维开发必备：5分钟搞定CentOS 7下ncurses库的安装与基础使用

视频均衡驱动器,最大支持1920x1080@60（1080P60）的信号

企业智能体如何高效快速部署落地，这N个细节需要注意

构建金融级 AI Agent：Claude for Financial Services 架构解析

CAXA 中心线

基于OpenCV与MediaPipe的手势与头部姿态控制鼠标实现

STM32F411CEU6实战：用W25Q64给1.54寸LCD屏做个‘离线相册’，附完整源码与图片转换工具

AI超级计算机架构演进与性能优化解析

为Cursor AI编程助手配置安全规则：防范代码生成风险

如何在5分钟内免费创建4K虚拟显示器：ParsecVDisplay终极指南