当前位置：首页 > article >正文

AI助手真的能帮你订机票、投简历吗？

article 2026/4/18 7:30:54

这项由英属哥伦比亚大学、滑铁卢大学、Vector Institute、卡内基梅隆大学、上海交通大学、浙江大学、香港科技大学、清华大学等十余所高校与研究机构联合开展的研究于2026年4月以预印本形式发布在arXiv平台论文编号为arXiv:2604.08523。你有没有想过让AI帮你订一张机票、在招聘网站投一份简历、或者在宠物用品平台下单买猫粮听起来很美好——只要动动嘴皮子AI就把事情全办了。事实上已经有不少人开始相信AI助手正在迅速接近这个目标毕竟你时常能听到AI完成了某某基准测试得分高达70%之类的新闻。然而当研究团队真正把AI放到真实的网站上让它去完成这些普通人每天都要做的事情时结果却相当出乎意料。即便是目前公认最强的AI模型也只能完成大约三分之一的任务。这个发现不是在说AI很差而是在说我们此前用来测量AI能力的尺子可能一直量错了地方。这项研究的核心产出是一个名为ClawBench的评测框架。它横跨153个真实网络任务、144个正在运营的真实网站、15个生活类别从日常购物、旅行预订、求职申请到学术注册、宠物服务、金融操作几乎涵盖了普通人在网上能碰到的所有需要动手操作的场景。更重要的是这些任务都在真实的网站上运行而不是搭建的模拟环境。一、AI做网络任务到底难在哪里要理解这项研究为什么重要先要搞清楚让AI完成网络任务这件事究竟难在哪里。假设你让一个朋友帮你在某个旅游网站上订一张从北京飞上海的机票经济舱12月31日出发单程。对于你的朋友来说这件事不过需要几分钟打开网站、填写出发地和目的地、选择日期、选择舱位、找到合适的航班、点击预订在确认页面再核对一遍信息最后提交。整个过程看似简单但中间涉及无数个小步骤网站可能弹出一个Cookie同意弹窗需要先点掉日期选择器的交互方式可能跟别的网站不一样某些选项藏在下拉菜单里需要点两次才能展开还有可能遇到验证码……这些在人类眼中只是小麻烦的东西对AI来说却是真实的挑战。现实网站不像教科书它们是动态的、不断变化的充满了各种JavaScript动态渲染的内容、各种意想不到的交互设计、各种需要登录验证的环节以及各种针对机器人的防御机制。过去研究者们为了让测试变得可控和可重复通常会搭建一个沙盒环境——就像在一个精心布置的摄影棚里拍照而不是在真实街道上拍摄。这些沙盒环境里的网站是静态的HTML页面DOM结构可以理解为网页的骨架结构是固定不变的不需要登录没有动态内容没有弹窗没有Cookie提示。在这样一个被极度简化的环境里AI的表现自然会好看很多。正是因为这个根本性的差距那些在旧式测试中表现亮眼的AI一旦放到真实的网站上就会原形毕露。研究团队把这个现象称为基准测试饱和——不是AI真的很强了而是测试题太简单了。二、一把真正难用的尺子是如何造出来的ClawBench的设计思路说白了就是既然要测真实能力就必须在真实环境里测。但真实网站有个大问题——如果AI真的帮你在购物网站下了单、在招聘网站投了简历、在餐厅平台订了位子这些操作可能会产生真实的后果比如真的被扣款、真的提交了一份不该提交的申请表。研究团队解决这个问题的方式非常精巧就像在现实赛道上安装了一个最后一步刹车。他们开发了一个轻量级的Chrome浏览器扩展程序配合一个基于CDPChrome开发者工具协议的监控服务器。这套系统会在AI操作整个过程中安静地旁观完全不干预AI与网站的任何交互——弹窗让AI自己处理动态页面让AI自己应对登录环节让AI自己摸索——直到最后那一刻当AI即将点下提交订单或发送申请这个最终的、不可逆的按钮时系统会在这个HTTP请求真正发出之前把它拦截下来记录下AI填写的所有内容然后阻止这个请求真正到达服务器。这样一来AI经历的是完整的、真实的网站操作过程但最终那个会产生真实后果的动作被悄悄拦截了。整个过程对AI来说是完全透明的它不知道有人在最后一秒按了刹车所以它会像真正要提交一样认真操作。这确保了测试的真实性同时又保证了零副作用——没有真实订单被提交没有真实申请被发出。任务库的构建同样经过了严格的筛选流程。研究团队的人工标注员逐一访问各类平台设计出真实的用户场景并亲自在同样的系统下完成每一个任务留下人类参考轨迹作为标准答案。整个153个任务的最终数据集经历了多轮筛选去掉了需要付费订阅的任务、地理限制导致无法访问的任务以及已经下线的网站上的任务。每一个拦截信号——也就是那个最后刹车的触发条件——都由人类专家手动标注明确指定是哪个URL、哪种HTTP请求方法、哪些表单字段以确保拦截系统不会误拦良性操作也不会漏掉真正的提交动作。在对全部153个任务的验证中这套拦截机制的准确率达到100%没有一次误触发。三、给AI装上行车记录仪五层数据记录系统ClawBench另一个值得细说的设计是它的五层行为数据记录系统。以往很多测试只看最终结果——AI有没有完成任务成了就是1分没成就是0分。但ClawBench想知道的不仅仅是结果还有为什么失败以及在哪一步出了问题。为了实现这一点系统在AI操作的每一个瞬间都同时记录五类数据。第一层是会话录像通过Xvfb虚拟显示器加上FFmpeg录屏工具把AI整个操作过程的浏览器画面完整录制下来就像给AI装了一台行车记录仪。第二层是动作截图每当AI执行一个操作点击、输入文字、滚动页面系统就立刻截一张屏记录下那一刻的页面状态。第三层是HTTP流量日志记录AI的操作引发的所有网络请求包括请求的内容、时间和目标地址最终被拦截的那个提交请求也属于这一层。第四层是AI自身的思考记录AI在每一步决策时产生的推理过程、工具调用记录和中间输出都以结构化的JSON格式保存下来。第五层是底层浏览器动作日志记录鼠标点击的坐标、键盘输入的内容、页面滚动的距离、标签页切换等低层次操作这份记录独立于AI的自我汇报可以作为交叉核验的依据。人类标注员在同样的系统下完成每一个任务也会产生同样格式的五层记录。这样AI的记录和人类的记录就形成了完全可以逐层对比的平行结构。当一个任务失败时开发者可以像侦探翻阅案件档案一样逐层查看AI当时看到了什么页面、做出了什么判断、执行了什么操作、最终提交了什么数据然后与人类参考记录逐步对照精确定位失败发生在哪一步、原因是什么。四、如何判断AI到底有没有完成任务有了这些记录接下来的问题是谁来判断AI做的对不对ClawBench的答案是用另一个AI来做裁判——具体来说是调用Claude Code这个具有代码执行和分析能力的AI子系统在一套固定的评估规则下把AI的完整轨迹记录和人类参考轨迹记录放在一起进行比对分析。这个评估AI不只是看最终状态而是进行逐步对齐找出AI和人类在对应步骤上的差异检查每一个必填字段是否填写正确判断AI最终到达的状态是否与人类参考轨迹等价。最终输出一个二元判定通过或失败并附上结构化的理由说明指出具体是哪个字段填错了、哪一步走偏了。这套评估体系还制定了一些特殊情况的处理规则。如果任务被验证码或手机号验证阻断但AI在此之前的所有操作都是正确的那么判定为通过——因为这是网站本身对自动化工具的防御不是AI能力的缺陷。如果任务中出现验证码但AI根本没有尝试处理则判定为失败。这些规则的存在让评判标准更贴近真实能力的考量而非机械地要求AI绕过所有人类安全机制。五、153个任务涵盖了哪些真实生活场景ClawBench的153个任务被组织成一个两级分类体系。在宏观层面分为八大类别日常生活类、工作类、开发技术类、社交类、学术类、旅行类、宠物类和金融类。每个大类下面再细分出具体的子类别总共形成15个细分方向包括日常生活与购物与娱乐、求职与办公室与个人管理、学术与教育、旅行、宠物、金融以及开发技术与自动化、评分与社交等。这些任务的性质非常具体都是普通人在生活中真实需要完成的操作而且每一个都涉及在网站上提交某种最终动作——填写并提交表单、完成购买流程、发出预订请求、提交申请材料等。这一类任务被研究团队称为写入型任务write-heavy tasks与单纯在网上查信息的只读型任务形成对比。研究者选择聚焦在写入型任务正是因为这类任务在过去的测试体系中几乎是空白但在现实生活中却是人们最需要AI帮忙的那部分。六、七个顶尖AI模型的真实考场成绩单研究团队在ClawBench上测试了7个当前最主流的前沿AI模型其中包括5个商业闭源模型Claude Sonnet 4.6、GPT-5.4、Gemini 3.1 Flash Lite、Claude Haiku 4.5、Gemini 3 Flash以及2个开源模型GLM-5和Kimi K2.5。整体结果相当清晰地描绘出了当前AI能力的真实边界。排名第一的Claude Sonnet 4.6完成了33.3%的任务第二名GLM-5完成了24.2%第三名Gemini 3 Flash完成了19.0%第四名Claude Haiku 4.5完成了18.3%。而GPT-5.4只完成了6.5%的任务Gemini 3.1 Flash Lite完成了3.3%排名最末的Kimi K2.5仅完成了0.7%——几乎可以认为是基本失能。这个结果的反差感在与其他测试的对比中更加突出。Claude Sonnet 4.6在OSWorld一个基于虚拟机沙盒的操作系统任务测试上的得分是72.5%在WebArena一个基于自托管沙盒的网页任务测试上的得分是75.0%而在ClawBench上只有33.3%。GPT-5.4在同样这两个旧测试上分别得了66.4%和67.3%在ClawBench上却只有6.5%。这两个数字之间的悬殊差距清楚地说明了一件事在受控沙盒里表现出色并不等于在真实网络环境中具备实际能力。从细分类别来看不同模型在不同类别上的表现也大相径庭没有任何一个模型在所有类别上都占主导地位。Claude Sonnet 4.6在日常生活类44.2%、金融类50%、学术类50%和社交类38.9%表现最好GLM-5在工作类38.1%表现领先Gemini 3 Flash在旅行类30.8%拔得头筹Claude Haiku 4.5则在开发技术类27.8%相对占优。这种分散的领先格局说明当前的AI在不同领域的能力发展并不均衡还没有任何一个模型能够在日常网络任务上展现出全面稳定的胜任能力。七、ClawBench与其他测试框架的根本区别为了让读者更清楚地理解ClawBench的定位有必要把它和目前主流的几个同类测试框架放在一起比较。WebArena有812个任务但全部运行在5个自托管的沙盒网站上使用的是脚本化验证没有行为轨迹记录也没有人类参考轨迹。VisualWebArena类似910个任务只覆盖3个自托管网站偏向视觉任务。OSWorld有369个任务覆盖9个应用程序运行在虚拟机沙盒里使用脚本加截图的方式验证没有人类参考轨迹。Mind2Web覆盖了2350个任务和137个真实网站但测试的是动作序列的匹配而非端到端的任务完成且只有部分人类参考轨迹。WebVoyager在真实网站上运行有643个任务覆盖15个网站但全部是只读信息检索型任务用AI作为裁判打分只有截图记录。ClawBench则是在144个真实网站上运行153个任务全部是写入型的状态改变任务使用基于人类参考轨迹的Agentic Evaluator进行五层对比评估并为所有任务提供完整的人类参考轨迹。这套组合——真实网站、写入型任务、人类参考轨迹、五层记录、可追溯的失败诊断——在现有所有测试框架中是独一无二的。研究团队还在图表中展示了一个基准饱和曲线列出了Claude Sonnet 4.6在一系列测试上的得分从高到低排列PinchBench 88.0%、WildClawBench 77.6%、WebArena-Verified 72.5%、OSWorld-Verified 66.4%、Claw-Eval 51.1%、ClawBench 33.3%。这条下降曲线非常直观地说明测试越接近真实世界的复杂性AI的得分就越低。ClawBench在这条曲线的末端是目前最接近真实挑战的测试。说到底ClawBench这项研究揭示的核心信息并不复杂我们以为AI已经很能干很大程度上是因为我们用来测量它能力的工具本身就被设计得过于友好。真实网站的混乱、动态、复杂才是AI真正需要面对的考场而在这个考场上最强的选手也只能拿到三分之一的分数。这当然不意味着AI一无是处它只是意味着在AI真正能帮你搞定机票、简历和外卖之前还有相当长的路要走。对于普通人来说这项研究是一个有益的提醒目前AI作为网络操作助手的能力远不如各种宣传材料描述的那么成熟可靠在真正把敏感任务交给AI之前还是要多留一个心眼。对于AI研究者和开发者来说ClawBench提供的不仅是一个更难的考题还有一套详尽的失败诊断工具——它能告诉你AI具体在哪一步卡壳了这对于改进AI的实际能力远比一个笼统的分数有价值。有兴趣深入探究这一研究的读者可以通过arXiv编号2604.08523查阅完整论文也可以访问研究团队的项目主页claw-bench.com获取更多信息和数据集。QAQ1ClawBench和WebArena这类旧测试有什么本质区别AWebArena等旧测试在自托管的沙盒网站上运行网页结构固定、没有弹窗和动态内容相当于在一个特别简化的练习场里考AI。ClawBench则直接在144个真实运营的网站上测试AI要面对Cookie弹窗、动态页面、验证码等真实挑战同时测的任务都是需要填表单、提交订单等会改变服务器状态的操作更贴近人们日常真正需要AI完成的事情。Q2ClawBench测试怎么保证AI不会真的在网站上下单或提交申请A研究团队开发了一个Chrome浏览器扩展程序在AI操作全程安静旁观不干预直到AI触发最终提交的HTTP请求时系统在请求发出之前将其拦截记录下AI填写的内容但阻止它真正到达服务器。AI的整个操作体验是完整真实的只有最后那一下被悄悄刹住确保零真实副作用。Q3目前最强的AI模型在ClawBench上的通过率是多少A目前在ClawBench上表现最好的是Claude Sonnet 4.6通过率为33.3%意味着153个任务里大约只能完成51个。排名第二的GLM-5通过率为24.2%而GPT-5.4只有6.5%Kimi K2.5更是只有0.7%。这与这些模型在旧式测试上动辄65%-75%的得分形成了鲜明对比。

AI助手真的能帮你订机票、投简历吗？

相关文章：

AI助手真的能帮你订机票、投简历吗？

华硕笔记本必备神器：5分钟掌握G-Helper轻量级控制工具

从零到一：3天用Unity和WPF打造专属Galgame播放器《Galplayer》实战手记

Element UI行政区划数据实战：如何构建高性能三级联动组件

Blender3mfFormat终极指南：实现专业级3D打印工作流的完整解决方案

保姆级教程：用GMT6.1绘制专业地形起伏图（从数据下载到出图避坑）

外汇api接口实践：实时汇率与历史数据获取

B站视频下载终极方案：用BilibiliDown轻松保存你喜欢的每一帧 [特殊字符]

超强OCR识别，速度快（支持图片，PDF数学公式以及化学符号）MinerU-0.13.1

VideoAgentTrek Screen Filter 艺术化过滤效果展示：超越隐私保护的创意应用

虚拟机基础：JVM、V8 运行机制极简科普

告别手动守护进程：NSSM命令行实战，打造稳定Windows后台服务

突破性设计转移动画架构：AEUX重构设计工具到After Effects的无损转换引擎

KNOWLEDGE IS NOT STATIC: ORDER-AWARE HYPERGRAPH RAG FOR LANGUAGE MODELS（论文解读）

如何利用SQL存储过程构建视图_实现逻辑复杂的动态视图

SQL嵌套查询处理大数据量_内存压力缓解方案

第一阶段：Java入门基础 |流程控制语句

Arduino TFT_eSPI库进阶玩法：用Sprite（精灵图）制作流畅动画和动态仪表盘

避坑指南：STM32F103C8T6标准库移植机智云函数时，那些没人告诉你的细节（附完整工程）

YOLOv5超参数进化实战：从零到一构建你的专属优化策略

从零构建OpenMV与STM32串口通信系统：协议解析与实战调试

Mintegral 广告平台 ROI 指数排名进入全球前四，多维度数据验证全球流量竞争力

5分钟搞定！nanobot超轻量级AI助手快速部署与基础功能体验

别再手动配置了！Dify插件市场(Marketplace)的3个高效安装技巧与实战避坑

std::promise和std::future的用法

京东抢购神器JDspyder：3步实现自动化秒杀，告别手动抢购烦恼

NVIDIA Profile Inspector：显卡性能调校的艺术与技术深度解析

图片修复神器：fft npainting lama快速去除水印实战体验

Pixel Dimension Fissioner 企业级CI/CD流水线设计：从代码到部署

Kimi-VL-A3B-Thinking一文详解：开源VLM如何实现OCR/数学/多图理解三合一