当前位置：首页 > article >正文

中科院深圳先进技术研究院等机构揭示网站生成智能体的致命盲区

article 2026/5/8 0:44:18

这项由中国科学院深圳先进技术研究院、中国科学院大学、大连理工大学以及澳大利亚新南威尔士大学共同完成的研究以预印本形式发布于2026年4月30日论文编号为arXiv:2604.27419v1分类于计算机人工智能领域。感兴趣的读者可通过该编号在arXiv平台检索完整论文。一、从说一声就能建网站的美好愿景到现实的尴尬有没有这样一个场景你对着电脑说帮我做一个能卖二手书的网站要有点复古的感觉最好是那种泛黄的暖色调然后AI真的就给你做好了这个愿景正在快速变为现实。随着多模态大语言模型和智能编程助手的飞速发展网站开发正从需要专业程序员逐步走向普通人用自然语言就能驱动的新时代。然而现实并不像宣传片里那么顺滑。研究团队注意到了一个普遍存在却鲜少被正视的问题当普通用户——也就是那些不懂CSS、不知道什么是前端框架的人——用含糊不清或前后矛盾的话描述需求时AI系统往往会陷入一种闭眼干活的状态。它不去询问、不去确认直接就开始写代码结果交出来的东西看起来挺像那么回事但根本不是你想要的。研究团队把这种现象命名为盲执行Blind Execution。这个词精准地描述了问题所在AI就像一个收到一张模糊菜单的厨师既不回厨房问清楚客人到底想要辣还是不辣、有没有忌口就直接开炒端出来的菜品卖相不错却可能完全不合口味。这篇论文的核心任务就是系统地测量这种闭眼干活现象到底有多普遍、多严重并为改善它提供一个可靠的测试平台。二、现有测试平台有什么问题为什么需要新的评测框架在弄清楚研究团队做了什么之前有必要了解他们为什么要重新建一套评测体系。此前已经有一些专门测试AI网站生成能力的基准测试比如把一张网页截图交给AI、让它还原出对应代码的Design2Code或者给出完整的文字说明让AI从零搭建网站的WebGen-Bench。但这些测试有一个共同的理想化假设用户提供的需求是完整的、清晰的、逻辑自洽的。这就好比评估一位厨师的能力只给他提供最标准的食谱从不测试他在面对我想要一道既清淡又重口味、既甜又不能放糖这类矛盾需求时该怎么办。真实世界的用户根本不是这样描述需求的。他们可能极度简短只说给我做个购物网站把所有细节都省略掉也可能极度啰嗦在说完真正需求之前先聊了半天天气还可能在同一段话里前后矛盾要求页面简洁干净的同时又想要信息丰富、功能齐全。面对这类不完美的真实输入现有的测试体系几乎无从评估。研究团队认为这个空白必须被填补。于是他们设计了InteractWeb-Bench一个专门针对非专业用户、模糊需求场景下网站生成的交互式评测框架也是目前该领域第一个这样做的系统性基准测试。三、四类捣乱用户把真实的混乱系统化InteractWeb-Bench的核心创新之一在于它引入了四种类型的模拟用户每一种都对应着真实生活中某类人提需求的方式。设计这四种角色时研究团队并非凭感觉拍脑袋而是基于软件工程领域中被广泛认可的需求工程缺陷分类学——一套经过学术验证的、用于描述用户需求中常见问题类型的理论框架同时参照了语言学中的格莱斯会话准则即人们在正常对话中应遵守的数量、关联、方式和质量四项原则。第一种用户叫做极简派在论文中标记为P-MIN。这类用户代表着需求不完整的情况。他们极度惜字如金只说核心功能把所有细节统统省略。比如上面提到的给我做个购物网站颜色、布局、功能细节一概不提。AI面对这样的需求要么老老实实去问要么凭自己的理解去补全——这正是测试AI主动澄清能力的绝佳场景。第二种用户叫做话痨派标记为P-RAM。他们代表低信噪比的情况说了一大堆但真正有用的信息被淹没在大量无关内容里。设想一个用户说你知道吗最近天气真的好烇昨天还下了雨说起来我们公司最近在搞环保活动顺带说一下能不能帮我做个收集垃圾分类信息的网站要有地图功能就像我邻居家那个会议记录软件那种感觉他们家的猫特别可爱……在这种场景下AI需要具备强大的信息提取和过滤能力。第三种用户叫做直觉派标记为P-INT。他们代表需求模糊且非技术化的情况。这类用户通常不懂技术术语习惯用感官描述和情绪形容词来表达想法。他们不会说用#F5DEB3作为容器背景色、#DC143C作为主要交互元素颜色而是说我希望这个网站有种夏日海滩的感觉容器要像沙子一样温柔按钮要像落日余晖那样热情。AI需要把这种诗意的描述翻译成具体的技术实现。第四种用户叫做矛盾派标记为P-CON。他们代表需求自相矛盾的情况在同一段需求里提出了逻辑上互相排斥的要求。比如我要一个完全基于文字、没有任何视觉元素的网站同时要有丰富的卡通插画背景用深色但要亮黄色背景所有组件要透明但要用深红色。这些要求根本无法同时满足AI应当识别出这些矛盾然后主动去问用户他的真实意图是什么而不是硬着头皮去实现一个本质上不可能的东西。这四类用户并非凭空捏造而是经过系统化的指令变异处理生成的。研究团队从一批写得规范完整的黄金指令出发通过不同的算子对原始需求进行变换——删除细节、注入噪声、替换技术词汇、引入逻辑矛盾——从而生成对应四种角色的变体版本。这样就确保了测试样本既贴近真实又有可控的、可量化的难度梯度。四、不只是问答AI在这个框架里能做什么为了让被测试的AI不仅能接收需求还能真正处理需求研究团队为测试框架设计了一个包含四种行动的操作空间就像给厨师配备了不同的工具。第一种行动是澄清Clarify当AI发现用户说的东西不够清楚或有疑问时可以向模拟用户提一个具体问题获取缺失的信息。第二种行动是实现ImplementAI动手写代码安装依赖包运行命令把网站一步步搭起来。第三种行动是验证VerifyAI打开已经运行的网站用截图的方式检查界面看看做出来的东西是不是和要求一致有没有视觉上的错误。第四种行动是提交SubmitAI认为任务完成宣告结束。这四种行动的关键之处在于AI可以以任何顺序、任意次数地使用它们。没有固定的流程没有强制的先后顺序。AI需要根据当前的状态自主判断下一步该做什么。有时候先问再做有时候先做再验证有时候验证后发现问题再回去问——这种灵活的非线性操作方式更接近真实的软件开发过程。验证这个行动尤其值得细说因为它是这个框架的技术亮点之一。当AI触发验证时系统会给AI一张当前网站界面的截图并告诉它之前和用户的所有对话记录、代码的当前状态以及之前的验证历史。AI需要制定一个测试清单然后像真人测试员一样去操作网站——点击按钮、填写表单、滚动页面——来确认每个功能是否正常。一旦发现问题系统会返回详细的失败报告包括出错那一刻的截图、浏览器控制台的错误信息以及AI自己对失败原因的分析。这些反馈会帮助AI在回去修代码时有的放矢。为了防止AI陷入无限循环比如反复修同一个bug却始终修不好系统还设计了双重边界限制每个任务根据难度设定了总步数上限15步、20步或25步同时对连续的验证失败次数也有限制6次、8次或10次超出任何一个边界就强制终止任务。五、怎么评分用槽位来衡量任务完成度评测一个AI生成的网站够不够好并不是件容易的事。研究团队为此设计了一套叫做约束槽位Oracle Slots的评分机制。简单来说每个任务都被分解成若干个具体的、可验证的小要求每个小要求就是一个槽位。每个槽位包含三个要素目标组件比如筛选按钮、预期结果比如点击后列表内容发生变化、验证类型是静态检查还是需要交互才能确认。整个任务下来有7到12个这样的槽位最终得分就是通过验证的槽位权重之和除以全部槽位权重之和这个比值被称为任务完成率TCR。槽位的权重并非平均分配而是根据实现难度来设定的。纯粹的CSS样式这类静态元素权重最低基础JavaScript交互居中涉及异步数据请求、复杂状态管理的高级功能权重最高。此外如果同一个组件下有多个槽位权重会适当缩减避免简单但数量多的槽位把评分撑起来。除了任务完成率研究团队还额外引入了一个幻觉率指标专门用来检测AI是否生成了用户根本没要求的东西——比如没人要求却自作主张加上的登录系统、随意添加的广告横幅。这类好心办坏事的情况在实际产品中会带来维护负担和用户困惑因此单独计量很有必要。担任最终阅卷官角色的是一个基于WebVoyager技术构建的视觉评测智能体它能像真人一样操作浏览器、查看页面、点击元素逐一核对每个槽位是否达标。这个评测过程是独立进行的与被测试的AI完全分离保证评分的客观性。六、101个种子网站404个测试案例整个测试数据集最初来源于WebGen-Bench这个先前的研究成果研究团队从中精选了101个高质量的网站设计任务作为种子每个任务的原始约束槽位数量在7到12个之间。随后研究团队对每个种子任务的约束复杂度进行量化打分用K-均值聚类算法把101个任务分成了三个难度层级。简单级别有21个种子任务中等级别有54个困难级别有26个。简单任务的平均槽位数约为6个困难任务平均接近9个对应的权重分值范围也有显著差异。然后对每个种子任务分别应用上述四种用户角色的变异算子生成四个对应的变体版本。最终101个种子任务乘以4种用户角色扩充为404个动态测试案例形成一个覆盖全面、难度分层的完整评测套件。七、实验结果AI们集体被困在盲执行陷阱里研究团队在这套框架上测试了九个当前主流的多模态大语言模型包括Qwen3.6-Plus、Kimi-K2.5、GPT-4.1、GPT-4.1-mini、Gemini-3.1-Flash-Lite等覆盖了不同规模、不同来源的主流系统。结果令人警醒。在所有被测试的模型中表现最好的Qwen3.6-Plus其任务完成率也只有38.78%。换句话说即使是当前最强的系统在面对真实用户的模糊需求时也只能大约完成不到四成的要求。其余模型的表现从24%到37%不等有的甚至只能完成四分之一左右的任务要求。任务难度越高表现越差。这个趋势相当一致所有模型在简单级别的表现都显著高于中等和困难级别。在困难任务上即便是最强模型的得分也从简单任务的43分左右跌至38分而较弱的模型则跌至22到23分的区间。不同用户角色对AI表现的影响也相当显著而且规律出乎意料。几乎所有模型在面对话痨派P-RAM用户时表现反而相对最好在面对极简派P-MIN用户时表现最差。这说明这些AI模型对信息噪声的处理能力要强于对信息缺失的处理能力——它们更善于从一堆废话里找出有用信息却不善于意识到信息根本就不够用、需要主动去问。八、六个关键发现解剖盲执行的根源研究团队深入分析了各模型的行为轨迹归纳出六个具体发现每一个都指向了盲执行问题的不同维度。第一个发现涉及意图对齐与主动澄清之间的落差。研究团队用两个指标来衡量用户与AI交互的质量一是意图对齐分数衡量AI的理解是否符合用户的真实需求二是澄清命中率衡量AI在主动提问时是否问到了关键缺失信息。结果显示所有模型的意图对齐分数都在3.90到4.00之间满分5分看起来不错但澄清命中率却全部低于40%也就是说即使AI开口提问也有超过六成的概率没有问到点子上。两个指标之间的剪刀差揭示了一个深层问题AI能够大概感知用户想要什么但无法精准识别哪些地方还有缺口、需要补充确认。这正是盲执行的本质——对信息漏洞的感知能力不足。第二个发现涉及代码量与幻觉率的正相关。研究团队统计了各模型最终生成代码的行数。表现较强的Qwen3.6-Plus平均生成超过1400行代码Kimi-K2.5平均超过1900行而这两个模型的幻觉率都超过60%。相比之下GPT-4.1平均只生成440行代码幻觉率仅31.7%GPT-4.1-mini生成473行幻觉率最低只有23.5%。这个规律揭示了一种过度补偿策略当需求不清晰时一些模型倾向于多写代码来覆盖各种可能性但这种策略不但没有提高任务完成率反而引入了大量没有被要求的功能和元素拉高了幻觉率。强模型编码能力强但更容易走上这条多写不如多问的弯路。第三个发现涉及视觉验证的利用效率。验证这个行动本来是让AI通过看截图发现问题、改进实现的。但数据显示各模型的验证强度以验证行动次数与实现行动次数的比值衡量差异很大——有的模型比值高达1.51有的只有0.35——但这种差异并没有带来任务完成率的明显改善。也就是说验证做得多并不代表验证做得好。深究行为轨迹可以发现模型往往只是针对验证中发现的具体小问题打补丁而不会因此重新审视整体需求是不是理解正确。它们会修复按钮颜色不对但不会因此反思我对整个页面的理解会不会从一开始就跑偏了。第四个发现进一步剖析了四种用户角色对性能的差异化影响。研究团队在比较了极简派与话痨派对各模型表现的影响后发现模型对噪声话痨派那种废话连篇但信息完整的输入的抵抗力要明显强于对缺失极简派那种信息不完整的输入的应对能力。这个发现有其现实意义在真实世界里用户说废话其实很常见说得太少也很常见但AI系统显然在这两种情况下的准备程度是不对等的。研究团队还专门用黄金指令原始完整需求跑了一组对比实验结果发现即使是在最理想的输入条件下模型的任务完成率也只能提升约十个百分点左右幻觉率也有所下降但同样远未达到令人满意的水平。第五个发现揭示了不同模型在探索与承诺之间的取舍策略上的根本差异。GPT-4.1-mini的平均澄清次数接近1次主动提交率只有56.4%它倾向于反复确认、谨慎试探但缺乏果断拍板的能力而Qwen3.6-Plus平均澄清次数仅0.01次却有95%的主动提交率走的是大胆决策、快速出货的路线。这两种极端策略各有代价前者容易在循环中迷失后者容易早早提交一个虽然运行没问题但根本不对题的网站。第六个发现关注视觉呈现质量的天花板效应。研究团队单独评估了各模型生成网站的美观程度包括视觉布局和创意对齐两个维度。结果显示各模型在这两个维度上的分数相当集中差距不大大多数模型能够产出结构完整、没有严重渲染错误的页面但几乎所有模型都在某些细节上存在轻微的视觉缺陷比如元素错位或配色不够协调。幻觉率方面差异较大最高的Gemma-4-26B-A4B-it达到72.3%最低的GPT-4.1-mini只有23.5%。视觉缺陷率严重渲染失败的比例普遍在10%以下说明当前模型在基础的做出来能看这个层面已经相当稳定但在做得对这个层面仍有很大差距。九、人类评审与AI评审一致但不完全一样研究团队请了三位计算机科学专业的博士生对生成网站的美观度进行人工评分采用与AI评审相同的两个维度视觉布局和创意对齐和相同的5分量表。对比结果显示人工评审与AI评审之间存在中等程度的一致性肯德尔相关系数约为0.45三位人类评审员彼此之间的一致性略高约为0.57。在两种评审方式下Kimi-K2.5都获得了最高的美观度评分这说明该模型在视觉呈现方面确实有其独特优势——它更善于营造和谐的配色搭配。Qwen3.6-Plus则在内容丰富性上更突出而GPT-4.1更倾向于生成有纹理感的背景设计Gemma-4-31B-it则在元素布局的整体结构性上表现较好。归根结底这项研究最核心的信息并不复杂当前最先进的AI系统在面对真实用户那些不完美的需求表达时仍然大量地陷入不问清楚就动手的盲执行陷阱。它们在处理冗余信息方面做得还不错但在识别信息缺口并主动追问方面表现欠佳它们会用多写代码来掩盖理解不足会做验证但不会因验证结果重新反思大局不同模型在谨慎探索和果断提交之间的策略差异很大却都无法找到那个最优的平衡点。InteractWeb-Bench的意义在于它提供了一个可复现、可量化的测试环境让研究人员能够系统地测量和改进这些问题。研究团队希望这个框架能成为推动AI编程助手从被动执行指令向主动理解用户意图进化的基石——毕竟一个真正好用的AI开发助手不只是要会写代码还要知道什么时候该停下来问一句你说的到底是什么意思。对这个研究感兴趣的读者可以通过arXiv编号2604.27419查阅完整论文。QAQ1InteractWeb-Bench是什么类型的评测框架和以前的网站生成测试有什么区别AInteractWeb-Bench是专门针对非专业用户模糊需求场景的网站生成交互式评测框架。与之前的WebGen-Bench等框架不同它不假设用户提供完整清晰的需求而是通过四种模拟用户角色极简派、话痨派、直觉派、矛盾派来制造接近真实情况的模糊输入同时允许AI主动提问、编写代码、视觉验证和提交结果评估的是AI在面对不完美输入时的全程应对能力。Q2盲执行问题在实际使用AI建网站时会造成什么影响A盲执行意味着AI在需求不清楚的情况下直接开始写代码结果往往是生成的网站表面上运行正常但根本不符合用户的实际需求。在实验中最强模型的任务完成率也只有约39%说明超过六成的需求没被满足。同时AI还会自作主张加入用户没要求的功能幻觉率最高超过72%增加维护负担用户可能还要从头沟通返工效率反而降低。Q3为什么AI对信息缺失比对信息冗余更难处理A实验结果显示AI在面对话痨派那种废话多但信息完整的输入时表现反而比面对极简派那种信息不完整的输入更好。这是因为当信息完整时AI只需要过滤噪声本质上还是在已有信息中提取这是语言模型擅长的任务而当信息缺失时AI需要意识到有些东西我不知道并主动去问这涉及对自身理解边界的元认知能力目前的模型在这方面训练还不充分倾向于用补脑多写代码覆盖各种可能替代追问。

中科院深圳先进技术研究院等机构揭示网站生成智能体的致命盲区

相关文章：

中科院深圳先进技术研究院等机构揭示网站生成智能体的致命盲区

《玩转OpenClaw内置诊断，建立属于自己的部署运维逻辑》

AISMM模型效能跃迁路径（2024企业实测数据全披露）：平均运营人效提升42.6%，TOP10%团队已全面启用

TinyMaix：轻量级机器学习库在微控制器上的应用

从“AI向善”到“AI合规”：2026奇点大会定义AISMM-ESG耦合度公式（α=0.63β+γ²），你的企业达标了吗？

AISMM评估结果总被质疑？用这6类动态交互图表让评审专家当场签字认可

深入解析Intel Texture Works：专业级纹理压缩技术实现方案

AgentScaffold：为AI编程助手构建持久化知识图谱与治理框架

2026年如何部署Hermes Agent/OpenClaw？阿里云部署指南及Coding Plan配置解析

【软考高级架构】案例题考前突击13：SAAM / ATAM / CBAM

如何用 watchEffect 实现根据参数自动获取数据？代码简化干货

Univer：构建企业级AI原生表格的创新解决方案

告别CPU瓶颈：手把手教你用Android Hardware Buffer打通OpenGL与NCNN Vulkan

事件驱动爬虫框架claw.events：构建高解耦、可扩展的数据采集系统

软考必备｜数据结构算法速记表（高频考点，直接背）

从语音到智能体：构建语音交互式AI系统的架构与实践

NLP情感分析：从传统方法到深度学习

自建RSS阅读器：基于Go与Docker的YourRSS部署与优化指南

【计算机毕业设计】基于Springboot的线上辅导班系统+LW

MacSweep：专为AI开发者设计的精准清理工具，一键释放数十GB空间

为什么很多公司服务器一多，运维反而越来越“失控”？

告别电脑！这5款手机自动化脚本App，让你躺着搞定日常重复操作（附详细对比）

Open-Lyrics：基于异步并发架构的高性能语音字幕生成系统设计

从无人机飞控到机械臂：手把手教你用Python实现RPY角与旋转矩阵互转（附完整代码库）

从评价指标反推损失函数：拆解YDTR论文中SSIM与空间频率(SF)损失的PyTorch实现

如何用CellProfiler实现生物图像自动分析：从手动处理到批量智能化的完整指南

Win11系统诊断启动后PIN失效？别慌！手把手教你用WinRE命令提示符修复（附System32下cmd丢失的终极解法）

稀疏检索技术解析：从TF-IDF到混合架构实战

OpenClaw Skills：模块化开发者技能库与自动化工具箱实践指南

Si24R1实战：用STM32CubeMX配置SPI驱动，实测四种模式下的真实功耗