当前位置: 首页 > article >正文

【AI研究】准确率≠可靠性——普林斯顿团队提出4维度12指标框架,证明Agent能力飙升但可靠性原地踏步

论文速读 | D1 — 2026-03-19基本信息论文: Towards a Science of AI Agent Reliability (arXiv 2602.16666)作者: Stephan Rabanser, Sayash Kapoor, Peter Kirgis, Kangheng Liu, Saiteja Utpala, Arvind Narayanan (普林斯顿大学)发布: 2026-02-18仪表板: hal.cs.princeton.edu/reliability关联论文: HAL: Holistic Agent Leaderboard (arXiv 2510.11977, 2025)一句话总结: 准确率≠可靠性——普林斯顿团队提出4维度12指标框架证明Agent能力飙升但可靠性原地踏步。给小白的解释推文级想象你招了一个实习生考试分很高准确率但工作起来时好时坏一致性差、换个说法就听不懂鲁棒性差、从不说我不会可预测性差、偶尔还会搞出大事故安全性差。普林斯顿团队测了14个最新AI模型发现了一个扎心结论模型越来越聪明但并没有越来越靠谱。能力分从35%涨到80%可靠性只从0.70涨到0.85——考试分翻了一倍多靠谱程度只涨了20%。这像不像你见过的高分低能的人所以他们说别只看考试分要看上班以后靠不靠谱。核心框架4维度12指标维度一一致性Consistency— 做事稳不稳类比同一道题考10次次次都对才叫稳指标衡量什么计算核心关键发现C_out结果一致性同任务多次执行的成败稳定性Pass^k全部通过率vs Pass1很多Agent能解题但无法稳定解题C_traj^d轨迹分布一致性动作类型分布是否相似Jensen-Shannon散度选什么较稳定何时做差异大C_traj^s轨迹序列一致性具体执行步骤顺序是否一致归一化Levenshtein距离最差指标——规划路径极不稳定C_res资源一致性Token/API消耗的波动性变异系数(CV)的指数变换资源消耗不可预测维度二鲁棒性Robustness— 抗干扰能力类比下雨了也能正常上班不能一换办公室就干不了活指标衡量什么计算核心关键发现R_fault故障鲁棒性面对API超时/错误的容错能力故障注入下准确率/基线准确率普遍较好天花板效应R_env环境鲁棒性面对格式变化的适应能力环境扰动下准确率/基线准确率中等R_prompt提示鲁棒性面对指令改写的稳定性同义改写下准确率/基线准确率关键区分指标——表面改写就崩溃维度三可预测性Predictability— 知不知道自己不会类比一个好员工应该说这个我没把握而不是信心满满地做错指标衡量什么计算核心关键发现P_cal校准度置信度vs实际准确率的匹配Expected Calibration Error近期模型显著改善P_AUROC判别力区分我能做/我不能做的能力AUC-ROC停滞甚至恶化——最扎心的发现P_brierBrier分数综合校准判别力均方概率误差—维度四安全性Safety— 犯错的代价类比犯小错可以但别把公司数据库删了指标衡量什么计算核心关键发现S_comp合规性遵守约束的比例无违规任务占比最新模型违规率显著下降S_harm危害严重度违规后果的严重程度加权期望危害(低0.25/中0.5/高1.0)财务准确性错误仍是最大雷区14模型评测排名核心数据Rank模型准确率可靠性一致性可预测性鲁棒性安全性1Gemini 3.0 Pro80.8%0.850.760.650.850.762Claude Opus 4.577.3%0.850.740.730.800.673Claude Sonnet 4.576.6%0.830.680.570.770.634GPT-5.2 (xhigh)67.7%0.810.700.540.850.735Gemini 2.5 Pro62.0%0.790.650.530.790.65……………………14Gemini 2.0 Flash36.2%0.700.630.470.820.66⚡ 关键洞察GPT-4 Turbo 准确率35%但可靠性0.74GPT-5.2无推理44.6%但可靠性0.77——低分模型可能比高分模型更靠谱5大关键发现1. 准确率 ≠ 可靠性核心论点18个月里准确率翻倍可靠性只涨20%能力提升不自动带来可靠性提升So What: 选AI不能只看Benchmark分数2. 一致性是最大短板Pass^k全通过和Pass1至少一次通过差距巨大更大的模型反而可能更不一致——因为解题路径更多So What: 对数字员工来说稳定发挥比偶尔超神更重要3. 可预测性的悖论模型越来越会表达自信程度校准度↑但越来越不会判断自己能不能做判别力→或↓So What: Agent说我有80%把握可以信但它选择做还是不做的判断可能不靠谱4. 提示鲁棒性是区分模型的关键技术故障API挂了处理得不错但换个说法指令就可能崩溃So What: 数字员工必须能理解不同表述的同一需求5. 安全性在改善但财务错误仍是雷区整体违规率下降但算错钱类错误退款/扣款仍然频繁So What: 涉及金钱的Agent任务需要额外的审计层对「数字员工绩效」的启发直接可借鉴的4维度模型 → DE-6D v2.0 对照一致性 → D3一致性维度直接对应可以采用Pass^k方法鲁棒性 → D4鲁棒性维度增加提示鲁棒性测试可预测性 →新增维度候选当前DE-6D没有这个维度建议考虑安全性 → D5安全合规维度增加危害分级评估评估方法论单次运行 → 多次运行K5每项任务跑多次看方差静态测试 → 扰动测试注入故障、改写指令、变换环境单一分数 → 多维画像雷达图比单一评分更有价值实际操作建议数字员工入职考试应包含可靠性维度定期复考看可靠性是否退化财务相关任务需要double-check机制需要补充的HAL聚焦实验室评测缺少生产环境持续监控视角没有覆盖学习进化维度——数字员工不只是被评测还需要成长缺少多Agent协作场景的可靠性评估跨域联想联想域连接点ITILHAL的4维度类似ITIL的服务质量管理可用性→一致性、韧性→鲁棒性、安全性→安全性PMBOK可靠性评估项目质量管理中的质量控制环节投资选AI模型≈选股——高收益(准确率)不等于低风险(可靠性)要看夏普比率而不只是收益率行为心理学校准度好但判别力差类似达克效应的AI版——不是不知道概率是不知道什么该做什么不该做供应链Agent可靠性≈供应商质量管理(SQM)——不能只看交货率还要看良品率、稳定性、异常响应附真实事故案例验证论文提到的3个真实案例证明可靠性框架的必要性Replit 删库事件2025.7→ 安全性维度S_harm可提前预警OpenAI Operator 擅自购买2025→ 合规性维度S_comp可提前预警纽约市Chatbot违法建议2024→ 校准度P_cal可提前预警

相关文章:

【AI研究】准确率≠可靠性——普林斯顿团队提出4维度12指标框架,证明Agent能力飙升但可靠性原地踏步

📖 论文速读 | D1 — 2026-03-19 基本信息 论文: Towards a Science of AI Agent Reliability (arXiv 2602.16666) 作者: Stephan Rabanser, Sayash Kapoor, Peter Kirgis, Kangheng Liu, Saiteja Utpala, Arvind Narayanan (普林斯顿大学) 发布: 2026-02-18 仪表…...

5分钟轻松解锁B站缓存视频:m4s转MP4一键解决方案

5分钟轻松解锁B站缓存视频:m4s转MP4一键解决方案 【免费下载链接】m4s-converter 一个跨平台小工具,将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾经遇到过这样的情况&#x…...

Ubuntu 20.04上解决arm-linux-gnueabi交叉编译的libmpfr.so.4缺失报错(附5.4.0工具包)

Ubuntu 20.04下arm-linux-gnueabi交叉编译环境深度修复指南 当你在Ubuntu 20.04上成功安装了arm-linux-gnueabi-5.4.0交叉编译工具链后,本以为可以顺利开始嵌入式开发工作,却在首次编译时遭遇了令人沮丧的错误提示: arm-linux-gcc test.c -o …...

世界模型:AI理解现实的新范式与AGI的关键路径

摘要 世界模型是一种能够对现实世界环境进行仿真,并基于文本、图像、视频及运动等多模态输入生成视频、预测未来状态的生成式人工智能模型。它解决了传统大模型"只懂语言、不懂物理、只会生成、不会推演"的幻觉与落地瓶颈,被认为是实现通用人工智能(AGI)的必经之路…...

别再手动对齐了!用HTML在Markdown里实现复杂表格(附ICMP报文表实战)

突破Markdown表格限制:HTML跨行列合并实战指南 在技术文档写作中,表格是展示结构化数据的利器。但当你需要展示网络协议字段、配置参数对比或多层级分类数据时,原生Markdown表格的局限性就会暴露无遗——它无法实现单元格的跨行或跨列合并。…...

AT32F413 PWM调光避坑指南:TMR3_CH2重映射到PB5的配置细节与常见问题排查

AT32F413 PWM调光避坑指南:TMR3_CH2重映射到PB5的配置细节与常见问题排查 当你在AT32F413上尝试通过TMR3_CH2输出PWM信号到PB5引脚时,可能会遇到各种"玄学"问题:明明代码看起来没问题,但示波器上就是抓不到波形&#xf…...

英雄联盟玩家的终极智能工具箱:如何用League Akari提升你的游戏体验

英雄联盟玩家的终极智能工具箱:如何用League Akari提升你的游戏体验 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 还在为繁琐的客…...

3个关键步骤:如何让PowerToys成为你的Windows效率倍增器

3个关键步骤:如何让PowerToys成为你的Windows效率倍增器 【免费下载链接】PowerToys-CN PowerToys Simplified Chinese Translation 微软增强工具箱 自制汉化 项目地址: https://gitcode.com/gh_mirrors/po/PowerToys-CN 你是否曾因Windows系统操作繁琐而苦恼…...

终极指南:3步让AMD/Intel显卡免费获得CUDA加速,打破NVIDIA生态垄断

终极指南:3步让AMD/Intel显卡免费获得CUDA加速,打破NVIDIA生态垄断 【免费下载链接】ZLUDA CUDA on non-NVIDIA GPUs 项目地址: https://gitcode.com/GitHub_Trending/zl/ZLUDA 你是否曾因手头只有AMD或Intel显卡,却面对那些仅支持NVI…...

KNIME Server实战指南:如何像搭积木一样,为团队搭建一个自动化数据报告系统?

KNIME Server实战指南:像搭积木一样构建自动化数据报告系统 每天早晨9点,销售总监的邮箱准时收到昨日业绩报告;每周一上午,运营团队在晨会上讨论的看板数据已自动更新;每月5号,财务部门需要的跨系统结算报表…...

别再混淆了!OpenCV灰度拉伸 vs 直方图均衡化:原理、代码与效果深度对比

OpenCV灰度拉伸与直方图均衡化:技术本质与实战抉择指南 当你第一次接触图像增强技术时,是否曾被灰度拉伸和直方图均衡化这两个看似相似的概念困扰?这两种技术都能提升图像对比度,但背后的数学原理和适用场景却大相径庭。本文将带你…...

告别手动编译!用ODBC桥接让QT5.14.2轻松操作MySQL8数据库

告别手动编译!用ODBC桥接让QT5.14.2轻松操作MySQL8数据库 在QT开发中连接MySQL数据库时,许多开发者都会遇到一个令人头疼的问题:需要手动编译MySQL驱动。这不仅耗时耗力,还容易因版本不匹配导致各种兼容性问题。本文将介绍一种更…...

FPGA图像缩放方案选型指南:HLS双线性插值 vs. 纯逻辑VGA时序方案,哪个更适合你?

FPGA图像处理方案深度对比:HLS与纯逻辑设计的工程实践指南 在嵌入式视觉系统开发中,图像缩放是一个常见但极具挑战性的需求。当工程师面对FPGA平台时,往往需要在HLS(高层次综合)方案与传统纯逻辑设计之间做出选择。这两…...

2025届必备的降AI率助手实际效果

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 随着人工智能生成内容也就是AIGC技术在学术写作里的普及,高校以及期刊已经普遍引…...

2025届学术党必备的降AI率工具解析与推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 于学术写作跟内容创作这两个领域当中,原创性方面的要求变得越发严格起来。降重网…...

从Vim小白到高手:我是如何在IDEA里用IdeaVim插件一步步‘驯服’代码的(含避坑指南)

从Vim小白到高手:IDEA中IdeaVim插件的进阶修炼手册 第一次在同事的屏幕上看到那双在键盘上飞舞的手,光标如同被施了魔法般在代码间精准跳跃,我意识到自己遇到了传说中的"Vim高手"。那种不依赖鼠标、行云流水的编码体验,…...

内容优化:让信息更清晰、更有价值

什么是内容优化?我们每天都会接触大量文字、视频、图片,但并不是所有内容都能让人看懂、记住或产生共鸣。内容优化,就是把原本杂乱、模糊或冗长的信息,调整得更清晰、更贴合读者需求的过程。它不是简单地删减字数,也不…...

互联网大厂 Java 求职者面试趣谈:Java SE 与微服务在电商场景中的应用

面试趣谈:Java SE 与微服务在电商场景中的应用 在今天的面试中,我们将看到严肃的面试官与搞笑的程序员燕双非的对话,围绕Java SE与微服务在电商场景中的应用展开。第一轮提问 面试官: 你好,燕双非,首先请你…...

LIO-SAM在KITTI数据集上的性能调优与EVO评估深度解析:从数据预处理到结果分析

LIO-SAM在KITTI数据集上的性能调优与EVO评估深度解析:从数据预处理到结果分析 当谈到激光惯性里程计(LIO)系统在自动驾驶领域的应用时,KITTI数据集无疑是最具挑战性和权威性的测试平台之一。作为紧耦合激光惯性里程计算法的代表&a…...

Python 文件批量处理:重命名/备份/同步运维实战指南

老王在一家小公司管服务器。每天最烦的事,就是开发同事丢来一堆日志文件,文件名乱七八糟——有的叫log1.txt,有的叫1212.log,还有的直接叫新建文本文档(1).log。更糟的是,每周五要手动备份一遍配置文件,还得…...

【进阶篇】2.3 五分钟掌握Redis HyperLogLog 实战场景与性能调优

1. HyperLogLog 五分钟快速入门 第一次接触HyperLogLog时,我也被这个奇怪的名字吸引了注意力。这到底是什么神奇的数据结构?简单来说,它就是Redis提供的一个"计数器",但和我们熟悉的普通计数器完全不同。想象一下&#…...

Vue Router 嵌套路由的“斜杠”法则与路径设计避坑指南

Vue Router 嵌套路由的“斜杠”法则与路径设计避坑指南 在构建现代化的单页面应用(SPA)时,Vue Router 是事实上的路由标准。它强大而灵活,但其中一个细节——嵌套路由中路径(path)前的斜杠(/&am…...

ExplorerPatcher终极指南:5分钟让Windows 11变回熟悉的老朋友

ExplorerPatcher终极指南:5分钟让Windows 11变回熟悉的老朋友 【免费下载链接】ExplorerPatcher This project aims to enhance the working environment on Windows 项目地址: https://gitcode.com/GitHub_Trending/ex/ExplorerPatcher 你是不是也和我一样&…...

终极指南:如何使用League Akari英雄联盟工具实现游戏体验全面优化

终极指南:如何使用League Akari英雄联盟工具实现游戏体验全面优化 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 您是否厌倦了在英…...

从科幻小说到产品设计:如何用‘What-If’思维模型,提前5年预判技术趋势

科幻思维解码:用未来叙事重构产品创新逻辑 当科幻遇见产品:一场跨越时空的思维实验 1982年上映的《银翼杀手》描绘了2019年的洛杉矶街头全息广告与仿生人共存的世界,这个曾被视作天方夜谭的设定,如今在增强现实技术和人形机器人领…...

CCMusic可复现性保障:Dockerfile+requirements.txt+config.yaml三件套详解

CCMusic可复现性保障:Dockerfilerequirements.txtconfig.yaml三件套详解 1. 项目概述 CCMusic Audio Genre Classification Dashboard是一个基于Streamlit和PyTorch构建的高级音频分析平台。这个项目的独特之处在于它不采用传统的音频特征提取方法,而是…...

专业指南:如何快速重置Navicat Premium的macOS试用期

专业指南:如何快速重置Navicat Premium的macOS试用期 【免费下载链接】navicat_reset_mac navicat mac版无限重置试用期脚本 Navicat Mac Version Unlimited Trial Reset Script 项目地址: https://gitcode.com/gh_mirrors/na/navicat_reset_mac 对于数据库开…...

别再用默认对齐了!C语言__attribute__((packed/aligned))实战避坑,手把手教你优化嵌入式内存布局

别再用默认对齐了!C语言__attribute__((packed/aligned))实战避坑指南 在嵌入式开发中,内存资源往往捉襟见肘。一个结构体多占几个字节,可能就意味着系统无法运行。但你是否知道,编译器默认的对齐规则可能正在悄悄浪费你宝贵的内存…...

企业级跨平台UI开发实战:深度解析Semi.Avalonia主题库的设计哲学与技术实现

企业级跨平台UI开发实战:深度解析Semi.Avalonia主题库的设计哲学与技术实现 【免费下载链接】Semi.Avalonia Avalonia theme inspired by Semi Design 项目地址: https://gitcode.com/gh_mirrors/se/Semi.Avalonia 在当今多平台应用开发的时代,开…...

如何快速使用RPGMakerDecrypter:解密RPG Maker加密资源的完整指南

如何快速使用RPGMakerDecrypter:解密RPG Maker加密资源的完整指南 【免费下载链接】RPGMakerDecrypter Tool for decrypting and extracting RPG Maker XP, VX and VX Ace encrypted archives and MV and MZ encrypted files. 项目地址: https://gitcode.com/gh_m…...