当前位置: 首页 > article >正文

AI Agent 上线后,别只看成功率:你需要一套可观测性指标

很多团队做 AI Agent上线前会问一个问题“成功率多少”这当然要看。但只看成功率很容易误判。因为 AI Agent 的问题不是简单的成功或失败。它可能成功调用了工具但参数是错的。它可能生成了回复但用户改了 80%。它可能完成了任务但花了太多轮对话。它可能没有报错但绕了很远的路。它可能看起来完成了实际上需要人工补救。这些情况如果只看success true都看不出来。Google 开发者更新提到 Antigravity、Gemini API 等工具正在面向 agentic development 推进并强调从 prompt 到 production-ready application 的工具链。Agent 越接近生产环境可观测性越重要。你需要知道的不只是它有没有完成还要知道它怎么完成的用了几步调用了哪些工具有没有被用户打断有没有高风险动作有没有反复修改有没有人工接管最终结果有没有被采纳这就是 Agent Observability。一个最小的 Agent 观测数据可以这样定义fromdataclassesimportdataclass,fieldfromtypingimportDict,List,OptionalfromdatetimeimportdatetimedataclassclassToolCallRecord:tool_name:strok:boollatency_ms:interror_code:Optional[str]NonedataclassclassAgentRunMetrics:run_id:strtask_type:struser_id:strstarted_at:datetime finished_at:Optional[datetime]success:booltotal_steps:inttool_calls:List[ToolCallRecord]field(default_factorylist)user_revision_count:int0human_handoff:boolFalserisk_blocked:boolFalsefinal_accepted:boolFalse这里面最容易被忽略的是几个指标。第一user_revision_count。AI 输出后用户改了多少次如果一个 Agent 每次都“成功”但用户每次都要改五六轮它就不是真的好用。defrevision_rate(total_runs:int,total_revisions:int)-float:iftotal_runs0:return0.0returntotal_revisions/total_runs第二final_accepted。最终结果有没有被用户采纳很多 Agent 输出看起来完整但用户最后没用。只看生成次数会误以为系统很活跃看采纳率才知道有没有价值。defacceptance_rate(runs:List[AgentRunMetrics])-float:ifnotruns:return0.0acceptedsum(1forruninrunsifrun.final_accepted)returnaccepted/len(runs)这里可以举一个真实的指标解读。某个客服回复 Agent上线一周后后台显示成功率 92%。听起来很好。但再看细一点最终采纳率只有 31%。用户平均修改 4.8 次。人工接管率 42%。高风险话术拦截 18 次。工具调用错误率只有 3%。这说明什么不是工具接口有问题。也不是 Agent 完全不能用。而是它“能生成”但生成的内容离可直接发送还很远。这时候不应该继续吹成功率 92%而应该把它从“自动回复客户”降级成“回复草稿助手”重点优化话术边界和场景分类。这才是可观测性的价值。第三human_handoff。哪些任务最后转人工转人工不是坏事。恰恰相反它能告诉你 Agent 边界在哪里。defhandoff_rate(runs:List[AgentRunMetrics])-float:ifnotruns:return0.0handoffssum(1forruninrunsifrun.human_handoff)returnhandoffs/len(runs)第四tool_error_rate。工具调用失败率。deftool_error_rate(runs:List[AgentRunMetrics])-Dict[str,float]:stats{}forruninruns:forcallinrun.tool_calls:ifcall.tool_namenotinstats:stats[call.tool_name]{total:0,error:0}stats[call.tool_name][total]1ifnotcall.ok:stats[call.tool_name][error]1return{tool:value[error]/value[total]fortool,valueinstats.items()ifvalue[total]0}第五risk_blocked。高风险动作被拦截了多少次这个指标很重要。它不是坏消息而是安全系统在工作。defrisk_block_rate(runs:List[AgentRunMetrics])-float:ifnotruns:return0.0blockedsum(1forruninrunsifrun.risk_blocked)returnblocked/len(runs)第六step_count。Agent 完成一个任务用了几步如果一个简单任务总是绕 10 步说明 planner 或工具选择有问题。defaverage_steps(runs:List[AgentRunMetrics])-float:ifnotruns:return0.0returnsum(run.total_stepsforruninruns)/len(runs)这些指标合在一起才比单纯成功率更接近真实情况。你可以把 Agent 监控面板分成四类效果指标采纳率、用户修改次数、任务完成率。效率指标平均步骤数、平均耗时、工具调用次数。风险指标高风险拦截率、人工接管率、敏感动作触发率。稳定性指标工具错误率、超时率、JSON 解析失败率。对应一个简单的聚合函数defbuild_agent_dashboard(runs:List[AgentRunMetrics])-Dict:return{acceptance_rate:acceptance_rate(runs),handoff_rate:handoff_rate(runs),risk_block_rate:risk_block_rate(runs),average_steps:average_steps(runs),tool_error_rate:tool_error_rate(runs),}上线后你会发现有些 Agent 并不是不能用而是需要缩小任务范围。客服回复 Agent完整回复采纳率低但问题分类准确率高。那就不要让它直接写最终回复先让它做分类。代码 Agent自动修改成功率一般但解释旧代码很稳定。那就先放在代码理解环节。资料总结 Agent长报告容易漏细节但短资料摘要效果很好。那就限制输入长度和任务类型。前期做多模型测试时可以用 gpt1998.com 跑同一组任务比较不同模型在采纳率、修改次数、JSON 解析成功率、工具调用错误率上的差异。这样得到的结论比主观说“这个模型更聪明”靠谱得多。OpenAI Codex cloud 可以在后台并行处理任务代表软件工程 Agent 正在从演示走向更真实的生产流程。Agent 化工具越普及团队越需要从“能跑”进入“可观测”。AI Agent 上线后别只盯着成功率。真正重要的是用户有没有采纳人有没有少改风险有没有被拦住失败能不能被定位任务边界有没有变清楚没有这些指标Agent 只是一个黑盒。有了这些指标Agent 才可能变成可治理的系统。

相关文章:

AI Agent 上线后,别只看成功率:你需要一套可观测性指标

很多团队做 AI Agent,上线前会问一个问题: “成功率多少?” 这当然要看。 但只看成功率,很容易误判。 因为 AI Agent 的问题不是简单的成功或失败。 它可能成功调用了工具,但参数是错的。 它可能生成了回复&#xff0c…...

构造函数、this指向和原型链机制

今天在刷力扣 [146. LRU 缓存](https://leetcode.cn/problems/lru-cache/) 的时候,遇到了原型链的写法,想想这个写法我正式开发中从来都没有用过,到底是个什么玩意?遂将各个节点和变量都定义在外面,但是代码居然报错啦…...

【Coze工作流】零代码做AI自动化,小白也能5分钟上手

一、问题背景:手工做重复AI任务太累,想自动化但不会写代码在日常办公或者内容创作中,很多人都有过这样的痛点:每天要重复打开各种AI工具。比如你要写一篇爆款文章,先要找AI找选题,再让AI写大纲,…...

PowerToys汉化指南:3步让英文效率工具变成你的中文助手

PowerToys汉化指南:3步让英文效率工具变成你的中文助手 【免费下载链接】PowerToys-CN PowerToys Simplified Chinese Translation 微软增强工具箱 自制汉化 项目地址: https://gitcode.com/gh_mirrors/po/PowerToys-CN 你是不是曾经因为PowerToys的英文界面…...

通过Taotoken CLI工具一键配置多开发环境接入参数

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 通过Taotoken CLI工具一键配置多开发环境接入参数 在接入大模型服务时,开发者常常需要为不同的开发工具(如…...

我用AI一周做了个口播视频平台,现在开源了

做独立开发这两年,我一直在想一个问题:一个人到底能做到什么程度? 上周我给出了自己的答案——我用 DeepSeek 定义需求 CodeBuddy 辅助编码,一个人从零搞了一个 AI 口播视频生成平台,取名智播坊。输入文案&#xff0…...

Java类与对象:编程核心解密

好的,我们来详细解释一下Java中的类和对象这两个核心概念。1. 类 (Class)定义:类是一个模板或蓝图。它定义了某一类“事物”的共同特征(属性)和行为(方法)。作用:类描述了该种“事物”具有哪些信…...

git reset 怎么用?2026年最完整操作指南,撤销提交不再手足无措

代码提交了才发现写错了,或者本地 commit 堆了一堆想整理——你是直接新建一个"撤回"commit,还是对着搜索结果一脸茫然不敢乱动? 如果你还没搞清楚 git reset 的三种模式,随时可能把代码撤没了。学完本文,你…...

easyPoi使用

一、核心定位区别 EasyPoi:全能型,支持 Excel、Word、PDF 导出,注解极简,适合小数据、快速开发EasyExcel:高性能型,只专注 Excel,主打低内存、大数据量,适合海量数据导出 二、Easy…...

My-TODOs:跨平台桌面待办清单,解放您的生产力

My-TODOs:跨平台桌面待办清单,解放您的生产力 【免费下载链接】My-TODOs A cross-platform desktop To-Do list. 跨平台桌面待办小工具 项目地址: https://gitcode.com/gh_mirrors/my/My-TODOs 在信息过载的今天,如何高效管理日常任务…...

2026 年 AI 工具聚合站:从模型入口到开发基础设施的进化之路

在 2026 年的 AI 开发生态中,开发者正面临一个矛盾的现状:一方面是 GPT-5.5、Claude 4.7、Gemini 3.1 等大模型的能力持续突破,带来了前所未有的技术红利;另一方面,模型碎片化、接口异构化、成本高企等问题&#xff0c…...

咖啡一杯,Token 无限,Real-Time Cafe 深圳站来了!新增「硬件晒晒桌」与「AI 桌游试玩桌」

咖啡一杯,Token 无限——「Real-Time Cafe」是一个让开发者聚在一起实时 coding、实时 debug、实时互动的咖啡馆快闪计划。 Real-Time Cafe 深圳站来了!就在本周日 5 月 24 日下午。 本站特设「硬件晒晒桌」与「AI 桌游试玩桌」——带上你的电子宠物、…...

3分钟掌握R3nzSkin:英雄联盟国服免费全皮肤终极方案

3分钟掌握R3nzSkin:英雄联盟国服免费全皮肤终极方案 【免费下载链接】R3nzSkin-For-China-Server Skin changer for League of Legends (LOL) 项目地址: https://gitcode.com/gh_mirrors/r3/R3nzSkin-For-China-Server 想在英雄联盟国服免费体验所有皮肤吗&a…...

3个关键技术方案:如何系统化解决Navicat Premium试用期限制

3个关键技术方案:如何系统化解决Navicat Premium试用期限制 【免费下载链接】navicat_reset_mac navicat mac版无限重置试用期脚本 Navicat Mac Version Unlimited Trial Reset Script 项目地址: https://gitcode.com/gh_mirrors/na/navicat_reset_mac 本文旨…...

终极KMS激活解决方案:Windows与Office一体化智能激活工具

终极KMS激活解决方案:Windows与Office一体化智能激活工具 【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO KMS_VL_ALL_AIO是一款功能强大的Windows系统和Microsoft Office套件的智能激…...

历史性突破,OpenAI模型搞定人类科学家80年未破难题,能发顶刊了

OpenAI 7个月前曾因虚假数学突破被同行嘲笑。 智东西5月21日报道,今日,OpenAI宣布,其一款未对外发布的内部通用推理模型,独立完成了一份原创数学证明。该证明推翻了匈牙利数学家保罗埃尔德什(Paul Erdős)…...

显卡驱动清理终极指南:Display Driver Uninstaller专业使用教程

显卡驱动清理终极指南:Display Driver Uninstaller专业使用教程 【免费下载链接】display-drivers-uninstaller Display Driver Uninstaller (DDU) a driver removal utility / cleaner utility 项目地址: https://gitcode.com/gh_mirrors/di/display-drivers-uni…...

锂电 / 光伏工业相机选型:5 大品牌核心参数与适用场景解析

2026 年锂电与光伏行业工业相机选型,早已不再是单纯比拼分辨率数值。行业竞争焦点已转向高速传输下的运行稳定性、与 AI 智能检测的融合深度,以及复杂生产场景下的专属定制能力。像锂电极片高速涂布、光伏硅片隐裂筛查这类核心生产环节,对工业…...

NoFences:免费开源的Windows桌面整理终极方案,告别杂乱桌面

NoFences:免费开源的Windows桌面整理终极方案,告别杂乱桌面 【免费下载链接】NoFences 🚧 Open Source Stardock Fences alternative 项目地址: https://gitcode.com/gh_mirrors/no/NoFences 还在为Windows桌面上杂乱无章的图标而烦恼…...

STM32F407 + RT-Thread 实战:从工程结构到多线程 LED 闪烁

一、工程简介最近看了一个基于 STM32F407 的 RT-Thread 工程,整体结构比较标准,功能上也比较适合作为入门练手项目。这个工程的核心功能并不复杂,主要是通过 RT-Thread 创建多个线程,分别控制不同的 LED 引脚按不同节奏闪烁。虽然…...

抖音批量下载完整指南:3步实现无水印视频高效获取

抖音批量下载完整指南:3步实现无水印视频高效获取 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. …...

NoFences:免费开源桌面整理神器,让Windows桌面焕然一新

NoFences:免费开源桌面整理神器,让Windows桌面焕然一新 【免费下载链接】NoFences 🚧 Open Source Stardock Fences alternative 项目地址: https://gitcode.com/gh_mirrors/no/NoFences 还在为Windows桌面上杂乱无章的图标而烦恼吗&a…...

内网规划练习

本文基于172.16.0.0/16 内网规划,实现双核心交换机互为备份,整合 VLAN、MSTP、VRRP、Eth-Trunk、DHCP 中继、NAT outbound 等技术,满足 PC 自动获取 IP、内网互通、访问公网及 ISP 环回的全业务需求。一、网络需求与规划内网地址:…...

乒乓球教程资源合集

【课程教程资料】乒乓球入门必看,全方位发球技巧教学 文件大小: 3.9GB内容特色: 慢镜拆解12种发球,旋转弧线肉眼可见适用人群: 想靠发球直接拿分的业余玩家核心价值: 一周练成对手接不住的“魔鬼发”下载链接: https://pan.quark.cn/s/8d67c2d65358 乒…...

安全自动化工具:自动化安全检测和响应

安全自动化工具:自动化安全检测和响应 一、安全自动化工具概述 1.1 安全自动化工具的定义 安全自动化工具是指用于自动化执行安全检测、响应和管理任务的软件工具。它通过自动化脚本和智能算法,提高安全运营效率,降低人为错误风险。 1.2 安全…...

如何用Python快速接入Taotoken并调用多模型API完成数据清洗任务

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 如何用Python快速接入Taotoken并调用多模型API完成数据清洗任务 对于需要处理客户数据的开发者而言,数据清洗与结构化是…...

安装 KubeSphere

安装 KubeSphere KubeSphere Core (ks-core) 是 KubeSphere 的核心组件,为扩展组件提供基础的运行环境。KubeSphere Core 安装完成后,即可访问 KubeSphere Web 控制台。 1. 安装 KubeSphere Core 在集群节点上,执行以下命令安装 KubeSpher…...

可观测性告警:及时发现和响应系统异常

可观测性告警:及时发现和响应系统异常 一、可观测性告警概述 1.1 可观测性告警的定义 可观测性告警是指基于系统的指标、日志和追踪数据,通过预设的规则和阈值,自动检测系统异常并发送通知的机制。它帮助运维人员及时发现问题,快速…...

期刊论文重复率多少才算合格?

没有一个“全国统一合格线”。很多人想要一个标准答案,比如“10%以下就稳”“15%以下就能投”。现实是:看你投什么期刊、什么学科、什么系统。大致可以这么看:1. 普通国内期刊:通常 10%–30% 区间常见 有些普刊要求比较宽&#xf…...

终极指南:如何利用Py Eddy Tracker实现海洋中尺度涡旋高效识别与追踪

终极指南:如何利用Py Eddy Tracker实现海洋中尺度涡旋高效识别与追踪 【免费下载链接】py-eddy-tracker Eddy identification and tracking 项目地址: https://gitcode.com/gh_mirrors/py/py-eddy-tracker 海洋涡旋识别与中尺度涡旋追踪是海洋科学研究中的核…...