当前位置: 首页 > article >正文

【AI Agent工程实战系列②】工具调用的正确姿势——不只是写个函数那么简单

先模拟一个场景我们有一个Agent负责处理内部的IT工单,工具列表里有两个长得很像的工具:defget_user_info(user_id:str)-dict:"""获取用户的基本信息"""...defget_user_permissions(user_id:str)-dict:"""获取用户的权限列表"""...某天一个工程师提交了工单:“帮我查一下张三有没有生产环境的部署权限。”Agent调用了get_user_info,拿到了张三的姓名、邮箱、部门,然后基于这些信息"推理"出:张三是高级工程师,所以应该有部署权限——并把这个结论告诉了工单提交者。实际上张三没有这个权限。工程师拿着这个错误结论去操作,碰壁之后才发现问题。工具描述改一个字就能修复这个问题。但如果不知道根因在哪,你可能永远找不到这一个字。工具调用的完整生命周期大多数教程把工具调用简化成这样:LLM → 选工具 → 调用 → 返回结果实际上每个箭头背后都有一堆可能出错的地方:九个环节,每个都有独立的失败模式。我们逐一处理。第一关:工具描述设计——最被低估的工程工作工具描述(Tool Description)是LLM选择工具和提取参数的唯一依据。写得好,工具调用准确率能从60%提升到95%以上。写得差,再好的模型也救不了你。坏的工具描述长什么样# 反例:模糊、歧义、缺少关键信息tools=[{"name":"get_order","description":"获取订单信息","parameters":{"order_id":{"type":"string"}}},{"name":"search_orders","description":"搜索订单","parameters":{"query":{"type":"string"}}},{"name":"get_user_orders","description":"获取用户订单","parameters":{"user_id":{"type":"string"}}}]这三个工具的描述,对LLM来说几乎是一样的。当用户说"帮我查一下我的订单",LLM不知道该选哪个。好的工具描述长什么样tools=[{"name":"get_order_by_id","description":("通过精确的订单号查询单个订单的详细信息,包括订单状态、""商品列表、支付信息和物流追踪号。""【使用场景】用户提供了具体的订单号(如'ORDER-20240315-001')。""【不适用场景】用户只说'我的订单'但没有提供订单号;""需要查询多个订单时。"),"parameters":{"type":"object","properties":{"order_id":{"type":"string","description":("订单号,格式为'ORDER-YYYYMMDD-XXX',""例如'ORDER-20240315-001'。""如果用户没有提供订单号,不要猜测,""应该向用户询问订单号。"),"pattern":"^ORDER-\\d{8}-\\d{3}$"}},"required":["order_id"]}},{"name":"get_user_all_orders","description":("获取指定用户的所有订单列表,按时间倒序排列,最多返回50条。""【使用场景】用户想查看自己的全部订单历史,""或者说'我的所有订单'/'最近的订单'但没有提供订单号。""【不适用场景】用户已经提供了具体订单号;""需要搜索特定条件的订单时。"),"parameters":{"type":"object","properties":{"user_id":{"type":"string","description":"用户ID,从当前会话的用户上下文中获取,不要向用户询问"},"limit":{"type":"integer","description":"返回订单数量,默认10,最大50","default":10,"minimum":1,"maximum":50}},"required":["user_id"]}}]好的工具描述有五个要素:① 说清楚工具做什么(精确,不模糊) ② 说清楚什么时候用(适用场景) ③ 说清楚什么时候不用(不适用场景)——这是最容易忽略的 ④ 每个参数的格式和示例(不要让LLM猜) ⑤ 参数的边界条件(required/optional/default/range)工具描述的A/B测试工具描述不是写一次就完事的,它需要迭代。我们的做法是:importjsonfromtypingimportList,Dictfromdataclassesimportdataclass@dataclassclassToolSelectionTestCase:"""工具选择测试用例"""user_input:strexpected_tool:strexpected_params:Dict description:str# 这个用例测试什么边界# 工具选择测试套件TOOL_SELECTION_TEST_CASES=[ToolSelectionTestCase(user_input="帮我查一下ORDER-20240315-001的状态",expected_tool="get_order_by_id",expected_params={"order_id":"ORDER-20240315-001"},description="明确提供订单号,应选择精确查询"),ToolSelectionTestCase(user_input="我最近买了什么",expected_tool="get_user_all_orders",expected_params={"user_id":"{current_user_id}","limit":10},description="没有订单号,应选择用户订单列表"),ToolSelectionTestCase(user_input="我的订单",# 极度模糊expected_tool="get_user_all_orders",expected_params={"user_id":"{current_user_id}"},description="模糊输入,应默认查用户订单列表而不是要求提供订单号"),ToolSelectionTestCase(user_input="帮我查一下订单123",# 格式不对的订单号expected_tool="clarify_intent",# 应该请求澄清,而不是乱猜expected_params={},description="订单号格式不对,应请求澄清"),]defevaluate_tool_selection(agent,test_cases:List[ToolSelectionTestCase])-dict:""" 评估工具描述的质量 通过测试用例集测量工具选择准确率 """results={"total":len(test_cases),"correct_tool":0,"correct_params":0,"failures":[]}forcaseintest_cases:# 只运行工具选择步骤,不实际执行工具selected_tool,selected_params=agent.plan_tool_call(case.user_input)tool_correct=selected_tool==case.expected_tool params_correct=_params_match(selected_params,case.expected_params)iftool_correct:results["correct_tool"]+=1iftool_correctandparams_correct:results["correct_params"]+=1ifnottool_correctornotparams_correct:results["failures"].append({"input":case.user_input,"description":case.description,"expected_tool":case.expected_tool,"selected_tool":selected_tool,"expected_params":case.expected_params,"selected_params":selected_params,})results["tool_accuracy"]=results["correct_tool"]/results["total"]results["param_accuracy"]=results["correct_params"]/results["total"]returnresultsdef_params_match(actual:dict,expected:dict)-bool:"""参数匹配检查(允许占位符变量)"""forkey,expected_valinexpected.items():ifkeynotinactual:

相关文章:

【AI Agent工程实战系列②】工具调用的正确姿势——不只是写个函数那么简单

先模拟一个场景 我们有一个Agent负责处理内部的IT工单,工具列表里有两个长得很像的工具: def get_user_info(user_id: str) -> dict:"""获取用户的基本信息"""...def get_user_permissions(user_id: str) -> dict:"""获…...

【AI Agent工程实战系列①】Agent系统为什么比你想的难十倍

Demo Agent和生产级Agent:本质区别在哪里 绝大多数Agent教程展示的是这样的系统: 用户输入 → LLM思考 → 选择工具 → 工具执行 → 返回结果这个流程在happy path(正常路径)上工作得很好。教程里的例子永远是: 用户问题清晰、意图明确 工具总是返回正确结果 任务在3-5步…...

OpCore Simplify:黑苹果配置终极指南 - 智能自动化工具让OpenCore EFI创建变得简单快速

OpCore Simplify:黑苹果配置终极指南 - 智能自动化工具让OpenCore EFI创建变得简单快速 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify Op…...

3步实现安卓投屏:QtScrcpy让你的手机在电脑上流畅操作

3步实现安卓投屏:QtScrcpy让你的手机在电脑上流畅操作 【免费下载链接】QtScrcpy Android实时投屏软件,此应用程序提供USB(或通过TCP/IP)连接的Android设备的显示和控制。它不需要任何root访问权限 项目地址: https://gitcode.com/barry-ran/QtScrcpy …...

保姆级教程:手把手调试vsomeip 3.1.20.3的Event订阅流程(附GDB/日志追踪技巧)

深入调试vsomeip事件订阅:从原理到实战排查指南 事件订阅机制的核心原理 vsomeip作为车载中间件领域的核心通信框架,其事件订阅机制的设计直接影响着分布式系统的实时性和可靠性。理解这套机制的工作原理,是高效排查订阅问题的前提。 事件订阅…...

Scroll Reverser:解决Mac滚动方向混乱的终极指南

Scroll Reverser:解决Mac滚动方向混乱的终极指南 【免费下载链接】Scroll-Reverser Per-device scrolling prefs on macOS. 项目地址: https://gitcode.com/gh_mirrors/sc/Scroll-Reverser 你是否经常在Mac触控板和鼠标之间切换时,被完全相反的滚…...

深入涂鸦IoT SDK核心:剖析pre_app_init到device_init的启动流程与最佳实践

涂鸦IoT SDK启动流程深度解析:从硬件上电到云端连接的架构设计与性能优化 在智能硬件开发领域,启动流程的优化往往决定了产品的第一印象。想象一下:当你按下智能灯泡的开关,是希望立即看到灯光响应,还是等待几秒才亮起…...

别再死记模块了!一张图看懂AUTOSAR CAN信号流:普通、诊断、XCP、NM报文到底怎么走?

AUTOSAR CAN信号流全景解析:从报文属性到配置落地的完整逻辑链 在汽车电子开发领域,AUTOSAR架构下的CAN通信配置一直是工程师们面临的难点之一。许多开发者虽然熟悉各个独立模块的功能,但当面对实际项目配置时,却常常陷入"只…...

别再死记硬背欧拉公式了!用Python可视化平面图,5分钟搞懂n-m+r=2

用Python可视化平面图:5分钟玩转欧拉公式的几何奥秘 第一次接触欧拉公式时,那个简洁的n-mr2让我既惊叹又困惑——为什么节点、边和面之间会存在如此精确的数学关系?直到我用代码亲手绘制出各种平面图,看着程序自动计算出的数值完…...

从‘救命稻草’到‘瑞士军刀’:嵌入式老鸟教你用U-Boot命令诊断与修复启动故障

嵌入式系统急救指南:U-Boot命令实战排错手册 当嵌入式设备卡在启动阶段,屏幕上的U-Boot提示符可能是你最后的救命稻草。作为嵌入式开发者,我曾无数次面对这样的场景:生产线上的设备突然无法启动,客户现场的系统莫名崩溃…...

大模型写代码真的能替代工程师吗?(2024全球27家头部科技公司实测数据深度解密)

第一章:大模型写代码真的能替代工程师吗?(2024全球27家头部科技公司实测数据深度解密) 2026奇点智能技术大会(https://ml-summit.org) 2024年,由MIT CSAIL、DeepMind与IEEE联合发起的「CodeLLM Benchmark」项目对全球…...

哪个电台可以点歌送人?找对地方,心意用歌声温柔送达:语际点歌台

很多人心里都藏着一个温柔的念头:想给远方的家人、许久未见的朋友、心里惦记的人,点一首歌,捎上一句祝福。可翻遍手机、问遍朋友,却总在纠结:到底哪个电台可以点歌送人?怎么点才靠谱、能送到对方耳边&#…...

从Razor页面到Blazor组件:深入聊聊C#三元运算符在前端渲染里的妙用

从Razor页面到Blazor组件:深入聊聊C#三元运算符在前端渲染里的妙用 在ASP.NET Core的Web开发中,动态UI渲染一直是开发者需要频繁处理的场景。传统的条件渲染方式如if指令虽然功能强大,但在处理简单条件判断时往往显得冗长。C#的三元运算符&am…...

虚拟世界不再需要“用户”,只需要“意识锚点”?——2026奇点大会最震撼闭门议题首次对外解密

第一章:虚拟世界不再需要“用户”,只需要“意识锚点”?——2026奇点大会最震撼闭门议题首次对外解密 2026奇点智能技术大会(https://ml-summit.org) 从身份认证到意识注册:范式迁移的临界点 传统数字身份体系正遭遇根本性失效&a…...

用C语言和NI-VISA库搞定罗德施瓦茨CMW500仪表数据读取(附完整VS2019配置流程)

用C语言和NI-VISA库实现罗德施瓦茨CMW500仪表数据读取(VS2019完整配置指南) 在射频测试领域,能够通过程序自动化读取仪表数据是提升效率的关键。本文将手把手带你完成从零开始配置Visual Studio 2019开发环境,到最终通过C语言和NI…...

GB35114视频加密全解析:从VEK生成到OFB模式流加密,如何保障监控视频防篡改?

GB35114视频加密技术深度剖析:从密钥管理到流加密实战 在视频监控领域,数据安全已成为系统设计的核心考量。GB35114标准作为我国视频监控领域的重要安全规范,其加密机制设计既考虑了实时性要求,又确保了数据完整性和机密性。本文将…...

远程健康监测的终极解决方案:rPPG开源项目完整指南

远程健康监测的终极解决方案:rPPG开源项目完整指南 【免费下载链接】rppg Benchmark Framework for fair evaluation of rPPG 项目地址: https://gitcode.com/gh_mirrors/rpp/rppg 你是否想过,仅仅通过普通摄像头就能监测心率和血压?&…...

c++如何利用std--tie实现多个文件属性字段的快速比较排序【详解】

std::tie多字段排序需确保字段可比较、顺序一致且异常安全&#xff1a;字段类型须支持operator<&#xff0c;避免混用有符号/无符号或浮点精度问题&#xff1b;属性应预提取并兜底默认值&#xff0c;禁用可能抛异常的接口&#xff1b;跨平台时间比较需统一转为nanoseconds整…...

用层次聚类给文本自动分个类:从词向量到TF-IDF的完整实战(含Scipy linkage详解)

用层次聚类给文本自动分个类&#xff1a;从词向量到TF-IDF的完整实战 当面对海量文本数据时&#xff0c;如何快速发现隐藏的语义结构&#xff1f;层次聚类提供了一种直观的解决方案。不同于K-means需要预设类别数量&#xff0c;层次聚类通过构建树状图&#xff08;Dendrogram&a…...

别再手动lock/unlock了!Qt多线程开发中QMutexLocker的正确打开方式(附源码对比)

Qt多线程开发&#xff1a;用QMutexLocker实现零失误的锁管理 在Qt多线程开发中&#xff0c;资源竞争问题就像房间里的大象——谁都无法忽视。传统QMutex的手动lock/unlock操作看似简单&#xff0c;却隐藏着巨大的隐患。想象一下&#xff0c;在一个复杂的业务逻辑中&#xff0c;…...

PoeCharm:10个技巧让你成为流放之路角色构建大师

PoeCharm&#xff1a;10个技巧让你成为流放之路角色构建大师 【免费下载链接】PoeCharm Path of Building Chinese version 项目地址: https://gitcode.com/gh_mirrors/po/PoeCharm 当你在流放之路中面对复杂的角色构建时&#xff0c;是否曾因语言障碍而错过最佳装备组合…...

2026届学术党必备的十大AI辅助写作神器推荐榜单

Ai论文网站排名&#xff08;开题报告、文献综述、降aigc率、降重综合对比&#xff09; TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 人工智慧助力学术写作现今已然成了现实&#xff0c;当下&#xff0c;大型语言模组能够以效率…...

别再为Linux读卡器发愁了!手把手教你用pcsc-lite搞定USB智能卡驱动(附常见错误排查)

Linux智能卡驱动终极指南&#xff1a;从安装到排错的完整解决方案 每次在Linux系统上插上USB智能卡读卡器&#xff0c;却发现系统毫无反应时&#xff0c;那种挫败感简直让人抓狂。作为一位经历过无数次驱动安装失败的"过来人"&#xff0c;我完全理解这种痛苦——明明…...

别再傻傻分不清了!GCC、Glibc、Libstdc++ 在 Linux 下到底是啥关系?

别再傻傻分不清了&#xff01;GCC、Glibc、Libstdc 在 Linux 下到底是啥关系&#xff1f; 刚接触 Linux C/C 开发时&#xff0c;最让人头疼的莫过于那些晦涩难懂的编译错误。比如 undefined reference to std::cout 或者 glibc version not found&#xff0c;新手往往一脸茫然&…...

python重命名文件 发生的一些问题记录

1.2.你的怀疑完全正确&#xff01; 问题就出在这里&#xff01;问题根源 你使用了 PyCharm 的重构重命名功能&#xff0c;并且勾选了 "All Places"&#xff08;所有位置&#xff09;&#xff0c;这导致&#xff1a;✅ 文件重命名了❌ 但 PyCharm 可能错误地修改了某些…...

文本文件名相似度筛选

在日常工作中&#xff0c;整理文本文件时最让人头疼的问题之一就是重复文件过多。同一个内容的不同版本混在一起&#xff0c;靠肉眼很难快速区分哪些是"真正重复"、哪些只是"名字相似但内容不同"。这篇文章介绍一个能解决这个问题的桌面工具&#xff0c;帮…...

四十二、Fluent欧拉模型流化床模拟:从基础设置到颗粒动力学解析

1. 流化床与欧拉模型基础概念 流化床技术在现代工业中应用广泛&#xff0c;从化工反应器到生物质燃烧装置都能见到它的身影。简单来说&#xff0c;流化床就是让固体颗粒在流体作用下呈现类似流体流动状态的一种装置。想象一下小时候玩过的泡泡浴&#xff0c;当浴缸底部不断有气…...

解密WPF黑盒:5分钟掌握dnSpy BAML反编译核心技术

解密WPF黑盒&#xff1a;5分钟掌握dnSpy BAML反编译核心技术 【免费下载链接】dnSpy Unofficial revival of the well known .NET debugger and assembly editor, dnSpy 项目地址: https://gitcode.com/gh_mirrors/dns/dnSpy 你是否曾面对WPF应用程序的二进制界面资源束…...

【量化实战】解码期权PCR:从情绪指标到稳健策略的构建与优化

1. 期权PCR指标的本质与市场情绪解码 第一次接触期权PCR指标时&#xff0c;我和大多数新手一样困惑——这个看似简单的比值背后&#xff0c;到底藏着什么市场秘密&#xff1f;经过多年实战&#xff0c;我发现它就像市场的"心电图"&#xff0c;能实时反映投资者的集体…...

为何买车不做小白鼠,得看口碑?使用多年的车主指某些电车容易散架!后悔得肠子都青了

独家首发公众号柏铭科技---------------------------不少给新手推荐汽车的时候&#xff0c;都会拿配置说事&#xff0c;然而车这种东西并不仅仅是配置的问题&#xff0c;更重要的是耐久性&#xff0c;车与手机等产品很不一样&#xff0c;车价格更贵、使用时间更长、二手车残值也…...