当前位置：首页 > article >正文

Tool Use实战：用 Function Calling 让 Agent 调用外部工具，我踩了 6 个坑

article 2026/5/3 0:38:41

搞了大模型快两年了我觉得真正让 AI 从聊天机器人变成能干活的人的不是模型有多聪明而是它能不能调用工具。Function Calling 就是干这个的。简单说它让大模型不只是输出文字而是输出一个结构化的工具调用请求然后你的程序去执行这个请求再把结果喂给模型。听起来简单实际落地的时候踩了一堆坑。今天聊一聊我踩过的和解决了的。先看一个具体场景上周在做一个内部运维助手需求很直接让用户用自然语言查服务器状态。用户说帮我查一下线上服务的 QPS 和错误率Agent 需要做三件事调用监控 API 查 QPS调用日志 API 查错误率把结果汇总回复给用户没有 Function Calling 之前你只能做关键词匹配——写死一堆 if-else。有了 Function Calling模型自己决定要调什么工具、按什么顺序调。这就是 Tool Use 的意义把判断和执行分开。实战从零搭一套 Tool Use 系统Step 1: 定义工具描述最关键的一步。工具描述写得烂模型就乱调用。{type:function,function:{name:query_qps,description:查询指定服务的每秒请求数QPS用于监控服务负载,parameters:{type:object,properties:{service_name:{type:string,description:服务名称如 api-gateway、user-service},time_range:{type:string,enum:[5min,1hour,24hour],description:查询的时间范围}},required:[service_name]}}}踩坑1description 要写人话别写空话我一开始写的 description 是查询 QPS 数据结果模型老是在不该调用的时候调用。改成查询指定服务的每秒请求数QPS用于监控服务负载一般与错误率查询配合使用之后准确率提升了不止一点半点。模型是通过 description 来理解什么时候调用这个工具的。写得越具体越好。Step 2: Multi-turn 工具调用一个请求可能需要调用多个工具。核心伪代码如下messages[{role:user,content:查一下 API 网关的 QPS 和错误率}]whileTrue:responseclient.chat.completions.create(modelgpt-4o,messagesmessages,toolsTOOLS,tool_choiceauto)choiceresponse.choices[0]ifchoice.finish_reasonstop:# 模型直接回复了流程结束print(choice.message.content)breakelifchoice.finish_reasontool_calls:# 模型想调用工具messages.append(choice.message)fortool_callinchoice.message.tool_calls:func_nametool_call.function.name argsjson.loads(tool_call.function.arguments)resultexecute_tool(func_name,args)messages.append({role:tool,tool_call_id:tool_call.id,content:json.dumps(result)})这个循环就是 Tool Use 的核心。踩坑2Timeout 怎么处理这是个大坑。一个工具调用可能跑很久比如查全量日志模型在那儿等着用户很暴躁。我的解决方案给每个工具调用设超时超时后返回 “timeout” 给模型让模型决定是重试还是换个方案。try:resultawaitasyncio.wait_for(execute_tool(func_name,args),timeout15# 最多等 15 秒)exceptasyncio.TimeoutError:result{error:timeout,message:查询超时请缩小时间范围后重试}模型收到 timeout 后会主动问用户要不缩小一下时间范围——体验好很多。Step 3: 工具执行结果的处理踩坑3返回结果太大查一次全量日志返回几十 MB 的 JSON你传回模型token 直接爆炸。解决方案自动摘要。工具执行的结果不直接返回先做摘要defsummarize_for_model(result,max_tokens2000):把工具返回的大结果压缩成模型能看的版本ifisinstance(result,list)andlen(result)20:return{total:len(result),summary:f共{len(result)}条记录,sample:result[:5],stats:compute_stats(result)}returnresult踩坑4错误要优雅工具挂了返回个 500 错误页模型看到会一脸懵。API 返回的错误信息一般是给程序看的不是给模型看的。我做了个统一的错误包装层defwrap_error(exception):ifisinstance(exception,ConnectionError):return{error:service_unavailable,message:该服务暂时不可用请稍后重试}elifisinstance(exception,PermissionError):return{error:permission_denied,message:你没有该操作的权限}else:return{error:unknown,message:f操作失败{str(exception)[:100]}}模型看到这种格式的错误信息能更好地向用户解释问题。Step 4: 安全性踩坑5模型生成的参数可能是 SQL 注入如果工具是直接拼接 SQL 的模型调用时可能传一个恶意的参数值。解决方案所有工具执行前做参数校验特别是有数据库操作的工具。defvalidate_tool_args(func_name,args):iffunc_namequery_database:asserttable_nameinargsassertisinstance(args[table_name],str)# 白名单只允许查询预定义的表assertargs[table_name]inALLOWED_TABLES不要信任模型生成的参数该校验的得校验。Step 5: 让工具真正好用*踩坑6工具太多模型选不对*工具数量超过 15 个时模型选错的概率明显上升。我试过的几个策略策略A分组把工具按功能分组监控组、数据库组、消息组先调用路由工具决定用哪个组再调具体工具。效果最好但延迟多一轮。策略B降采样每次只用最相关的 5-8 个工具。基于用户当前的对话上下文做语义匹配。工程复杂度高但效果最稳。策略Crank 排序我最后的方案——给每个工具加一个热度分数根据历史调用频率排序热门工具优先级更高。简单粗暴但实用。实际效果数据这套系统跑了一周后的数据工具调用准确率91.3%工具超时率2.1%用户满意度人工标注89%平均每次用户请求调用工具数2.3 次最常用的工具 Top 3query_logs(34%)、get_metric(28%)、send_notification(12%)写在最后Function Calling 让 Agent 真正有了手。但从能调用工具到调得好用中间有一堆工程化的坑。我的核心建议是不要把工具调用当黑盒。每步都做校验、摘要、错误处理这些不性感的工作才是系统稳定运行的保障。如果你刚开始做 Tool Use建议从 3-5 个工具开始试跑通了再慢慢加。一口吃不成胖子工具多了模型也懵。有问题评论区聊。

Tool Use实战：用 Function Calling 让 Agent 调用外部工具，我踩了 6 个坑

相关文章：

Tool Use实战：用 Function Calling 让 Agent 调用外部工具，我踩了 6 个坑

5分钟快速上手：Windows任务栏美化神器TranslucentTB完整指南

UE Viewer实战指南：高效解析Unreal Engine游戏资源

QKeyMapper终极指南：5分钟掌握Windows专业级按键映射与虚拟手柄

告别Socket编程焦虑：用libwebsockets在C++里5分钟搭一个WebSocket服务器（附完整源码）

lark-agent-bridge：一键打通QwenPaw与飞书OpenAPI的智能体桥接工具

【AI Agent通识九课】01 · Agent 和 ChatGPT 到底差在哪？

科研避坑指南：VASP模拟STM时，你的INCAR文件可能设错了这3个参数

MiniCPM-V 4.5：轻量化多模态大模型架构解析与应用

MiMo-Embodied：统一视觉语言模型在自动驾驶与具身智能中的应用

通过Taotoken模型广场对比不同模型在代码生成任务上的效果与性价比

D3keyHelper：暗黑破坏神3终极自动化助手完整使用指南

终极解决方案：KeyboardChatterBlocker拯救你的机械键盘按键抖动问题

RTX 3050笔记本上，用Python 3.10和CUDA 11.8搞定TensorFlow 2.10 GPU加速（附完整依赖检查清单）

基于Bags-SDK的智能依赖管理工具：黑客松实战指南

固件签名验证总被绕过？揭秘C语言实现中4类隐蔽时序侧信道漏洞，含STM32L4+SecureBoot实测复现步骤

现在不重构采集层，明年QSR820审计就亮红牌：C语言实时采集模块可追溯性设计四步法（含SVN/Git blame自动化追踪方案）

仅限3家国家级QKD实验室内部流通的C语言底层规范（V2.4.1）首次解禁：涵盖量子信道误码率实时上报、偏振反馈闭环控制及抗强电磁干扰IO映射表

GlosSI：让所有游戏都支持Steam手柄控制的终极方案

跨设备角色迁移：3步完成艾尔登法环存档无损转移

鸣潮智能辅助：解放双手的后台自动化助手

Zotero插件市场：一站式插件管理解决方案，彻底告别繁琐搜索和手动安装

LAMER框架：元强化学习与大语言模型的智能体优化

从‘WLAN没有有效的IP配置’错误，我搞懂了家用路由器DHCP那点事

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间

硬件工程师必看：SPICE和IBIS模型到底怎么选？从仿真精度到获取难度的实战对比

抖音下载器完整指南：如何高效批量下载抖音视频和音乐

在自动化工作流中集成Taotoken实现多模型聚合调用

在Node.js后端服务中集成多模型API实现智能问答

DBeaver连接PostgreSQL保姆级避坑指南：从防火墙到用户权限，一次搞定所有报错