当前位置: 首页 > article >正文

Tool Use实战:用 Function Calling 让 Agent 调用外部工具,我踩了 6 个坑

搞了大模型快两年了我觉得真正让 AI 从聊天机器人变成能干活的人的不是模型有多聪明而是它能不能调用工具。Function Calling 就是干这个的。简单说它让大模型不只是输出文字而是输出一个结构化的工具调用请求然后你的程序去执行这个请求再把结果喂给模型。听起来简单实际落地的时候踩了一堆坑。今天聊一聊我踩过的和解决了的。先看一个具体场景上周在做一个内部运维助手需求很直接让用户用自然语言查服务器状态。用户说帮我查一下线上服务的 QPS 和错误率Agent 需要做三件事调用监控 API 查 QPS调用日志 API 查错误率把结果汇总回复给用户没有 Function Calling 之前你只能做关键词匹配——写死一堆 if-else。有了 Function Calling模型自己决定要调什么工具、按什么顺序调。这就是 Tool Use 的意义把判断和执行分开。实战从零搭一套 Tool Use 系统Step 1: 定义工具描述最关键的一步。工具描述写得烂模型就乱调用。{type:function,function:{name:query_qps,description:查询指定服务的每秒请求数QPS用于监控服务负载,parameters:{type:object,properties:{service_name:{type:string,description:服务名称如 api-gateway、user-service},time_range:{type:string,enum:[5min,1hour,24hour],description:查询的时间范围}},required:[service_name]}}}踩坑1description 要写人话别写空话我一开始写的 description 是查询 QPS 数据结果模型老是在不该调用的时候调用。改成查询指定服务的每秒请求数QPS用于监控服务负载一般与错误率查询配合使用之后准确率提升了不止一点半点。模型是通过 description 来理解什么时候调用这个工具的。写得越具体越好。Step 2: Multi-turn 工具调用一个请求可能需要调用多个工具。核心伪代码如下messages[{role:user,content:查一下 API 网关的 QPS 和错误率}]whileTrue:responseclient.chat.completions.create(modelgpt-4o,messagesmessages,toolsTOOLS,tool_choiceauto)choiceresponse.choices[0]ifchoice.finish_reasonstop:# 模型直接回复了流程结束print(choice.message.content)breakelifchoice.finish_reasontool_calls:# 模型想调用工具messages.append(choice.message)fortool_callinchoice.message.tool_calls:func_nametool_call.function.name argsjson.loads(tool_call.function.arguments)resultexecute_tool(func_name,args)messages.append({role:tool,tool_call_id:tool_call.id,content:json.dumps(result)})这个循环就是 Tool Use 的核心。踩坑2Timeout 怎么处理这是个大坑。一个工具调用可能跑很久比如查全量日志模型在那儿等着用户很暴躁。我的解决方案给每个工具调用设超时超时后返回 “timeout” 给模型让模型决定是重试还是换个方案。try:resultawaitasyncio.wait_for(execute_tool(func_name,args),timeout15# 最多等 15 秒)exceptasyncio.TimeoutError:result{error:timeout,message:查询超时请缩小时间范围后重试}模型收到 timeout 后会主动问用户要不缩小一下时间范围——体验好很多。Step 3: 工具执行结果的处理踩坑3返回结果太大查一次全量日志返回几十 MB 的 JSON你传回模型token 直接爆炸。解决方案自动摘要。工具执行的结果不直接返回先做摘要defsummarize_for_model(result,max_tokens2000):把工具返回的大结果压缩成模型能看的版本ifisinstance(result,list)andlen(result)20:return{total:len(result),summary:f共{len(result)}条记录,sample:result[:5],stats:compute_stats(result)}returnresult踩坑4错误要优雅工具挂了返回个 500 错误页模型看到会一脸懵。API 返回的错误信息一般是给程序看的不是给模型看的。我做了个统一的错误包装层defwrap_error(exception):ifisinstance(exception,ConnectionError):return{error:service_unavailable,message:该服务暂时不可用请稍后重试}elifisinstance(exception,PermissionError):return{error:permission_denied,message:你没有该操作的权限}else:return{error:unknown,message:f操作失败{str(exception)[:100]}}模型看到这种格式的错误信息能更好地向用户解释问题。Step 4: 安全性踩坑5模型生成的参数可能是 SQL 注入如果工具是直接拼接 SQL 的模型调用时可能传一个恶意的参数值。解决方案所有工具执行前做参数校验特别是有数据库操作的工具。defvalidate_tool_args(func_name,args):iffunc_namequery_database:asserttable_nameinargsassertisinstance(args[table_name],str)# 白名单只允许查询预定义的表assertargs[table_name]inALLOWED_TABLES不要信任模型生成的参数该校验的得校验。Step 5: 让工具真正好用*踩坑6工具太多模型选不对*工具数量超过 15 个时模型选错的概率明显上升。我试过的几个策略策略A分组把工具按功能分组监控组、数据库组、消息组先调用路由工具决定用哪个组再调具体工具。效果最好但延迟多一轮。策略B降采样每次只用最相关的 5-8 个工具。基于用户当前的对话上下文做语义匹配。工程复杂度高但效果最稳。策略Crank 排序我最后的方案——给每个工具加一个热度分数根据历史调用频率排序热门工具优先级更高。简单粗暴但实用。实际效果数据这套系统跑了一周后的数据工具调用准确率91.3%工具超时率2.1%用户满意度人工标注89%平均每次用户请求调用工具数2.3 次最常用的工具 Top 3query_logs(34%)、get_metric(28%)、send_notification(12%)写在最后Function Calling 让 Agent 真正有了手。但从能调用工具到调得好用中间有一堆工程化的坑。我的核心建议是不要把工具调用当黑盒。每步都做校验、摘要、错误处理这些不性感的工作才是系统稳定运行的保障。如果你刚开始做 Tool Use建议从 3-5 个工具开始试跑通了再慢慢加。一口吃不成胖子工具多了模型也懵。有问题评论区聊。

相关文章:

Tool Use实战:用 Function Calling 让 Agent 调用外部工具,我踩了 6 个坑

搞了大模型快两年了,我觉得真正让 AI 从"聊天机器人"变成"能干活的人"的,不是模型有多聪明,而是它能不能调用工具。 Function Calling 就是干这个的。 简单说,它让大模型不只是输出文字,而是输出一…...

5分钟快速上手:Windows任务栏美化神器TranslucentTB完整指南

5分钟快速上手:Windows任务栏美化神器TranslucentTB完整指南 【免费下载链接】TranslucentTB A lightweight utility that makes the Windows taskbar translucent/transparent. 项目地址: https://gitcode.com/gh_mirrors/tr/TranslucentTB 想要让你的Windo…...

UE Viewer实战指南:高效解析Unreal Engine游戏资源

UE Viewer实战指南:高效解析Unreal Engine游戏资源 【免费下载链接】UEViewer Viewer and exporter for Unreal Engine 1-4 assets (UE Viewer). 项目地址: https://gitcode.com/gh_mirrors/ue/UEViewer UE Viewer(曾用名Unreal model viewer&…...

QKeyMapper终极指南:5分钟掌握Windows专业级按键映射与虚拟手柄

QKeyMapper终极指南:5分钟掌握Windows专业级按键映射与虚拟手柄 【免费下载链接】QKeyMapper [按键映射工具] QKeyMapper,Qt开发Win10&Win11可用,不修改注册表、不需重新启动系统,可立即生效和停止。支持游戏手柄映射到键鼠&a…...

告别Socket编程焦虑:用libwebsockets在C++里5分钟搭一个WebSocket服务器(附完整源码)

5分钟用libwebsockets构建C WebSocket服务器:从焦虑到上手指南 第一次接触WebSocket服务器开发时,我被各种Socket API和连接状态管理折磨得焦头烂额。直到发现了libwebsockets这个神器,才发现原来搭建一个稳定的双向通信服务可以如此简单。本…...

lark-agent-bridge:一键打通QwenPaw与飞书OpenAPI的智能体桥接工具

1. 项目概述如果你正在用 QwenPaw 这类 AI 智能体,并且日常工作重度依赖飞书,那你可能遇到过这样的场景:想让 AI 帮你查一下同事的日程、创建一个云文档,或者拉取一份多维表格的数据。理论上,飞书官方提供了功能强大的…...

【AI Agent通识九课】01 · Agent 和 ChatGPT 到底差在哪?

AI Agent 通识课 第 1 篇 / 共 9 篇 一句话记住:会说话的 AI ≠ 会干活的 AI 最近被问得最多的一句话是—— “ChatGPT 我会用,Cursor 我也用过,那 Claude Code、Warp、Devin 到底和它们有啥不一样?” 我一开始也懵。 直到有天我…...

科研避坑指南:VASP模拟STM时,你的INCAR文件可能设错了这3个参数

科研避坑指南:VASP模拟STM时INCAR文件三大关键参数解析 在表面科学和材料表征领域,扫描隧道显微镜(STM)模拟已成为理论验证实验的重要手段。许多研究者在使用VASP进行STM图像模拟时,往往能够顺利生成PARCHG文件,却在最终图像对比环…...

MiniCPM-V 4.5:轻量化多模态大模型架构解析与应用

1. MiniCPM-V 4.5项目概述在计算机视觉与自然语言处理融合的前沿领域,MiniCPM-V 4.5代表了一种新型高效多模态大模型架构。这个开源项目通过创新的模型压缩和推理优化技术,在保持多模态理解能力的前提下,显著降低了硬件资源需求。我最近在工业…...

MiMo-Embodied:统一视觉语言模型在自动驾驶与具身智能中的应用

1. 项目背景与核心价值在自动驾驶和具身智能领域,视觉语言模型长期面临一个根本性矛盾:不同应用场景需要完全不同的模型架构和训练范式。自动驾驶系统通常采用多摄像头输入高精度地图的感知方案,而具身AI则依赖第一人称视角自然语言指令的交互…...

通过Taotoken模型广场对比不同模型在代码生成任务上的效果与性价比

通过Taotoken模型广场对比不同模型在代码生成任务上的效果与性价比 1. 模型广场的核心价值 Taotoken模型广场汇集了多家厂商的主流大模型,开发者无需为每个模型单独注册账号或学习不同的API协议。通过统一的OpenAI兼容接口,可以快速切换不同模型进行测…...

D3keyHelper:暗黑破坏神3终极自动化助手完整使用指南

D3keyHelper:暗黑破坏神3终极自动化助手完整使用指南 【免费下载链接】D3keyHelper D3KeyHelper是一个有图形界面,可自定义配置的暗黑3鼠标宏工具。 项目地址: https://gitcode.com/gh_mirrors/d3/D3keyHelper 厌倦了在《暗黑破坏神3》中反复点击…...

终极解决方案:KeyboardChatterBlocker拯救你的机械键盘按键抖动问题

终极解决方案:KeyboardChatterBlocker拯救你的机械键盘按键抖动问题 【免费下载链接】KeyboardChatterBlocker A handy quick tool for blocking mechanical keyboard chatter. 项目地址: https://gitcode.com/gh_mirrors/ke/KeyboardChatterBlocker 还在为机…...

RTX 3050笔记本上,用Python 3.10和CUDA 11.8搞定TensorFlow 2.10 GPU加速(附完整依赖检查清单)

RTX 3050笔记本上,用Python 3.10和CUDA 11.8搞定TensorFlow 2.10 GPU加速(附完整依赖检查清单) 在RTX 3050笔记本上配置TensorFlow GPU加速环境,是许多深度学习初学者的第一个实战挑战。与台式机不同,笔记本环境面临着…...

基于Bags-SDK的智能依赖管理工具:黑客松实战指南

1. 项目概述:一次关于“包”的SDK黑客松最近在开发者社区里,一个名为“outerheaven199X/Bags-SDK-hackathon”的项目引起了我的注意。这名字听起来就挺有意思,“outerheaven”像是个开发者的代号,“199X”带着点复古情怀&#xff…...

固件签名验证总被绕过?揭秘C语言实现中4类隐蔽时序侧信道漏洞,含STM32L4+SecureBoot实测复现步骤

更多请点击: https://intelliparadigm.com 第一章:C 语言防篡改固件测试 固件级防篡改能力是嵌入式系统安全的基石,尤其在工业控制、物联网终端和可信执行环境中,必须验证 C 语言实现的固件能否抵御运行时内存篡改、跳转劫持与校…...

现在不重构采集层,明年QSR820审计就亮红牌:C语言实时采集模块可追溯性设计四步法(含SVN/Git blame自动化追踪方案)

更多请点击: https://intelliparadigm.com 第一章:C语言医疗设备实时数据采集方法 在嵌入式医疗设备(如心电监护仪、血氧饱和度仪)中,C语言因其高效性、内存可控性和硬件级操作能力,成为实时数据采集系统的…...

仅限3家国家级QKD实验室内部流通的C语言底层规范(V2.4.1)首次解禁:涵盖量子信道误码率实时上报、偏振反馈闭环控制及抗强电磁干扰IO映射表

更多请点击: https://intelliparadigm.com 第一章:C语言量子通信终端底层开发代码概览 量子通信终端的底层固件需在资源受限的嵌入式平台上实现高精度时序控制、量子态制备与单光子探测信号解析。C语言因其零开销抽象、内存可控性及广泛交叉编译支持&am…...

GlosSI:让所有游戏都支持Steam手柄控制的终极方案

GlosSI:让所有游戏都支持Steam手柄控制的终极方案 【免费下载链接】GlosSI Tool for using Steam-Input controller rebinding at a system level alongside a global overlay 项目地址: https://gitcode.com/gh_mirrors/gl/GlosSI 还在为某些游戏不支持你的…...

跨设备角色迁移:3步完成艾尔登法环存档无损转移

跨设备角色迁移:3步完成艾尔登法环存档无损转移 【免费下载链接】EldenRingSaveCopier 项目地址: https://gitcode.com/gh_mirrors/el/EldenRingSaveCopier 对于《艾尔登法环》玩家来说,最令人沮丧的体验莫过于更换设备时发现辛苦培养的角色无法…...

鸣潮智能辅助:解放双手的后台自动化助手

鸣潮智能辅助:解放双手的后台自动化助手 【免费下载链接】ok-wuthering-waves 鸣潮 后台自动战斗 自动刷声骸 一键日常 Automation for Wuthering Waves 项目地址: https://gitcode.com/GitHub_Trending/ok/ok-wuthering-waves 还在为《鸣潮》中重复的日常任…...

Zotero插件市场:一站式插件管理解决方案,彻底告别繁琐搜索和手动安装

Zotero插件市场:一站式插件管理解决方案,彻底告别繁琐搜索和手动安装 【免费下载链接】zotero-addons Zotero Add-on Market | Zotero插件市场 | Browsing, installing, and reviewing plugins within Zotero 项目地址: https://gitcode.com/gh_mirror…...

LAMER框架:元强化学习与大语言模型的智能体优化

1. LAMER框架概述:当元强化学习遇上大语言模型在AI智能体开发领域,我们常常面临一个核心矛盾:大语言模型(LLM)拥有强大的语义理解能力,却缺乏持续优化的决策机制;传统强化学习(RL&am…...

从‘WLAN没有有效的IP配置’错误,我搞懂了家用路由器DHCP那点事

从“WLAN没有有效的IP配置”错误,我搞懂了家用路由器DHCP那点事 那天晚上,我正在赶一份紧急报告,Wi-Fi突然弹出一个从未见过的错误提示:“WLAN没有有效的IP配置”。重启路由器后问题暂时解决,但第二天又反复出现。这个…...

智慧树学习效率提升指南:如何用自动化工具节省80%学习时间

智慧树学习效率提升指南:如何用自动化工具节省80%学习时间 【免费下载链接】zhihuishu 智慧树刷课插件,自动播放下一集、1.5倍速度、无声 项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台繁琐的视频学习流程而烦恼吗&am…...

硬件工程师必看:SPICE和IBIS模型到底怎么选?从仿真精度到获取难度的实战对比

硬件工程师实战指南:SPICE与IBIS模型选型决策框架 在高速PCB设计与信号完整性分析领域,模型选型直接决定仿真结果的可靠性。当工程师面对厂商提供的SPICE或IBIS模型时,常陷入"精度与效率不可兼得"的困境。本文将构建一套四维决策框…...

抖音下载器完整指南:如何高效批量下载抖音视频和音乐

抖音下载器完整指南:如何高效批量下载抖音视频和音乐 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback suppor…...

在自动化工作流中集成Taotoken实现多模型聚合调用

在自动化工作流中集成Taotoken实现多模型聚合调用 1. 自动化工作流中的多模型需求 现代AI自动化工作流往往需要处理多样化的任务类型。一个典型的智能体系统可能同时需要文本生成、代码补全、数据分析等不同能力。传统方案通常需要为每种能力单独对接不同厂商的API&#xff0…...

在Node.js后端服务中集成多模型API实现智能问答

在Node.js后端服务中集成多模型API实现智能问答 1. 场景需求与方案选型 现代后端服务常需集成智能问答能力以响应用户查询。不同场景对模型性能与成本的要求各异:简单FAQ匹配可用轻量模型,复杂逻辑推理可能需要更高阶的大模型支持。通过Taotoken平台统…...

DBeaver连接PostgreSQL保姆级避坑指南:从防火墙到用户权限,一次搞定所有报错

DBeaver连接PostgreSQL全链路排障手册:从认证失败到连接超时的终极解决方案 当你第17次点击"测试连接"按钮,DBeaver依然弹出那个令人窒息的红色错误提示时,作为资深DBA的我完全理解那种想把键盘摔向显示器的冲动。这不是一篇教你如…...