当前位置: 首页 > article >正文

Agent 性能优化:降低 Token 消耗的 5 个技巧

Agent 性能优化降低 Token 消耗的 5 个技巧系列文章《AI Agent 开发实战》第 7 期难度等级⭐⭐⭐⭐预计耗时35 分钟 本文目标学会优化 AI Agent 性能✅ 减少 Token 消耗✅ 提高响应速度✅ 降低 API 成本✅ 提升用户体验 成本分析Token 消耗构成总 Token 输入 Token 输出 Token 输入 Token - 系统提示词100-500 - 对话历史可变 - 工具描述100-1000 - 用户输入可变 输出 Token - Agent 回复100-1000成本计算假设GPT-4: $0.03/1K tokens (输入)GPT-4: $0.06/1K tokens (输出)日均调用1000 次平均消耗2000 tokens/次月度成本日消耗1000 * 2000 2,000,000 tokens 月消耗2M * 30 60M tokens 月成本60M * $0.03/1000 ≈ $1,800优化后减少 50%月成本$900 节省$900/月 优化技巧技巧 1精简提示词❌ 低效instruction 你是一个智能助手你的任务是帮助用户解决问题。 你应该友好、专业、准确地回答用户的问题。 如果遇到问题要诚实地告诉用户你不知道。 不要编造信息不要提供错误的建议。 你的回答应该简洁明了不要啰嗦。 ...500 字 ✅ 高效instruction你是助手友好专业准确回答不知则说不知效果提示词500 tokens → 20 tokens节省96%效果相当技巧 2智能裁剪对话历史❌ 低效# 保留所有历史full_historyget_all_messages()✅ 高效# 只保留最近 N 轮recent_historyget_recent_messages(max_turns10)# 或者使用摘要iflen(history)threshold:summarysummarize_old_messages()contextsummaryrecent_messages效果历史2000 tokens → 500 tokens节省75%技巧 3优化工具描述❌ 低效tool_description 这个工具可以用来搜索网络信息。 当你需要查询最新的数据、新闻、或者其他实时信息时 应该使用这个工具。使用方法是传入一个搜索关键词 工具会返回相关的搜索结果。搜索结果包括标题、链接和摘要。 ...300 字 ✅ 高效tool_description搜索网络query关键词返回搜索结果效果描述300 tokens → 15 tokens节省95%技巧 4流式输出❌ 低效# 等待完整回复responseagent.run(prompt)print(response)✅ 高效# 流式输出forchunkinagent.run_stream(prompt):print(chunk,end)# 用户可以提前看到内容效果用户体验提升可减少不必要的生成技巧 5缓存结果❌ 低效# 每次都调用 APIdefanswer(question):returnagent.run(question)✅ 高效fromfunctoolsimportlru_cachelru_cache(maxsize1000)defanswer(question):returnagent.run(question)效果重复问题0 tokens缓存命中率30-50% 实战优化案例 1客服机器人优化前classCustomerServiceBot:def__init__(self):self.instruction 你是一个专业的客服助手...1000 字 self.memoryMemory(max_turns50)defchat(self,user_input):returnself.agent.run(f{self.instruction}\n用户{user_input})Token 消耗1500/次优化后classCustomerServiceBot:def__init__(self):self.instruction客服助手专业解答产品问题self.memoryMemory(max_turns10)self.cache{}defchat(self,user_input):# 缓存ifuser_inputinself.cache:returnself.cache[user_input]# 精简上下文contextf{self.instruction}\n{self.get_recent()}responseself.agent.run(f{context}\n用户{user_input})# 缓存结果self.cache[user_input]responsereturnresponseToken 消耗500/次节省67%案例 2数据分析助手优化前defanalyze_data(data):promptf 请分析以下数据{data}分析要求 1. 计算基本统计指标 2. 找出异常值 3. 识别趋势 4. 提供建议 ...详细要求 returnagent.run(prompt)Token 消耗3000/次优化后defanalyze_data(data):# 数据摘要summary{count:len(data),mean:sum(data)/len(data),min:min(data),max:max(data)}promptf分析数据{summary}找异常和趋势returnagent.run(prompt)Token 消耗800/次节省73% 高级优化1. 模型选择策略classSmartModelSelector:def__init__(self):self.simple_modelgpt-3.5-turbo# 便宜self.complex_modelgpt-4# 强大defselect_model(self,task:str):# 简单任务用小模型ifself.is_simple(task):returnself.simple_modelelse:returnself.complex_modeldefis_simple(self,task:str)-bool:simple_keywords[问候,感谢,简单计算]returnany(kintaskforkinsimple_keywords)效果简单任务成本$0.002 → $0.0005节省75%2. 批量处理# ❌ 逐个处理forquestioninquestions:answeragent.run(question)# ✅ 批量处理batch_prompt\n.join([fQ{i}:{q}fori,qinenumerate(questions)])batch_responseagent.run(f回答以下问题{batch_prompt})answersparse_batch_response(batch_response)效果API 调用100 次 → 1 次节省90%3. 提前终止defrun_with_early_stop(prompt,max_tokens1000):responseforchunkinagent.run_stream(prompt):responsechunk# 提前终止条件if总结inresponseandlen(response)500:breakiflen(response)max_tokens:breakreturnresponse 优化效果对比优化技巧优化前优化后节省精简提示词500 tokens20 tokens96%裁剪历史2000 tokens500 tokens75%优化工具300 tokens15 tokens95%缓存结果100% 调用50% 调用50%模型选择$0.03/次$0.005/次83%综合优化3000 tokens600 tokens80% 成本节省计算优化前日均调用1000 次 平均 Token3000/次 日消耗3,000,000 tokens 月消耗90,000,000 tokens 月成本$2,700优化后日均调用1000 次 平均 Token600/次 日消耗600,000 tokens 月消耗18,000,000 tokens 月成本$540节省月节省$2,160 年节省$25,920 系列总结AI Agent 系列7 篇完成期数主题字数状态第 1 期30 分钟搭建第一个 Agent4,471 字✅第 2 期记忆系统实现8,227 字✅第 3 期工具调用能力9,008 字✅第 4 期多 Agent 协作8,592 字✅第 5 期LangChain vs Google ADK5,042 字✅第 6 期Agent 自动写代码待发布第 7 期性能优化6,000 字✅总计约 41,000 字AI Agent 系列完结感谢支持觉得有用点赞 收藏 ⭐ 关注 ➕ 三连支持一下

相关文章:

Agent 性能优化:降低 Token 消耗的 5 个技巧

Agent 性能优化:降低 Token 消耗的 5 个技巧系列文章: 《AI Agent 开发实战》第 7 期 难度等级: ⭐⭐⭐⭐ 预计耗时: 35 分钟🎯 本文目标 学会优化 AI Agent 性能: ✅ 减少 Token 消耗✅ 提高响应速度✅ 降…...

WebGL BIM可视化:浏览器端BIM解决方案的技术实践与行业应用

WebGL BIM可视化:浏览器端BIM解决方案的技术实践与行业应用 【免费下载链接】xeokit-bim-viewer A browser-based BIM viewer, built on the xeokit SDK 项目地址: https://gitcode.com/gh_mirrors/xe/xeokit-bim-viewer 如何解决浏览器端BIM模型加载慢、操…...

Llama-3.2-3B效果体验:Ollama简单操作,产出专业级文案

Llama-3.2-3B效果体验:Ollama简单操作,产出专业级文案 1. 模型概览:小而精的文本生成专家 Llama-3.2-3B是Meta最新推出的轻量级语言模型,在3B参数规模下实现了接近大模型的文本生成质量。经过指令微调优化后,它在多语…...

打破数据标注瓶颈:Label Studio如何让AI训练效率提升300%?

打破数据标注瓶颈:Label Studio如何让AI训练效率提升300%? 【免费下载链接】label-studio Label Studio is a multi-type data labeling and annotation tool with standardized output format 项目地址: https://gitcode.com/GitHub_Trending/la/labe…...

水库调度员必看:动态规划在月度发电计划中的5个避坑指南

水库调度员实战指南:动态规划在月度发电计划中的5个关键避坑策略 在水利工程领域,水库调度是一项集科学性、技术性和艺术性于一体的复杂工作。作为水库调度员,我们每天都在与时间、水量和电力需求进行着精妙的博弈。而动态规划作为一种强大的…...

YOLOv8目标检测新玩法:用VMamba替换C2f模块,我在DDSM医疗数据集上mAP涨到了0.724

YOLOv8与VMamba融合:医疗影像目标检测的突破实践 在医疗影像分析领域,目标检测技术正经历着从传统卷积神经网络到新型架构的转变。最近,我们将YOLOv8模型中的C2f模块替换为VMamba模块,在DDSM乳腺X光数据集上取得了mAP 0.724的显著…...

用LDA模型挖掘微信聊天秘密:Gensim实战教程(含pyLDAvis可视化)

用LDA模型挖掘微信聊天秘密:Gensim实战教程(含pyLDAvis可视化) 微信聊天记录中隐藏着大量有价值的信息,从日常对话到重要决策,这些文本数据就像一座未被充分挖掘的金矿。本文将带你用Python中的Gensim库构建LDA主题模型…...

LVGL 7.11.0 Chart控件实战:5分钟搞定动态心率折线图(附完整代码)

LVGL 7.11.0 Chart控件实战:5分钟搞定动态心率折线图(附完整代码) 在嵌入式设备上实现流畅的数据可视化一直是开发者的痛点。LVGL作为轻量级图形库,其Chart控件能完美解决这一问题。本文将手把手教你用LVGL 7.11.0的Chart控件&am…...

视觉语言模型VLM高效部署:基于TensorRT-LLM的C++推理实践

1. 视觉语言模型VLM与TensorRT-LLM的黄金组合 视觉语言模型(VLM)这两年真是火得不行,它能让AI同时理解图片和文字,像人类一样看图说话。但实际部署时,很多团队都会遇到性能瓶颈——特别是用Python直接推理时&#xff0…...

别再让电费偷偷溜走!用智能时间开关改造家里的热水器和空调(附保姆级选购指南)

别再让电费偷偷溜走!用智能时间开关改造家里的热水器和空调(附保姆级选购指南) 每到月底收到电费账单时,那种"钱不知不觉就溜走"的感觉总是让人心疼。特别是热水器和空调这两大"电老虎",它们往往…...

三步掌握Dark Reader:从入门到精通的护眼浏览解决方案

三步掌握Dark Reader:从入门到精通的护眼浏览解决方案 【免费下载链接】darkreader Dark Reader Chrome and Firefox extension 项目地址: https://gitcode.com/gh_mirrors/da/darkreader Dark Reader是一款能够为任何网站启用深色模式的浏览器扩展&#xff…...

Phi-4-Reasoning-Vision基础教程:双卡4090环境安装、镜像拉取与端口映射

Phi-4-Reasoning-Vision基础教程:双卡4090环境安装、镜像拉取与端口映射 1. 环境准备与快速部署 在开始之前,请确保您的系统满足以下要求: 硬件配置:至少两张NVIDIA RTX 4090显卡(24GB显存)软件环境&…...

项目分享|VibeVoice:微软开源的前沿语音AI

引言 在语音合成(TTS)技术领域,长篇幅、多说话者、低延迟的自然语音生成一直是行业痛点。传统TTS模型往往受限于生成时长、说话者数量或实时响应速度,难以满足播客制作、智能对话等复杂场景需求。微软开源的VibeVoice框架彻底打破…...

煤矿电液阀系统摄像仪护套连接器 DLJ01(1000)参数

在煤矿综采工作面液压支架电液控制系统中,摄像仪护套连接器 DLJ01(1000)作为矿用本安型摄像仪与电源、信号传输线缆之间的专用接口,承担着视频信号与供电的稳定传输任务。其型号中的“1000”代表线缆长度为1000mm(1米)&#xff0c…...

日志分散难管理?用Visual Syslog Server实现企业级日志集中监控的5个实战方案

日志分散难管理?用Visual Syslog Server实现企业级日志集中监控的5个实战方案 【免费下载链接】visualsyslog Syslog Server for Windows with a graphical user interface 项目地址: https://gitcode.com/gh_mirrors/vi/visualsyslog 痛点诊断:日…...

正点原子IMX6ULL史诗级新内核Linux7.0移植教程(5)梭哈配置主线设备树

正点原子IMX6ULL史诗级新内核Linux7.0移植教程(5)梭哈配置主线设备树 仓库已经开源,可以研究补丁和直接看完整教程:https://github.com/Awesome-Embedded-Learning-Studio/imx-forge 有任何意见欢迎提出 PR!会第一时间…...

别再让PowerBI报告挤成一团了!用按钮+书签,一个页面搞定趋势和明细分析

PowerBI交互设计进阶:用按钮与书签打造空间魔术 当业务分析报告遇上数据爆炸时代,信息过载与界面拥挤成为每个分析师挥之不去的噩梦。我曾见过某零售企业的季度分析仪表板——12个图表密密麻麻挤在A4纸大小的画布上,趋势线相互缠绕&#xff…...

用Python+Control库实现倒立摆LQR控制:从建模到仿真全流程

用PythonControl库实现倒立摆LQR控制:从建模到仿真全流程 倒立摆问题一直是控制理论中的经典案例,它不仅能帮助我们理解线性二次调节器(LQR)的核心思想,还能锻炼我们解决实际工程问题的能力。本文将带你从零开始&#…...

Matlab散点图进阶:如何用颜色、大小和形状搞定六维数据可视化(附完整代码)

Matlab散点图进阶:如何用颜色、大小和形状搞定六维数据可视化(附完整代码) 在数据分析领域,我们常常需要处理包含多个维度的复杂数据集。传统的二维或三维图表已经无法满足这类数据的可视化需求。本文将深入探讨如何利用Matlab的s…...

RT-DETR实战入门:从环境搭建到YOLO数据集转换COCO格式

1. RT-DETR环境搭建:避坑指南 刚接触RT-DETR时,环境配置是最容易翻车的第一关。我最初尝试时,因为没注意torch版本兼容性问题,浪费了整整两天时间。这里分享几个关键细节: 首先是PyTorch版本选择。官方推荐使用torch 2…...

实战指南:在Kali Linux上构建HexStrike AI与Trae MCP的智能安全联动平台

1. 环境准备与基础配置 在Kali Linux上构建HexStrike AI与Trae MCP的智能安全联动平台,首先需要确保基础环境配置正确。我建议使用物理机直接安装Kali Linux,相比虚拟机方案能获得更好的性能表现,特别是在处理大规模安全扫描任务时。如果确实…...

uni-app小程序开发必备:纯TypeScript实现4种UUID生成方案(无npm依赖)

uni-app小程序开发实战:零依赖TypeScript实现4种UUID生成方案 在uni-app跨平台开发中,小程序环境对npm库的支持限制常常让开发者头疼。特别是在需要生成唯一标识符的场景下,传统依赖uuid库的方案往往无法直接使用。本文将带你从底层原理出发&…...

Pixel Fashion Atelier惊艳案例:‘赛博神社’主题皮装在明亮城镇UI下的生成

Pixel Fashion Atelier惊艳案例:‘赛博神社’主题皮装在明亮城镇UI下的生成 1. 项目概览 Pixel Fashion Atelier(像素时装锻造坊)是一款基于Stable Diffusion与Anything-v5的图像生成工作站。与传统AI工具不同,它采用了复古日系…...

Matlab实战:5步搞定微电网源储荷协调调度(附完整CPLEX调用代码)

Matlab实战:微电网源储荷协调调度的5个工程化技巧 微电网调度是新能源时代的核心技术难题之一。面对风光发电的波动性和负荷需求的多变性,如何实现源、储、荷三者的动态平衡,成为电力工程师们每天都要应对的挑战。不同于学术论文中复杂的理论…...

零基础入门:用eNSP搭建USG5500防火墙IPsec虚拟专用网实验环境

从零构建企业级安全隧道:eNSP模拟USG5500防火墙IPsec实战指南 当你第一次听说"IPsec"这个词时,可能会联想到那些科技电影中黑客们建立的加密通道。实际上,IPsec技术离我们并不遥远——它正默默保护着每天数以亿计的企业数据传输。本…...

从AlexNet到ResNet:图解十大经典CV网络模型,帮你快速选对项目‘骨架’

从AlexNet到ResNet:十大经典CV网络模型实战选型指南 当你第一次面对ImageNet数据集时,可能会被各种网络架构的选择弄得眼花缭乱。VGG的深度堆叠、GoogLeNet的并行结构、ResNet的短路连接——这些设计理念背后,是计算机视觉领域十年来的智慧结…...

OpCore-Simplify:终极OpenCore EFI配置自动化解决方案

OpCore-Simplify:终极OpenCore EFI配置自动化解决方案 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 还在为复杂的黑苹果配置而烦恼吗&am…...

5步告别Windows卡顿:Win11Debloat系统优化工具让电脑性能提升51%的实战指南

5步告别Windows卡顿:Win11Debloat系统优化工具让电脑性能提升51%的实战指南 【免费下载链接】Win11Debloat 一个简单的PowerShell脚本,用于从Windows中移除预装的无用软件,禁用遥测,从Windows搜索中移除Bing,以及执行各…...

WarcraftHelper:魔兽争霸3终极优化指南 - 解锁现代硬件性能

WarcraftHelper:魔兽争霸3终极优化指南 - 解锁现代硬件性能 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper WarcraftHelper是一款专为魔兽…...

猫抓浏览器插件:网页资源嗅探与下载的终极解决方案

猫抓浏览器插件:网页资源嗅探与下载的终极解决方案 【免费下载链接】cat-catch 猫抓 chrome资源嗅探扩展 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 你是否曾在浏览网页时,看到精彩的视频、音频或图片资源,却苦于无…...