当前位置: 首页 > article >正文

Elastic-caveman : 在不损失 Elastic 最佳效果的情况下,将 AI 响应 tokens 减少64%

作者来自 Elastic Sri Kolagani了解如何使用 elastic-caveman在保留 Elastic 代理能力优势的同时减少 AI 响应的 token 消耗。Agent Builder 现已正式发布。通过 Elastic Cloud Trial 开始使用并查看这里的 Agent Builder 文档。当通过 AI 助手查询 Elasticsearch 时你需要的是事实索引名称、字段映射、Elasticsearch 查询语言 ES|QL 查询、案例 ID、情感分数。但现有的大语言模型large language model - LLM 接口会在每个响应外层包裹大量对话性冗余内容Of course! Id be happy to help you... This should give you a good overview... Feel free to let me know if you need anything else!这不仅令人困扰而且成本高昂。每个 token 都会产生费用并增加延迟。对于生产环境中的 Elasticsearch 查询这种开销会快速累积。在本文中我们介绍 elastic-caveman并分享在一个受控实验中的结果在 8 个真实的 Model Context Protocol MCP 场景中对一个 Elasticsearch 集群进行测试。结果显示平均减少 63.6% token、节省 817 个 tokens并且技术准确性完全没有损失。引入 elastic-cavemanelastic-caveman 验证了一个简单假设去除 AI 响应中的 “对话噪音”只保留信号并测量其影响。方法如下普通模式完整的对话式 AI 输出包含问候、解释和结束语。原始 caveman 模式只返回原始数据仅保留最小结构标签。我们使用 MCP在一个真实的 Elasticsearch 实例上进行了测试数据来自实际的 support ticket 和 Salesforce case在 8 个生产场景中对两种模式进行对比。结果64% token 减少准确性为零损失以下是我们在 8 个真实 MCP 工具调用中观察到的结果Elastic-Caveman 项目成功在不影响质量或功能的前提下优化了 AI 响应大小。MetricResultScenarios tested8Success rate88%Token reduction63.6% averageTotal normal tokens1,284Total Caveman tokens467Tokens saved817Max reduction (single scenario)91.5%关键保留项0% 损失技术准确性API 路径ES|QL 语法字段名称关键发现每一个字段名、case ID、ES|QL 查询、账户名称以及情感分数都被完全保留——不是近似保留而是完全一致地保留。真实示例前后对比示例 1列出索引减少 87%用户Show me my indices/显示我的索引普通模式107 tokensOf course! Id be happy to help you see your indices. Heres a comprehensive list of all the indices in your Elasticsearch cluster. Each entry shows the index name along with relevant metadata. This should give you a good overview of whats stored in your cluster:-- salesforce-cases-- support-ticketsThese are all the indices I found. If youd like to dive deeper into any specific index, just let me know and Ill be glad to assist!Caveman mode (14 tokens):Indices: salesforce-cases, support-ticketsSaved: 93 tokens (86.9%)示例 2生成 ES|QL 查询减少 75%User:Show me open critical tickets grouped by product areaNormal mode (208 tokens):Sure thing! Id be happy to help you write that ES|QL query. What youre looking for is a query that will filter for open tickets with critical priority and group them by product area. Heres how you can accomplish this...【普通模式输出】150 tokensCaveman mode (52 tokens):FROM support-tickets WHERE status Open AND priority Critical | STATS count COUNT(*) BY product_area | SORT count DESC | LIMIT 100 Filters opencritical, groups by product_area, counts, sorts desc.Saved: 156 tokens (75.0%). ES|QL syntax is character-for-character identical in both modes.示例 3搜索最近的支持工单减少 35%User:Show me 5 recent support ticketsCaveman mode (143 tokens):5 recent tickets, newest first: Case | Priority | Status | Account | Subject | Days | Sentiment CASE-0012 | Critical | Open | Pinnacle Financial | Regulatory reporting: incorrect tax calcs | 2 | -0.94 CASE-0021 | Critical | Escalated | Riverstone Capital | Security audit blocking renewal | 2 | -0.93 CASE-0046 | Medium | Open | Blackrock Partners | Pen test findings need vendor response | 2 | -0.70 CASE-0006 | High | Open | United Oil Gas | Unauthorized access -- urgent | 3 | -0.91 CASE-0017 | High | Open | Riverstone Capital | Renewal paperwork stalled | 4 | -0.86 All negative sentiment. Two critical cases from April 7. All case IDs, priorities, account names, and sentiment scores preserved verbatim.删除什么 vs 保留什么当我们清理输出时会移除对话性填充内容例如“当然我很乐意帮你……”、“这应该能让你更好地理解……”、“你需要我帮你优先排序这些吗”之类的表达。同时保留所有事实性内容例如 ES|QL 片段如 FROM support-tickets WHERE status Open字段名如 sentiment_score、product_area 和 resolution_hours以及索引名称如 support-tickets 和 salesforce-cases。我们还保留具体标识符和业务实体例如 case ID CASE-0012、CASE-0002 、账户名称 Pinnacle Financial、United Oil Gas Corp 以及所有数值信息例如 sentiment_score -0.94、重复计数 47、持续时间 18 days或指标如 27.0 average hours。这样处理后的文本会高度聚焦在查询语法、实体和数值上只移除礼貌性的 “外壳” 内容。结果按操作类型有所不同查询类型Token 减少原因元数据列表85–92%载荷较小普通模式中的冗余内容最多ESQL 生成70–75%数据密集型搜索35–40%实际数据占比高可删除的“冗余内容”较少完整评估拆解在针对真实 MCP 数据的 8 个场景中不同查询类型的 token 节省情况如下场景普通 tokensCaveman tokens减少比例T节省 tokensMCP 工具T1: List all streams1181091.5%108platform.streams.list_streamsT2: List indices1071486.9%93platform.core.list_indicesT3: Get index mapping1434072.0%103platform.core.get_index_mappingT4: Generate ES|QL query2085275.0%156platform.core.generate_esqlT5: Execute ES|QL aggregation1494470.5%105platform.core.execute_esqlT6: Search recent tickets22114335.3%78platform.core.searchT7: Search escalated cases19812835.4%70platform.core.searchT8: ES|QL stats by priority1403674.3%104platform.core.execute_esqlTOTALS1,28446763.6%817技术准确性验证准确性检查结果详情ES|QL 语法保留PASSFROM, WHERE, STATS, SORT, LIMIT 完全一致字段名称保留PASSaccount_id, sentiment_score, product_area 完全一致索引名称保留PASSsupport-tickets, salesforce-cases 未改变Case ID 保留PASSCASE-0012, CASE-0002 完全一致账户名称保留PASSPinnacle Financial, United Oil Gas Corp 完全一致数值保留PASS情感分数 -0.94、-0.88天数 18、7 完全一致优先级/状态标签PASSCritical、Escalated、Open 完全一致空值保留PASS低优先级 resolution hours 的 null 保留错误信息保留PASS工具校验错误按原文完整保留这对 Elastic 用户的意义对于在 Elasticsearch 上构建 AI 助手的团队来说64% 的 token 减少意味着在规模化场景下 64% 的输出成本节省、更快的流式响应以及更多上下文窗口空间可以留给真实数据而不是冗余填充内容。当你在凌晨 2 点调试 ES|QL 查询时你不需要一个 AI 告诉你“很乐意帮你”你只需要查询结果本身。更大的图景重新思考 AI 接口这个实验揭示了一个本质问题对话式 AI 接口优化的指标可能是错位的。它们优化的是“听起来像人”但用户往往只想要准确、快速的数据。对于技术工作流尤其是数据查询有一个很强的理由去做模式切换对话模式用于探索或学习原始模式caveman mode用于明确知道自己要什么并且需要快速结果时Elastic MCP server 使这一点成为可能它返回结构化、准确的响应在两种模式下都无需修改即可使用。elastic-caveman 如何工作elastic-caveman 是一个 Agent Skill本质上是一个带 YAML front matter 的 markdown 文件任何兼容的 AI agent 都可以读取并遵循它。没有运行时、没有二进制文件、没有 API 调用。只有改变 agent 与 Elasticsearch 交互方式的指令。安装方式如下npx skills add srikolag/elastic-caveman支持的 agentsClaude Code、Cursor、Codex、Windsurf、GitHub Copilot、Gemini CLI、Roo触发方式/elastic-caveman禁用方式normal mode 或 verbose实际运行效果我们使用 Claude 模型测试 elastic-caveman以衡量其对 token 使用量和成本的影响使用 elastic-caveman输入 368 tokens输出 1.6k tokens总成本 $0.11。未使用 elastic-caveman输入 367 tokens输出 1.8k tokens总成本 $0.12。Prompt: Get me the critical support tickets from the support-tickets index in kibana for Pinnacle Financial该测试展示了 elastic-caveman 的效率提升。https://www.bilibili.com/video/BV1JD9bBJEhh/接下来是什么caveman mode 只是一个开始。可以考虑动态模式切换在一次会话中随时在精简模式和对话模式之间切换。或者采用混合方式成功时保持简洁在错误发生时切换为解释型输出。也可以为团队定义自定义 verbosity 等级在两者之间找到平衡点。目标不是让 AI 助手变得机械而是让用户能够控制信噪比。自己试试在你的 Elasticsearch 数据上测试 caveman mode启动 Elastic MCP server安装 elastic-caveman在 normal mode 和 caveman mode 下分别运行查询对比 token 数量与准确性完整评估方法与脚本可在 GitHub 仓库中获取核心结论在 8 个真实 Elasticsearch 场景中elastic-caveman 实现了平均 64% 的 token 减少同时零准确性损失并且 100% 保留 ES|QL 语法、字段名称和技术数值。有时候最好的 AI 回复并不是最 “啰嗦” 的那个。有时候你只需要数据本身而使用 elastic-caveman你可以让它快 64%。准备优化你的 Elasticsearch AI 工作流了吗可以查看 Elasticsearch Labs 获取更多教程、集成与 AI Elasticsearch 研究内容或者直接开始使用 Elasticsearch 构建应用。想优化你的 Elasticsearch AI 工作流查看 Elasticsearch Labs 获取更多教程、集成与研究内容。准备亲自试试现在就开始用 Elasticsearch 构建吧。原文https://www.elastic.co/search-labs/blog/elastic-caveman-ai-token-reduction

相关文章:

Elastic-caveman : 在不损失 Elastic 最佳效果的情况下,将 AI 响应 tokens 减少64%

作者:来自 Elastic Sri Kolagani 了解如何使用 elastic-caveman,在保留 Elastic 代理能力优势的同时减少 AI 响应的 token 消耗。 Agent Builder 现已正式发布。通过 Elastic Cloud Trial 开始使用,并查看这里的 Agent Builder 文档。 当通过…...

Navicat无限试用完整解决方案:三步彻底解决macOS版14天限制

Navicat无限试用完整解决方案:三步彻底解决macOS版14天限制 【免费下载链接】navicat_reset_mac navicat mac版无限重置试用期脚本 Navicat Mac Version Unlimited Trial Reset Script 项目地址: https://gitcode.com/gh_mirrors/na/navicat_reset_mac 还在为…...

Windows热键冲突终极指南:3分钟精准定位占用程序的免费工具

Windows热键冲突终极指南:3分钟精准定位占用程序的免费工具 【免费下载链接】hotkey-detective A small program for investigating stolen key combinations under Windows 7 and later. 项目地址: https://gitcode.com/gh_mirrors/ho/hotkey-detective 你是…...

终极指南:如何免费解锁WeMod高级功能?Wand-Enhancer为你提供完整解决方案

终极指南:如何免费解锁WeMod高级功能?Wand-Enhancer为你提供完整解决方案 【免费下载链接】Wand-Enhancer Advanced UX and interoperability extension for Wand (WeMod) app 项目地址: https://gitcode.com/gh_mirrors/we/Wand-Enhancer 你是否…...

5分钟掌握:终极免费图像转字节数组工具让OLED开发如此简单

5分钟掌握:终极免费图像转字节数组工具让OLED开发如此简单 【免费下载链接】image2cpp 项目地址: https://gitcode.com/gh_mirrors/im/image2cpp image2cpp图像转换工具是一个专为嵌入式开发者设计的强大在线工具,能够将普通图像快速转换为适用于…...

不只是MC和L4D2:用Python RCON库,我还能管理这些Steam游戏服务器

用Python RCON库解锁多款Steam游戏服务器的管理潜能 当你在《Rust》中需要紧急重启服务器,或想在《7 Days to Die》里实时调整僵尸数量时,是否厌倦了反复登录服务器控制面板?Python的RCON库能让你用代码直接与游戏服务器对话。这不仅仅是《我…...

ParroT框架实战:用指令与反馈数据驯化开源大模型,打造可控翻译助手

1. 项目概述:用“提示”与“反馈”驯化大语言模型,打造专属翻译助手 在机器翻译领域,我们正处在一个激动人心的十字路口。以ChatGPT、GPT-4为代表的大语言模型(LLMs)展现出了令人惊叹的对话和翻译能力,但它…...

DRIFT技术:动态微调提升多模态大模型推理性能

1. 项目概述 DRIFT(Dynamic Refinement through Injected Fine-Tuning)是一种针对多模态大模型的轻量级优化技术,通过在推理阶段动态注入梯度信号,显著提升模型在复杂任务中的表现。这项技术特别适合处理需要跨模态对齐的视觉-语言…...

阿里推AI生成视频模型Happy Horse,算力消耗与商业价值不匹配,打法或需调整

01 跑分第一名月月有,不必过于上心欲拒还迎的阿里把AI生成视频模型Happy Horse正式推上了台面。Happy Horse 1.0开启灰度测试,专业创作者和企业客户走阿里云百炼,大众用户在千问首页就能用上新加的胶囊入口。刊例价720P每秒0.9元、1080P每秒1…...

3分钟极速安装:Windows下iPhone USB网络共享驱动一键解决方案

3分钟极速安装:Windows下iPhone USB网络共享驱动一键解决方案 【免费下载链接】Apple-Mobile-Drivers-Installer Powershell script to easily install Apple USB and Mobile Device Ethernet (USB Tethering) drivers on Windows! 项目地址: https://gitcode.com…...

如何彻底解决Dell G15散热问题:tcc-g15开源控制中心完整指南

如何彻底解决Dell G15散热问题:tcc-g15开源控制中心完整指南 【免费下载链接】tcc-g15 Thermal Control Center for Dell G15 - open source alternative to AWCC 项目地址: https://gitcode.com/gh_mirrors/tc/tcc-g15 想象一下,你正在用Dell G1…...

专业窗口调整工具:重新掌控你的Windows桌面布局

专业窗口调整工具:重新掌控你的Windows桌面布局 【免费下载链接】WindowResizer 一个可以强制调整应用程序窗口大小的工具 项目地址: https://gitcode.com/gh_mirrors/wi/WindowResizer WindowResizer是一款基于C和MFC开发的免费开源工具,专门用于…...

解放STM32的串口潜力:Arduino环境下玩转多串口通信(Serial1/2/3实例化与数据收发实战)

解放STM32的串口潜力:Arduino环境下玩转多串口通信 当你第一次接触STM32时,可能会被它丰富的硬件资源所震撼——尤其是那些看似普通却功能强大的串口。不同于常见的Arduino Uno只有一个硬件串口,STM32系列单片机通常配备2-10个不等的硬件串口…...

3大核心优化,让你的魔兽争霸III在现代电脑上重获新生

3大核心优化,让你的魔兽争霸III在现代电脑上重获新生 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 还在为魔兽争霸III在现代电脑上的兼容…...

别再傻等画面了!海康/大华摄像头RTSP延迟高?试试这3个立竿见影的配置优化

海康/大华摄像头RTSP延迟优化实战指南 监控画面延迟3秒,关键事件发生时你还在看历史影像?这个问题困扰着无数安防工程师。上周某大型商超的防损案例就很典型——当值班人员通过监控发现货架商品被盗时,嫌疑人早已离开现场,3秒的延…...

精密低电流与高阻测量技术解析与应用

1. 精密低电流测量技术解析 在半导体材料特性分析、纳米器件测试以及光电探测器评估等前沿领域,皮安级甚至飞安级电流的精确测量已成为关键技术瓶颈。这类测量面临的核心挑战在于:待测信号极其微弱,而环境干扰和系统噪声往往比有用信号高出数…...

Swoole长连接承载LLM请求的5层熔断设计:连接层、协议层、推理层、缓存层、降级层——2024金融级容灾白皮书首次公开

更多请点击: https://intelliparadigm.com 第一章:Swoole长连接承载LLM请求的5层熔断设计全景概览 在高并发LLM服务场景中,Swoole协程长连接作为请求入口,需应对模型推理延迟突增、GPU显存溢出、网络抖动、客户端异常重连及上游限…...

遥感新手别踩坑:哥白尼Dataspace下载Sentinel-1数据时,关于‘单文件下载’和‘离线申请’的几点真相

遥感数据获取实战:避开Copernicus Dataspace的五个典型操作陷阱 当你第一次登录Copernicus Dataspace平台,面对琳琅满目的功能按钮时,是否感到无从下手?作为欧洲航天局最新的遥感数据门户,这个平台确实藏着不少新手容易…...

OpenClaw从入门到应用——Agent:订阅认证(OAuth)

通过OpenClaw实现副业收入:《OpenClaw赚钱实录:从“养龙虾“到可持续变现的实践指南》 OpenClaw 通过 OAuth 支持"订阅认证",适用于提供此功能的提供商(特别是 OpenAI Codex (ChatGPT OAuth))。对于 Anthro…...

STM32H743飞控DIY:手把手教你搞定BMI088的SPI引脚配置与PX4驱动移植(避坑指南)

STM32H743飞控DIY:手把手教你搞定BMI088的SPI引脚配置与PX4驱动移植(避坑指南) 在DIY飞控板的开发过程中,传感器接口的正确配置往往是决定项目成败的关键环节。特别是当使用STM32H743这类高性能MCU搭配BMI088这样的高精度IMU时&a…...

QT6升级后,用qmake管理QML资源文件踩坑记:从.pro文件到.qrc的转变

QT6升级后qmake资源管理实战:从.qrc陷阱到高效配置指南 当我把一个运行多年的QT5 QML项目升级到QT6时,本以为只是简单的版本号变更,直到新建的QML页面反复报错"QQmlApplicationEngine failed to load component"——这个看似简单的…...

SSV6155/6255 WiFi模块调试日记:手把手解决‘驱动装了但搜不到网’的问题

SSV6x5x WiFi模块深度排障指南:从硬件信号到软件配置的完整解决方案 当你在Linux环境下成功加载了SSV6155/6255 WiFi模块驱动,dmesg显示一切正常,但执行ifconfig wlan0 up后却搜不到任何网络——这种看似简单的问题背后往往隐藏着硬件、驱动、…...

如何在Windows上免装iTunes快速安装苹果设备驱动:3分钟搞定iPhone连接问题

如何在Windows上免装iTunes快速安装苹果设备驱动:3分钟搞定iPhone连接问题 【免费下载链接】Apple-Mobile-Drivers-Installer Powershell script to easily install Apple USB and Mobile Device Ethernet (USB Tethering) drivers on Windows! 项目地址: https:/…...

Verilog有符号数比较的坑,我踩了!用Verdi波形带你复盘(附完整代码)

Verilog有符号数比较的坑,我踩了!用Verdi波形带你复盘(附完整代码) 数字电路设计中,有符号数的处理一直是工程师们容易踩坑的重灾区。最近我在一个FPGA项目中就遇到了这样的问题:仿真结果与预期完全不符&am…...

3步掌握全平台智能资源下载器:轻松捕获视频号、抖音、小红书等多媒体资源

3步掌握全平台智能资源下载器:轻松捕获视频号、抖音、小红书等多媒体资源 【免费下载链接】res-downloader 视频号、小程序、抖音、快手、小红书、直播流、m3u8、酷狗、QQ音乐等常见网络资源下载! 项目地址: https://gitcode.com/GitHub_Trending/re/res-download…...

移动设备AI控制代理:强化学习实现跨应用自动化

1. 项目背景与核心目标 DigiData项目旨在构建一个能够通用化处理移动设备控制任务的AI代理系统。这个系统不同于传统的单一功能自动化工具,它需要具备跨应用、跨场景的自主决策能力,能够像人类用户一样灵活操作各类移动终端设备。 在移动互联网高度普及…...

AUTOSAR多核ECU启动与关闭:主从核EcuM如何协同工作(含代码示例)

AUTOSAR多核ECU启动与关闭:主从核EcuM协同设计与实战解析 当现代汽车电子架构从分布式向域集中式演进时,多核处理器已成为满足功能安全与实时性需求的标配方案。AURIX TC3xx系列和S32G等异构多核MCU的广泛应用,使得AUTOSAR标准中的ECU状态管理…...

AI 系统可观测性落地:从请求链路到管理后台的指标决策实践

凌晨 2:17,一个用户反馈工单被自动打上了「AI 回复超时」标签。这条请求来自客服助手的对话接口,用户连续追问了三个问题,前两个秒回,第三个等了 12 秒才返回「抱歉,当前服务繁忙,请稍后再试」。日志显示模…...

SAP MIGO过账时,这3个BAdI和User Exit千万别乱用(附MB_DOCUMENT_BADI避坑指南)

SAP MIGO过账增强开发:BAdI与User Exit实战避坑手册 物料凭证过账是SAP系统中高频且关键的业务操作,而MIGO事务码作为核心入口,其增强点的选择直接关系到系统稳定性和数据一致性。本文将深入剖析三个最易引发生产事故的增强点——MB_MIGO_BAD…...

Proton Pass Skill:将密码管理器无缝集成到自动化工作流的安全实践

1. 项目概述:一个密码管理器的技能化探索最近在折腾个人自动化流程时,发现一个挺有意思的开源项目:sheyaln/proton-pass-skill。乍一看标题,你可能和我最初的反应一样,有点摸不着头脑。Proton Pass我知道,是…...