当前位置: 首页 > article >正文

Gemini 3 Pro 给了10Mtoken context,60% 这个数字让我换回了记忆方案

我前阵子做一个法律咨询助手 demo把客户和律师的 30 万字会话历史一次性塞进 Gemini 3 Pro 的 context 窗口。Gemini 3 Pro 的 10M token 窗口听起来像是agent memory 已经被 context 长度解决了——直到我跑了第一组真实问题。客户问我们上次说的那个条款 X 你怎么处理模型给的答案引用了对话中段一条已经被双方否决的版本。准确率比预期低一半。这不是 Gemini 的特例。我后来去翻最近的 long context 评测看到一个反差很大的数字组合Gemini 1.5 Pro 在 needle-in-a-haystack 单针测试上是 99.7%但放到真实多事实召回测试平均只剩 60%。三个数字让我意识到方向错了先把数据摆清楚来自 2026 年初几篇 long context vs RAG 的对比研究召回精度单针测试 99.7%多事实平均 60%延迟1M token 请求的 p95 延迟比 RAG pipeline 慢 30-60 倍成本相同任务下1M context 比 RAG 贵约 1250 倍第一个数字解释了为什么我的 demo 翻车——多事实推理才是真实场景单针测试的数字是销售用的。第二三个数字解释了为什么生产系统不会真的把 10M context 当默认方案——光成本就劝退。这一组数字之后我去看了 NVIDIA 那篇 “Reimagining LLM Memory” 的博客里面有个观点我当时挺惊讶context 应该被当成训练数据用不是当存储用。换句话说context 本身不是记忆的合理形态——它是模型在某次推理时临时打开的工作面需要别的东西来沉淀长期信息。真实选择不是长 context vs RAG2026 年的 enterprise 实践基本都在用 hybrid 架构短期 / 任务级 / 工作记忆 → 长 contextin-context 直接处理中期 / 跨会话 / 用户级 → memory framework结构化沉淀大量静态知识 / 跨领域 → RAG向量库 重排三层各做各的事。问题是中间这层memory framework方案选错了上下两层都跟着翻车。我做的那个法律咨询 demo 后来分了两种模式重做当前会话内的短期信息直接塞 Gemini 的 context200K 左右就足够用户跨会话的偏好、之前商讨过的条款历史、客户性格画像上 memory framework第二层我先试了 Mem0 和 Zep。但很快发现一个 long-context 时代特有的问题当前面的 context 信息越多memory 框架的哪些该写、哪些该忘决策越复杂。Mem0 的选择性 pipeline 在 50 轮以下表现稳定到 200 轮以上开始出现用过期信息回答——FAMA 那个新指标专门测这个。5 层时间分层的位置我后来换到了 TiMemgithub.com/TiMEM-AI/timem。TiMem 的设计跟 Mem0 / Zep 走的不是一条路不依赖向量数据库虽然可以接不维护知识图谱核心是 5 层 Temporal Memory Tree (TMT)fragment → evidence → fact → trait → persona每一层都有显式时间序consolidation 触发时上层用更新的下层覆盖陈旧的下层。把该忘内化进结构本身。放回我的 demo假设客户两周前对条款 X 表达过反对一周前换了立场支持TiMem 第一周末做 consolidation在 fact 层记录客户对 X 的态度反对TiMem 第二周末再做 consolidation新 evidence 升级到 fact 层时直接覆盖现在态度是支持召回时只能看到最新的 fact不需要 conflict detector。不需要给每个 entity 挂 timestamp 然后召回时再过滤。它为什么是 hybrid 的好选择这是我换方案后想清楚的事TiMem 在 hybrid 架构里负责的不是全部记忆是最难做的那部分——长期、需要时间序、需要 forget 的用户级记忆。三层分工对应到 TiMem短期会话级 → 直接喂 LLM context不动 TiMem跨会话用户记忆 → TiMem 5 层 hierarchy 处理静态知识库 → 上你已有的 RAG 系统chroma / qdrant / lancedb 任选TiMem 的 complexity-aware recall 还会根据 query 复杂度自适应召回深度。简单 query 走浅层 fact 召回复杂多跳 query 才下沉到 evidence 层。这个机制在我那个 demo 里直接把平均 latency 砍掉一半。选型小结不打算给一个谁吊打谁的结论。但有几条决策线索是清晰的别把 long context 当 memory 用——除非你的场景就是单次会话内处理否则 10M context 给的不是长记忆是加宽的工作面。RAG 不能替代 user-level memory——RAG 处理静态文档好用但用户偏好、跨会话状态、有时间序的事实更新向量 chunking 这条路不顺。长会话 频繁状态更新场景教育、客服、协作工具TiMem 这类时间分层方案占优因为 forget 是结构性的。多跳关系推理为主知识库问答、企业搜索Mem0g 这类向量图谱方案合适。短到中等会话 简单状态Mem0 基础版够用便宜稳定。那个法律咨询 demo 现在跑稳了。客户问我们上次说的那个条款时模型直接拿到的是最新立场——靠的不是 Gemini 的 10M context而是 TiMem 帮模型在 200K 的 context 里只塞了真正相关的那部分。10M token 这个数字会让人产生长度问题已经解决的错觉。60% 召回率才是真相。

相关文章:

Gemini 3 Pro 给了10Mtoken context,60% 这个数字让我换回了记忆方案

我前阵子做一个法律咨询助手 demo,把客户和律师的 30 万字会话历史一次性塞进 Gemini 3 Pro 的 context 窗口。Gemini 3 Pro 的 10M token 窗口听起来像是"agent memory 已经被 context 长度解决了"——直到我跑了第一组真实问题。 客户问"我们上次…...

OpenClaw怎么搭建?2026年本地10分钟新手超简单教程及百炼Coding Plan方法

OpenClaw怎么搭建?2026年本地10分钟新手超简单教程及百炼Coding Plan方法。OpenClaw作为阿里云生态下新一代的开源AI自动化代理平台,曾用名Moltbot/Clawdbot,凭借“自然语言交互自动化任务执行大模型智能决策”的核心能力,正在重构…...

多模态大模型mPLUG-Owl:从图文对齐到指令微调的实践指南

1. 项目概述:从图文理解到多模态对话的跃迁最近在折腾多模态大模型,一个绕不开的名字就是“X-PLUG/mPLUG-Owl”。这可不是什么猫头鹰插件,而是一个在开源社区里相当有分量的多模态大语言模型家族。简单来说,它让AI不仅能看懂文字&…...

怎么部署OpenClaw?2026年云端9分钟零门槛保姆级指南及百炼Coding Plan流程

怎么部署OpenClaw?2026年云端9分钟零门槛保姆级指南及百炼Coding Plan流程。OpenClaw作为阿里云生态下新一代的开源AI自动化代理平台,曾用名Moltbot/Clawdbot,凭借“自然语言交互自动化任务执行大模型智能决策”的核心能力,正在重…...

Yua Memory System:为AI伙伴构建有情感感知的记忆系统

1. 项目概述:为AI伙伴构建有“心跳”的记忆系统如果你正在开发一个AI伙伴,无论是聊天机器人、数字助手还是更复杂的虚拟角色,你肯定遇到过这个核心难题:如何让它记住你?不是那种机械地调取数据库的“记住”&#xff0c…...

5大实战技巧:用GRETNA脑网络分析工具包解决神经影像研究难题

5大实战技巧:用GRETNA脑网络分析工具包解决神经影像研究难题 【免费下载链接】GRETNA A Graph-theoretical Network Analysis Toolkit in MATLAB 项目地址: https://gitcode.com/gh_mirrors/gr/GRETNA GRETNA(Graph-theoretical Network Analysis…...

OllamaTalk:打造本地化语音AI助手,实现全离线语音对话

1. 项目概述:让大模型开口说话最近在折腾本地大语言模型(LLM)的朋友,估计都绕不开Ollama这个神器。它把各种开源模型封装得明明白白,一条命令就能跑起来,确实方便。但不知道你有没有和我一样的“痛点”&…...

UCIe协议层实战解析:PCIe 6.0与CXL 3.0的Flit模式到底怎么选?

UCIe协议层实战解析:PCIe 6.0与CXL 3.0的Flit模式到底怎么选? 在异构计算和Chiplet设计成为主流的今天,UCIe协议作为芯片间互连的新标准,其协议层模式选择直接影响着系统性能、功耗和面积效率。面对PCIe 6.0与CXL 3.0提供的多种Fl…...

告别布线噩梦!用Valens VS3000芯片,一根网线搞定4K视频、音频、网络和USB

单线缆革命:VS3000芯片如何重塑专业影音系统部署逻辑 会议室里纠缠如麻的线缆、设备柜背后理不清的接口、每次设备升级都要重新穿管的施工成本——这些困扰系统集成商多年的顽疾,正在被一颗邮票大小的芯片彻底改变。Valens VS3000系列芯片组带来的不只是…...

如何为Royal TSX打造完美中文体验?完整汉化包使用指南

如何为Royal TSX打造完美中文体验?完整汉化包使用指南 【免费下载链接】Royal_TSX_Chinese_Language_Pack Royal_TSX的简体中文汉化包 项目地址: https://gitcode.com/gh_mirrors/ro/Royal_TSX_Chinese_Language_Pack Royal_TSX_Chinese_Language_Pack是一个…...

5分钟构建离线语音识别系统:Whisper.cpp完整指南

5分钟构建离线语音识别系统:Whisper.cpp完整指南 【免费下载链接】whisper.cpp Port of OpenAIs Whisper model in C/C 项目地址: https://gitcode.com/GitHub_Trending/wh/whisper.cpp 在AI技术快速发展的今天,语音识别已成为人机交互的重要桥梁…...

Redis分布式锁进阶第十九篇:Redisson底层源码级踩坑复盘 + 异步线程丢锁 + 守护线程隐形断点彻底根治

Redis分布式锁进阶第十九篇:Redisson底层源码级踩坑复盘 异步线程丢锁 守护线程隐形断点彻底根治一、本篇前置衔接前面十八篇,我们把锁代码、架构、分片、限流、超时、运维全部搞定。但还有一类坑:业务代码写得没问题、配置全规范&#xff…...

深度解析:如何从GoPro视频中精准提取GPS轨迹数据?

深度解析:如何从GoPro视频中精准提取GPS轨迹数据? 【免费下载链接】gopro2gpx Parse the gpmd stream for GOPRO moov track (MP4) and extract the GPS info into a GPX (and kml) file. 项目地址: https://gitcode.com/gh_mirrors/go/gopro2gpx …...

ChanlunX缠论插件:如何在通达信中5分钟实现专业K线结构可视化分析

ChanlunX缠论插件:如何在通达信中5分钟实现专业K线结构可视化分析 【免费下载链接】ChanlunX 缠中说禅炒股缠论可视化插件 项目地址: https://gitcode.com/gh_mirrors/ch/ChanlunX ChanlunX是一款专为通达信软件设计的缠论分析插件,它将复杂的缠中…...

初创公司如何借助 Taotoken 以更低成本验证多个大模型能力

初创公司如何借助 Taotoken 以更低成本验证多个大模型能力 对于资源有限的初创团队而言,在产品原型开发阶段,选择合适的大模型是一项关键且充满挑战的决策。直接接入多个厂商的原生 API 意味着需要分别注册账号、管理多个密钥、面对不同的计费方式和接口…...

BatteryChargeLimit:终极Android电池保护指南,让你的手机电池寿命翻倍

BatteryChargeLimit:终极Android电池保护指南,让你的手机电池寿命翻倍 【免费下载链接】BatteryChargeLimit 项目地址: https://gitcode.com/gh_mirrors/ba/BatteryChargeLimit 你是否注意到手机使用一年后,电池续航明显变短&#xf…...

为 OpenClaw 智能体工具配置 Taotoken 作为其大模型服务后端

为 OpenClaw 智能体工具配置 Taotoken 作为其大模型服务后端 OpenClaw 是一款功能强大的智能体工具,能够调用大模型来处理复杂的任务。要让 OpenClaw 使用 Taotoken 平台聚合的丰富模型能力,你需要正确配置其连接信息。本文将指导你通过两种方式完成配置…...

从游戏玩家到模组大师:BepInEx插件框架的奇幻之旅

从游戏玩家到模组大师:BepInEx插件框架的奇幻之旅 【免费下载链接】BepInEx Unity / XNA game patcher and plugin framework 项目地址: https://gitcode.com/GitHub_Trending/be/BepInEx 想象一下,你刚刚发现了一款超棒的游戏,但总觉…...

如何快速掌握IDR:Delphi反编译的终极完整指南

如何快速掌握IDR:Delphi反编译的终极完整指南 【免费下载链接】IDR Interactive Delphi Reconstructor 项目地址: https://gitcode.com/gh_mirrors/id/IDR IDR(Interactive Delphi Reconstructor)是一款专门用于反编译Delphi程序的专业…...

机器学习可视化实战:100+专业图形资源一键获取指南

机器学习可视化实战:100专业图形资源一键获取指南 【免费下载链接】ml-visuals 🎨 ML Visuals contains figures and templates which you can reuse and customize to improve your scientific writing. 项目地址: https://gitcode.com/gh_mirrors/ml…...

基于Claude API的智能代码项目管理工具:claude-code-pm深度解析

1. 项目概述与核心价值最近在GitHub上看到一个名为falungongcleanness498/claude-code-pm的项目,这个标题乍一看有点神秘,但结合其描述和代码结构,我意识到这是一个围绕Claude API构建的、用于代码项目管理与分析的智能工具。作为一名长期与各…...

从零部署Telegram AI聊天机器人:集成OpenAI API实战指南

1. 项目概述:打造一个属于你的AI聊天机器人 最近在折腾一个挺有意思的小项目,把OpenAI的ChatGPT能力集成到Telegram里,做了一个可以随时聊天的AI机器人。这玩意儿本质上就是一个桥梁,把Telegram的消息转发给OpenAI的API&#xff…...

Claude技能库构建指南:从提示词工程到社区化应用

1. 项目概述:一个技能库的诞生与价值最近在折腾一些AI应用,特别是围绕Claude这个模型,发现了一个挺有意思的现象:很多开发者都在尝试将Claude的能力“模块化”、“技能化”。这让我想起了早期软件开发的函数库,或者更近…...

多模态模型评估新基准:Rebus Puzzles测试集构建与应用

1. 项目背景与核心价值最近在整理多模态模型评估方法时,发现现有基准测试大多集中在常规的图文匹配任务上,很少有针对复杂视觉推理能力的专项测评。这让我想起小时候玩过的Rebus Puzzles(画谜)——那些用图像组合来暗示词语或短语…...

OJ系统性能测试报告

一、测试目的 验证登录页、首页、题目列表页、比赛列表页、讨论列表页在常规访问与并发场景下的响应速度、页面加载稳定性。检测系统接口请求、数据渲染、榜单刷新等核心流程的吞吐量与耗时,定位性能瓶颈。评估多用户同时访问时,系统CPU、内存、网络等资…...

Tilde:让 AI 智能体在生产环境安全运行,具备可回滚、隔离、审计等特性

Tilde:让 AI 智能体在生产环境安全运行Tilde 致力于让 AI 智能体在生产环境中安全运行,它将每次智能体运行转化为可回滚的事务。来自 GitHub 的代码、S3 的数据以及 Google Drive 的文档,都能以单一版本化文件系统的形式呈现,每个…...

2026年美缝怎么选?靠谱的锐思美缝究竟好在哪?

在2026年,美缝服务的选择对于提升家居品质至关重要。面对市场上众多的美缝品牌,长沙匠心徐师傅美缝团队脱颖而出,下面我们从多个方面来分析它究竟好在哪。一、专属前置礼遇,沟通省心高端业主通常时间宝贵,繁琐的沟通流…...

本地AI语音识别技术突破:LocalVocal在OBS中的隐私优先实时字幕解决方案

本地AI语音识别技术突破:LocalVocal在OBS中的隐私优先实时字幕解决方案 【免费下载链接】obs-localvocal OBS plugin for local speech recognition and captioning using AI 项目地址: https://gitcode.com/gh_mirrors/ob/obs-localvocal 在当今内容创作和直…...

炉石传说智能脚本:新手从零到精通的完整指南

炉石传说智能脚本:新手从零到精通的完整指南 【免费下载链接】Hearthstone-Script Hearthstone script(炉石传说脚本) 项目地址: https://gitcode.com/gh_mirrors/he/Hearthstone-Script 你是否厌倦了重复的炉石传说日常任务&#xff…...

python引用项目中一个文件夹失败

通过告诉kimi我运行的main和报错,解决。...