当前位置: 首页 > article >正文

AI的记忆问题解决了!最强记忆基准99%的准确率

AI的记忆能力正在迎来一次重大的飞跃。Supermemory团队近期公布了一项研究成果他们构建的一个实验性AI智能体流程在LongMemEval基准测试中达到了接近99%的准确率。团队表示这是智能体记忆前沿的新突破。智能体的记忆问题也许完全解决了Agent memory might be completely solved now。这项技术摆脱了传统向量数据库和嵌入的限制以一种全新的方式处理海量、复杂和随时间变化的信息。未来高度个性化AI智能体即将到来。AI记忆的新突破长期记忆是AI发展的关键挑战之一。要让AI真正理解和运用信息特别是处理那些跨越多个对话会话、包含矛盾信息、并随时间推移而更新的事实需要一种超越传统方法的记忆系统。LongMemEval基准测试正是为模拟这种真实世界的复杂性而设计的它包含了超过115,000个token的对话历史以及需要时间推理的问题。大多数现有的记忆系统在面对这些挑战时往往败在信息检索的准确性上即使能够检索到信息如果包含大量噪音大型语言模型LLM也难以有效利用。一个核心的难题在于如何准确地提取必要信息并判断一个已检索到的事实是否已被更新的事实所取代。Supermemory团队的解决方案名为ASMRAgentic Search and Memory Retrieval彻底改变了信息处理的思路。这项技术不仅易于实现更关键的是它完全不需要向量数据库或嵌入所有操作都可以在内存中完成这为将其集成到各种系统中甚至包括机器人打开了方便之门。多智能体并行协作的机制ASMR的核心在于其创新的数据摄取和检索管道。与传统的按块分割和嵌入用户会话不同ASMR部署了一个由三个并行读取观察智能体组成的智能体编排器。这些智能体基于Gemini 2.0 Flash模型能够并发读取原始对话记录并针对个人信息、偏好、事件、时间数据、更新内容以及助手信息这六个维度进行目标化知识提取。提取出的结构化信息随后以原生格式存储并与它们的来源会话进行映射。当用户提出问题时ASMR不依赖于查询向量数据库。取而代之的是它部署了三个并行搜索智能体每个智能体都有特定的搜索侧重。第一个智能体负责搜索直接事实和明确陈述第二个智能体则关注相关的上下文、社交线索和潜在的含义第三个智能体则致力于重构时间线和关系图谱。编排器会汇总所有搜索智能体的发现提取逐字会话摘录以进行详细验证从而实现基于实际认知理解而非仅仅关键词或数学相似度的智能检索。为了应对LongMemEval测试中多样化的提问类型ASMR设计了两种不同的智能体回答流程。第一种是“8-变体合集”。在此流程中检索到的上下文被路由到8个高度专业化的提示变体中进行并行处理。每个变体独立评估上下文并生成答案。只要其中8个不同的推理路径之一能够成功得出正确答案该问题就被标记为正确。这种并行多重判断的方法使得整体准确率达到了令人瞩目的98.60%。第二种是“12-变体决策森林”。在这个流程中12个高度专业化的智能体基于GPT-4o-mini独立回答问题。随后一个聚合器AggregatorLLM充当最终的裁判。聚合器通过多数投票、领域信任度和冲突解决机制综合12个答案得出一个单一的、权威性的结论。这一共识模型也实现了高达97.20%的准确率。关键洞察与未来展望构建一个在生产级基准测试中达到近99%准确率的系统为Supermemory团队带来了几个重要的工程洞察。智能体检索优于向量搜索。抛弃向量嵌入转向主动搜索智能体是实现突破的关键。智能体通过主动搜索上下文有效避免了传统RAG在处理时间变化和信息更新时遇到的“语义相似性陷阱”。并行处理至关重要。将数据摄取和信息检索工作负载分配给多个专用智能体3个读取3个搜索极大地提高了信息提取的速度和精度。同时每个智能体都有其专门的侧重点这有助于防止信息冲突。专精化胜过泛化。将上下文路由到专门的智能体如“反驳者”或“细节提取者”进行处理其效果远远优于使用单个通用提示。尽管这是一个实验性的沙盒环境而非Supermemory的核心生产引擎但团队计划将完整的代码开源以供AI社区学习和构建。他们正在积极探索将这些纯智能体检索技术应用于核心生产环境。预计4月初Supermemory将公开发布并开源这一新智能体记忆系统的所有细节。AI的记忆问题或许真的已经找到了解决之道Supermemory这篇文章引起了不小的轰动。许多网友表示太烧Token了吧、3并行摄入 12判断 慢贵。研究员表示开源的3B中国模型技术上也是可以的。ASMR真的解决了记忆问题吗网友们表示还有三大挑战如此多LLM调用的延迟挑战规模到百万Token时仍需验证摄入质量上游应该存储什么数据仍是天花板。参考资料https://x.com/DhravyaShah/status/2035517012647272689https://github.com/supermemoryai/supermemory

相关文章:

AI的记忆问题解决了!最强记忆基准99%的准确率

AI的记忆能力正在迎来一次重大的飞跃。Supermemory团队近期公布了一项研究成果,他们构建的一个实验性AI智能体流程,在LongMemEval基准测试中达到了接近99%的准确率。团队表示这是智能体记忆前沿的新突破。智能体的记忆问题也许完全解决了(Age…...

并网逆变器自适应控制:基于阻抗测量的参数辨识与PR控制器自整定

并网逆变器自适应控制:基于阻抗测量的参数辨识与PR控制器自整定 一、 引言与系统架构 在弱电网环境下,电网阻抗(主要是线路阻抗和变压器漏抗)并非恒定。当电网阻抗突变(如微电网孤岛切换、大负载投切)时,传统固定参数的并网逆变器可能面临稳定性下降、谐振甚至失稳的风…...

M10嵌入式开发:Zynq PL-PS协同实现信号I/O与寄存器控制

1. 项目概述M10Examples 是 PulseRain 公司为其 M10 嵌入式开发板配套提供的官方示例代码集合。该系列示例并非通用型软件库,而是面向特定硬件平台(M10 board)的底层驱动验证与功能演示工程,其核心目标是:为硬件工程师…...

FLUX.1-dev效果验证:第三方评测机构对120亿参数模型的真实打分

FLUX.1-dev效果验证:第三方评测机构对120亿参数模型的真实打分 1. 项目背景与评测意义 最近开源社区最热门的话题之一,就是FLUX.1-dev模型的发布。这个拥有120亿参数的巨型文本生成图像模型,号称能够达到"影院级光影质感"的效果。…...

若依前后端分离版实现MQTT消息实时推送

1. MQTT协议与若依框架的完美结合 MQTT协议就像物联网世界的"短信系统",专为设备间通信设计。它最大的特点是轻量级和高效率,特别适合网络条件不稳定的场景。想象一下家里的智能设备——温度传感器每隔几秒就要上报数据,如果每次通…...

揭秘MCP Sampling接口RT飙升300%的真相:从gRPC拦截器到异步缓冲的7层调用链深度剖析

第一章:MCP Sampling接口性能问题的全景认知MCP(Model Control Protocol)Sampling接口是现代AI服务中承担实时采样请求调度与响应的核心通道,其性能表现直接影响端到端推理延迟、吞吐稳定性及资源利用率。当采样请求量突增或模型配…...

集团数字化建设里程碑:DMS/TMS与LIMS系统全面启动,赋能质量管理体系

在生物医药领域,每一份报告、每一组数据,都承载着药品安全与有效的核心承诺。作为您研发道路上值得信赖的第三方检测伙伴,我们深知:可靠的数据不仅源于精密仪器,更源于无懈可击的质量管理体系。近日,集团数…...

JS射线法实战:5分钟搞定电子围栏与快递区域判断(附完整代码)

JS射线法实战:5分钟搞定电子围栏与快递区域判断(附完整代码) 当你在外卖App上输入地址时,系统如何瞬间判断是否在配送范围内?共享单车的电子围栏怎样精准识别停车区域?这些看似简单的功能背后,都…...

163MusicLyrics:一站式音乐歌词获取与管理工具完全指南

163MusicLyrics:一站式音乐歌词获取与管理工具完全指南 【免费下载链接】163MusicLyrics Windows 云音乐歌词获取【网易云、QQ音乐】 项目地址: https://gitcode.com/GitHub_Trending/16/163MusicLyrics 想要轻松获取网易云音乐和QQ音乐的歌词吗?…...

新手也能搞定的1kHz正弦波发生器:用运放和文氏电桥从仿真到洞洞板的完整避坑指南

新手也能搞定的1kHz正弦波发生器:从理论到实践的完整指南 第一次尝试制作正弦波发生器时,我盯着示波器上扭曲的波形发呆——明明仿真时一切正常,怎么实物电路就完全不听使唤?这种挫败感可能每个电子爱好者都经历过。本文将带你从零…...

全球UV打印机市场洞察:规模增长与竞争格局演变

QYResearch调研显示,2025年全球UV打印机市场规模约达15.16亿美元,预计2032年将攀升至21.51亿美元,2026 - 2032期间年复合增长率(CAGR)为5.2%。从细分市场看,平板式UV打印机在装饰装潢领域表现突出&#xff…...

CH592/CH582触摸按键开发实战:从官方例程到自定义按键(附完整代码)

CH592/CH582触摸按键开发实战:从官方例程到自定义按键(附完整代码) 在嵌入式设备的人机交互设计中,触摸按键因其简洁美观、防水防尘等优势,正逐步取代传统机械按键。沁恒微电子的CH592/CH582系列蓝牙MCU内置了高性能的…...

GitHub Trending榜首:Python Agentic RAG企业级落地指南

文章目录前言一、传统RAG为啥不够用了?就像只会翻字典的翻译官二、Agentic RAG的核心架构:不是一个人战斗,而是一个团队1. 规划师(Planner Agent)2. 执行员(Executor Agents)3. 通讯员&#xff…...

别再混淆了!一文搞懂PyTorch中torch.cat()与torch.stack()的区别

别再混淆了!一文搞懂PyTorch中torch.cat()与torch.stack()的区别 刚接触PyTorch时,面对各种张量操作函数总让人眼花缭乱。特别是torch.cat()和torch.stack()这两个看似相似的拼接函数,很多初学者都会困惑它们到底有什么区别。今天我们就来彻底…...

BooruDatasetTagManager:从零到精通的智能图像标注全攻略

BooruDatasetTagManager:从零到精通的智能图像标注全攻略 【免费下载链接】BooruDatasetTagManager 项目地址: https://gitcode.com/gh_mirrors/bo/BooruDatasetTagManager 在AI模型训练的世界中,数据标注往往是决定成败的关键环节。传统的手动标…...

K8s节点死活加不进来?别急着重装,先检查这几个残留文件和端口(附一键清理脚本)

K8s节点加入失败的深度排障指南:从残留文件到端口占用的系统化解决方案 遇到Kubernetes节点死活加不进集群的情况,很多运维工程师的第一反应是重装系统——这就像用核弹解决蚊子问题,既低效又破坏性极强。实际上,90%的节点加入失败…...

手把手教你:用lychee-rerank-mm给爬虫数据打分,绿色高分直接采用

手把手教你:用lychee-rerank-mm给爬虫数据打分,绿色高分直接采用 1. 为什么需要给爬虫数据打分? 做过数据抓取的开发者都知道,爬虫获取的数据往往鱼龙混杂。你可能抓取了上百个网页,但真正有价值的内容可能只有一小部…...

棋盘多项式-进阶题17

棋盘多项式 题目 问题描述求出区间[a,b]中所有整数的质因数分解。输入说明 输入两个整数a&#xff0c;b。2<a<b<10000输出说明 每行输出一个数的分解&#xff0c;形如ka1a2a3…(a1<a2<a3…&#xff0c;k也是从小到大的)(具体可看范例)输入范例 3 10输出范例 33 …...

MOSFET五大失效机理与工程防护指南

1. MOS管失效机理深度解析&#xff1a;从雪崩击穿到栅极过压的工程实践视角MOSFET作为现代电力电子系统的核心开关器件&#xff0c;因其高输入阻抗、低驱动功耗、快速开关特性及优异的导通电阻&#xff08;RDS(on)&#xff09;表现&#xff0c;被广泛应用于DC-DC变换器、电机驱…...

Qwen3-ASR-1.7B歌唱识别专项:流行歌曲歌词转录挑战

Qwen3-ASR-1.7B歌唱识别专项&#xff1a;流行歌曲歌词转录挑战 1. 引言 你有没有试过&#xff0c;在KTV里唱完一首歌&#xff0c;想回味一下自己唱了什么&#xff0c;却发现歌词APP里只有原唱版本&#xff0c;自己那版根本搜不到&#xff1f;或者&#xff0c;作为一个音乐爱好…...

OFA图像描述模型Node.js环境配置:构建高性能图像描述API服务

OFA图像描述模型Node.js环境配置&#xff1a;构建高性能图像描述API服务 最近有不少朋友在问&#xff0c;怎么把那些厉害的AI模型集成到自己的Web应用里。特别是像OFA这种能看懂图片并生成描述的模型&#xff0c;如果能做成一个API服务&#xff0c;那应用场景就太广了——从电…...

威联通NAS+Docker Compose:打造全能媒体中心实战指南

1. 为什么选择威联通NASDocker Compose搭建媒体中心 最近几年&#xff0c;家庭媒体中心的概念越来越火。作为一个折腾过多套方案的资深玩家&#xff0c;我最终选择了威联通NASDocker Compose的组合。这套方案最大的优势在于灵活性和可扩展性——你可以像搭积木一样&#xff0c;…...

论文图表救急包:5分钟学会AI/PSD转EPS矢量图的正确姿势

科研图表格式转换实战&#xff1a;从PSD到EPS的矢量图高效处理指南 当你在深夜赶完论文最后一组数据图表&#xff0c;满心欢喜地点击投稿按钮时&#xff0c;系统却无情地弹出一条错误提示&#xff1a;"仅接受EPS矢量图格式"——这种场景几乎每位科研工作者都经历过。…...

从Firebase迁移到Supabase:一个前端开发者的真实踩坑与平滑过渡指南

从Firebase迁移到Supabase&#xff1a;一个前端开发者的真实踩坑与平滑过渡指南 作为一名长期使用Firebase的前端开发者&#xff0c;我最近完成了一个中型项目从Firebase到Supabase的完整迁移。这次迁移并非一时兴起&#xff0c;而是经过深思熟虑的技术决策过程。本文将分享我在…...

[知识自由获取]:智能适配技术驱动的内容访问优化解决方案

[知识自由获取]&#xff1a;智能适配技术驱动的内容访问优化解决方案 【免费下载链接】bypass-paywalls-chrome-clean 项目地址: https://gitcode.com/GitHub_Trending/by/bypass-paywalls-chrome-clean 3个维度破解学术与信息获取壁垒 一、痛点剖析&#xff1a;数字时…...

OpenClaw故障自愈方案:QwQ-32B监控脚本异常并自动恢复

OpenClaw故障自愈方案&#xff1a;QwQ-32B监控脚本异常并自动恢复 1. 为什么需要故障自愈能力 上周我的爬虫脚本又崩了——这已经是本月第三次在凌晨两点崩溃。当我早上打开电脑时&#xff0c;发现数据采集任务已经停滞了6小时&#xff0c;错过了关键的黄金采集时段。这种经历…...

数据质量评估:清洗前后的量化对比方法

数据质量评估:清洗前后的量化对比方法 关键词:数据质量评估、数据清洗、量化对比、数据准确性、数据完整性 摘要:本文主要探讨了数据质量评估中清洗前后的量化对比方法。首先介绍了数据质量评估和清洗的背景知识,接着详细解释了数据质量评估的核心概念,包括准确性、完整性…...

用Flink Table API实现流批一体:订单数据SQL化处理与可视化实战

Flink Table API实战&#xff1a;滴滴订单流批一体处理与实时可视化全流程解析 在当今数据驱动的商业环境中&#xff0c;实时数据处理能力已成为企业核心竞争力的关键组成部分。滴滴等出行平台每天产生数以亿计的订单数据&#xff0c;如何高效处理这些实时流数据&#xff0c;同…...

机器学习 超清晰通俗讲解 + 核心算法全解(深度+易懂版)

机器学习 超清晰通俗讲解 核心算法全解&#xff08;深度易懂版&#xff09; 我用最通俗、最深入、最适合面试/考试的方式给你讲清楚&#xff0c;零基础也能完全听懂。一、什么是机器学习&#xff1f;&#xff08;通俗标准定义&#xff09; 1. 通俗解释 机器学习 让计算机从数…...

AI 智能体(Agent)的开发费用

AI 智能体&#xff08;Agent&#xff09;的开发费用已经从早期的“天价尝试”转向了按需分级。由于算力成本在 2026 年初有所波动&#xff08;受硬件供应链影响&#xff0c;部分云厂商上调了算力价格&#xff09;&#xff0c;目前的报价体系更加透明且模块化。以下是针对国内市…...