当前位置: 首页 > article >正文

AI手机新突破!端侧智能体提速1.6倍,纯软件框架

AI助理正在加速走进我们的手机和电脑帮我们自动回复邮件、安排会议日程。人们总是希望这些助理不仅聪明还能把数据留在本地以保护隐私。但现有的端侧设备运行这些大模型智能体时往往慢得让人失去耐心。由韩国科学技术院KAIST研究团队开发的一项名为 Agent-X 的纯软件框架在不需要更换任何新硬件的前提下直接将端侧大模型智能体的端到端运行速度提升了1.61倍且完全无损任务精度。Agent-X 是首个系统性解决端侧AI智能体全流程延迟瓶颈的纯软件加速框架。它首次揭示了端侧Agent中预填充Prefill和解码Decode阶段均为关键瓶颈的独特特性。这项突破性的研究成果已被 MobiSys 2026第24届美国计算机协会移动系统、应用与服务国际会议正式接收。研究团队深入剖析了端侧设备运行AI智能体时的底层计算瓶颈找出了让系统变慢的真正元凶为预填充和解码两个计算环节量身定制了加速方案。端侧智能体的迟缓症结把大语言模型装进云端巨大的服务器机房里和把它塞进一台轻薄的笔记本电脑里面临的计算挑战截然不同。模型生成回答的过程通常分为两步前一步叫预填充负责阅读并理解用户输入的提示词Prompt后一步叫解码负责逐字逐句生成最终的回答。云端服务器拥有庞大的算力和极高的内存带宽预填充阶段极其迅速绝大部分时间都花在了解码生成环节。把相同的任务放到手机或个人电脑等端侧设备上时情况发生了变化。工程师在设计智能体工作流Agentic workflows时为了约束模型的行为并教它如何使用外部工具会给它输入极长的提示词。这些提示词包含了长篇大论的系统指令、工具使用说明以及大量的示例演示。云端顶配服务器芯片如英伟达 H200 的内存带宽高达每秒4800GB算力接近2000 TOPS。我们手头的端侧芯片比如高通骁龙 X Elite算力只有45 TOPS带宽仅为每秒135GB。算力和带宽的巨大落差导致端侧设备在处理智能体任务那长达数千个Token的输入时算力瓶颈彻底暴露。研究团队对 TinyAgent 系统执行了1022次真实的测试用例详细记录了每个环节的耗时情况。数据呈现出一个反直觉的事实预填充和解码两个阶段在端侧的耗时已经持平。以往那种只盯着解码环节做优化的云端策略在端侧环境中完全失效。工程师应该同时向预填充和解码两端发力才能把端侧智能体的运行速度提上来。重构提示词消除预填充瓶颈业界其实有一种非常成熟的技术叫做前缀缓存Prefix caching也就是把模型以前阅读过的、固定不变的提示词内容提前计算好并存下来下次遇到相同的开头直接拿来复用从而省去大量的重复计算。智能体系统在执行任务时会根据用户的具现需求动态调取不同的工具。用户想发邮件系统就把邮件相关的工具说明和案例插进提示词里用户想查日历系统就换上日历工具的说明。这种动态拼接的做法导致每次输入给模型的提示词在前段就出现了差异。前缀缓存机制要求前后两次的输入必须有一长串完全一模一样的开头一旦前排某个词变了后面的缓存就算一模一样也全部作废。研究团队开发了名为 PromptWeaver 的核心组件专门解决这种动态变化带来的缓存失效问题。团队将系统里所有可用工具的说明文档全部固化下来变成一段超长的静态文本放在提示词最前面。这样一来动态变化的部分被大幅后移前缀缓存机制得以充分发挥作用。针对工具使用示例的动态变化研究团队对系统训练数据集进行了深度的共现度Co-activation分析。他们发现特定主题的工具往往会扎堆出现比如处理联系人的工具经常和处理邮件的工具一起被调用。团队据此利用非负矩阵分解算法将工具划分为8个高频共现的工具簇并按照主题对它们进行固定排序。这些经过固定搭配组合的工具示例其计算结果被提前生成键值缓存KV cache并存储在设备的固态硬盘里。当用户提出需求时系统只需像查字典一样从硬盘里把对应的预计算缓存调入内存即可。仅需占用6.26GB的硬盘空间就能覆盖日常使用中74.4%的工具示例组合。通过这种重构系统输入中无法被缓存的动态词块大幅减少了88.9%彻底解放了预填充阶段的算力瓶颈。绕开多Token税的解码方案预填充阶段跑快了解码阶段也不能拖后腿。云端大模型常用的加速技术叫推测解码Speculative decoding找一个体量极小、跑得飞快的草稿模型在前面探路一口气生成好几个词然后再让主力大模型做一次性校验。把这套方案搬到端侧设备上时遇到了被称为多Token税Multi-token tax的严重阻碍。端侧设备主要针对单批次任务进行硬件优化主力模型一次性校验多个Token的开销甚至比它老老实实自己逐个生成还要慢。草稿模型的选择也陷入了两难境地。上表详细记录了不同草稿模型在端侧的表现。参数量只有几千万的小模型生成的准确率仅有2%根本猜不对主力模型想说什么参数量达到10亿级别的草稿模型准确率上去了但它自身跑得太慢综合算下来不仅没提速反而让系统整体速度下降了。研究团队敏锐地捕捉到了智能体工作流的一个隐藏特性。模型在解码阶段生成的行动计划往往高度模仿提示词里提供的示例模板。它们就像在做填空题照抄示例里的函数名和格式仅仅替换掉里面的具体参数。基于这一发现研究团队抛弃了需要神经网络计算的草稿模型开发出名为 ExSpec 的轻量化解码组件。系统在接收到用户请求时会利用现有的提示词流在内存中临时构建一张极小的 n元语法n-gram查找表。这张表记录了提示词里哪些词经常跟着另外几个词出现。系统在生成新词时直接去这张表里查历史规律来当草稿。查找表的读取速度极快开销几乎为零。更绝妙的是系统只在查找表里确切拥有匹配记录时才发起推测解码。遇到没见过的生僻词汇它会立刻切换回传统的逐字生成模式。这种被称为选择性解码的策略完美避开了多Token税带来的无谓损耗。数据印证了这项设计的精妙。采用选择性解码策略后规划器Planner环节的草稿准确率翻了一倍裁决器Arbiter环节的准确率更是提升了近三倍。这套机制用极简的查表逻辑替代了复杂的神经网络预测把端侧的解码速度拉高了1.73倍。研究团队将这两项技术融合成完整的 Agent-X 框架并在搭载苹果 M4 Pro 芯片的设备上运行了真实的高强度智能体测试。双管齐下的威力立刻显现最终实现了高达1.61倍的端到端提速。以往需要漫长等待的日历规划、多步骤邮件回复任务得到了大幅加速。最让工程师和开发者感到欣慰的是所有这些提速都没有牺牲哪怕万分之一的任务准确率。整个框架以纯软件的形式运行丝滑嵌入到了诸如 TinyAgent 这样成熟的端侧应用生态中不需要花一分钱去升级设备内存或是购买更强劲的加速卡。Agent-X 框架用最轻巧的代码逻辑解开了最棘手的硬件枷锁让私密、安全、全天候在线的智能体向普通人的设备里迈进了一大步。参考资料https://arxiv.org/pdf/2605.10380https://www.sigmobile.org/mobisys/2026/accepted_papers/

相关文章:

AI手机新突破!端侧智能体提速1.6倍,纯软件框架

AI助理正在加速走进我们的手机和电脑,帮我们自动回复邮件、安排会议日程。人们总是希望这些助理不仅聪明,还能把数据留在本地以保护隐私。但现有的端侧设备运行这些大模型智能体时,往往慢得让人失去耐心。由韩国科学技术院(KAIST&…...

自由职业者收入追踪器:从数据模型到可视化分析的全栈实现

1. 项目概述:一个为自由职业者量身定制的收入追踪器如果你是一名自由职业者、独立开发者,或者正在经营自己的副业,那么“收入管理”这件事,大概率会让你感到头疼。项目款什么时候到账?这个月到底赚了多少钱&#xff1f…...

Perplexity搜索ACM结果不排序?揭秘影响因子加权算法逆向工程,自定义排序脚本已开源

更多请点击: https://intelliparadigm.com 第一章:Perplexity ACM论文查询 Perplexity 是一款基于大语言模型的智能研究助手,支持对 ACM Digital Library 等权威学术资源进行语义化检索。与传统关键词搜索不同,它能理解自然语言提…...

Openclaw-Connector:构建高可靠数据集成管道的核心架构与实战

1. 项目概述与核心价值最近在折腾一些自动化流程和跨平台数据同步时,发现了一个挺有意思的项目——Openclaw-Connector。这名字听起来就有点“机械爪”的感觉,实际上它也确实是一个旨在“抓取”和“连接”不同系统、不同数据源的中间件工具。简单来说&am…...

基于Playwright的插件化浏览器自动化框架:从脚本到工程化实践

1. 项目概述与核心价值最近在折腾一些自动化工作流,发现很多场景下需要与网页进行交互,比如定时抓取特定信息、自动填写表单、或者模拟一些重复性的点击操作。传统的爬虫库在处理动态加载、复杂交互的现代网页时,往往力不从心,要么…...

从PDCA到DevOps:构建可落地的持续改进框架与实践指南

1. 项目概述:一个关于持续改进的实践框架在软件工程、产品研发乃至个人成长的领域里,“持续改进”这个词我们听得耳朵都快起茧子了。几乎每个团队都在提敏捷、提DevOps、提精益,其核心思想都绕不开“持续改进”这四个字。但说实话&#xff0c…...

【maaath】Flutter for OpenHarmony 体重管理应用开发实战

Flutter for OpenHarmony 体重管理应用开发实战:从数据模型到完整功能实现欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.csdn.net 作者:maaath一、前言 随着 OpenHarmony 生态的快速发展,Flutter for OpenHarmon…...

开源云原生安全态势感知平台:架构设计与实战部署指南

1. 项目概述:一个开源的云原生安全态势感知平台最近在梳理团队内部的安全监控体系时,发现了一个挺有意思的开源项目——piti/openclaw-security-dashboard。这名字直译过来是“皮提的开放之爪安全仪表盘”,听起来有点中二,但实际接…...

基于MCP协议为AI智能体赋予本地桌面自动化能力

1. 项目概述:为AI智能体赋予“手和眼”的桌面操作技能如果你正在使用像Cursor、Claude Code或Codex这类AI编程助手,可能会发现一个痛点:它们能帮你写代码、分析问题,但无法直接操作你的电脑。你想让它帮你打开一个软件、填写一个表…...

【Perplexity ACM论文查询终极指南】:20年科研老兵亲授3大隐藏技巧,90%研究者至今不知

更多请点击: https://intelliparadigm.com 第一章:Perplexity ACM论文查询的底层逻辑与认知重构 Perplexity 并非 ACM 官方检索系统,而是一种基于语言模型的智能代理式查询工具,其与 ACM Digital Library 的交互本质是语义驱动的…...

如何将Blender变成参数化CAD工具:CAD_Sketcher完整入门指南

如何将Blender变成参数化CAD工具:CAD_Sketcher完整入门指南 【免费下载链接】CAD_Sketcher Constraint-based geometry sketcher for blender 项目地址: https://gitcode.com/gh_mirrors/ca/CAD_Sketcher 你是否曾经希望在Blender中创建精确的工程图纸&#…...

基于LLM的GitHub智能助手:用自然语言驱动自动化工作流

1. 项目概述:当GitHub遇到AI,自动化工作流的新范式 最近在折腾一个挺有意思的开源项目,叫 MPK2004/github-agent 。乍一看名字,你可能会想,这又是一个基于GitHub API的机器人或者自动化脚本吧?没错&#…...

NotebookLM多语言支持到底行不行?基于2000+跨语言笔记片段的BLEU-4与BERTScore双维度评测(含原始数据集下载链接)

更多请点击: https://intelliparadigm.com 第一章:NotebookLM多语言支持到底行不行?基于2000跨语言笔记片段的BLEU-4与BERTScore双维度评测(含原始数据集下载链接) NotebookLM 官方宣称支持“30语言”,但其…...

AI工作流框架:用DAG与异步编排简化大模型应用开发

1. 项目概述:一个面向AI应用开发的现代工作流工具如果你最近在折腾AI应用开发,无论是想快速搭建一个智能客服,还是想集成大语言模型到你的产品里,大概率会遇到一个共同的烦恼:“想法很美好,落地很琐碎”。从…...

Cyclops:基于Helm的可视化Kubernetes部署平台实战指南

1. 项目概述:为什么我们需要一个“开发者友好”的Kubernetes界面?如果你和我一样,在云原生领域摸爬滚打了几年,那你一定对Kubernetes又爱又恨。爱的是它强大的编排能力和生态,恨的是那堆让人眼花缭乱的YAML文件。每次要…...

开源CRM Clawnify:轻量自托管,专为SaaS与AI Agent设计

1. 项目概述:一个为SaaS和AI Agent设计的开源CRM如果你正在为你的SaaS产品寻找一个轻量、可自托管、且能无缝嵌入的客户关系管理(CRM)模块,或者你厌倦了HubSpot、Salesforce这类重量级SaaS的复杂配置、高昂费用和API限制&#xff…...

【C++】C/C++ 内存管理从入门到进阶

【相关题目】 代码语言:javascript AI代码解释 int globalVar 1;static int staticGlobalVar 1;void Test(){static int staticVar 1;int localVar 1;int num1[10] {1, 2, 3, 4};char char2[] "abcd";const char* pChar3 "abcd";int*…...

AI Agent编排实战:OPC v5.0如何实现多智能体协作与工程化任务管理

1. 项目概述:一人公司的AI CEO最近在折腾AI Agent编排,发现了一个挺有意思的项目,叫OPC(One-Person Company)。简单来说,它不是一个独立的AI应用,而是一个给OpenClaw这个AI智能体平台用的“技能…...

从零部署全能Discord机器人:模块化设计与实战优化指南

1. 项目概述:一个全能型Discord机器人的诞生最近在Discord社区里折腾一个叫“Big Boss Bot”的机器人,项目地址是kitakitsune0x/bigbossbot。这名字听起来就挺有气势的,对吧?它本质上是一个功能丰富的Discord机器人,旨…...

5分钟搞定B站视频备份:m4s-converter完整使用教程

5分钟搞定B站视频备份:m4s-converter完整使用教程 【免费下载链接】m4s-converter 一个跨平台小工具,将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否遇到过这样的情况&#xff1…...

AI智能体规划框架skill-daydreaming:让AI像人一样思考与执行复杂任务

1. 项目概述与核心价值最近在GitHub上看到一个挺有意思的项目,叫“skill-daydreaming”,作者是regiep4。光看这个名字,你可能觉得有点玄乎——“技能白日梦”?这到底是干嘛的?作为一个在AI和自动化工具领域折腾了十多年…...

VSCode连接Ubuntu虚拟机(VMware/VirtualBox)编辑文件,总提示Permission Denied?可能是这个共享文件夹权限问题

VSCode连接Ubuntu虚拟机编辑文件时Permission Denied的深度解决方案 跨平台开发已经成为现代开发者的标配工作流,而VSCode配合虚拟机更是常见的开发环境组合。但当你兴致勃勃地在Windows或macOS上通过VSCode连接到Ubuntu虚拟机,准备大展拳脚时&#xff0…...

PX4-Autopilot嵌入式系统实时监控与状态监测算法深度解析

PX4-Autopilot嵌入式系统实时监控与状态监测算法深度解析 【免费下载链接】PX4-Autopilot PX4 Autopilot Software 项目地址: https://gitcode.com/gh_mirrors/px/PX4-Autopilot PX4-Autopilot作为开源无人机飞控系统的代表性项目,其状态监测算法在嵌入式系统…...

ReMe开源框架:突破AI智能体上下文限制与状态丢失的长期记忆管理方案

1. 项目概述与核心价值 如果你正在构建一个需要长期记忆的AI智能体,比如一个能记住你编程偏好的代码助手,或者一个能追踪用户历史问题的客服机器人,那么你肯定遇到过两个让人头疼的“顽疾”: 上下文窗口限制 和 会话状态丢失 …...

芯片良率提升:从设计到制造的系统性工程实践

1. 项目概述:从“能用”到“好用”的生死线“芯片良率”这四个字,对于圈外人来说,可能只是个模糊的技术指标。但对于身处半导体行业,无论是设计、制造、封测还是终端应用环节的从业者而言,它是一条贯穿始终、关乎生死存…...

数据科学协作新范式:构建可复现、可追溯的“小宇宙”项目

1. 项目概述:从“小宇宙”到数据科学协作的范式革新最近在GitHub上闲逛,发现了一个挺有意思的项目——datawhalechina/tiny-universe。乍一看这个名字,“小宇宙”,感觉有点玄乎,但点进去仔细研究后,发现它远…...

如何构建教育机构专属的离线编程教学平台:CodeCombat私有化部署实战

如何构建教育机构专属的离线编程教学平台:CodeCombat私有化部署实战 【免费下载链接】codecombat Game for learning how to code. 项目地址: https://gitcode.com/gh_mirrors/co/codecombat 你是否曾面临这样的困境:当50名学生同时在线编程时&am…...

开源客户端工具设计:从API封装到健壮实现的工程实践

1. 项目概述:一个开源客户端工具的诞生与价值在开源世界里,我们经常会遇到一些功能强大但使用门槛较高的服务端项目。它们往往提供了核心的API或服务,但缺少一个能让普通用户或开发者快速上手、直观操作的“门面”。lotsoftick/openclaw_clie…...

5个理由告诉你为什么Karate是API测试自动化的终极解决方案

5个理由告诉你为什么Karate是API测试自动化的终极解决方案 【免费下载链接】karate Test Automation Made Simple 项目地址: https://gitcode.com/gh_mirrors/ka/karate Karate测试框架是一个革命性的开源工具,它将API测试、Mock服务、性能测试和UI自动化完美…...

利用 Taotoken 统一管理多个项目的 API 密钥与访问权限

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 利用 Taotoken 统一管理多个项目的 API 密钥与访问权限 在同时维护多个 AI 应用或为不同客户部署服务的场景中,管理不同…...