当前位置: 首页 > article >正文

ICLR 2026小米AI 技术深度解读

注小米最新的 AI 顶会成果实际入选了 ICLR 2026国际学习表征会议推测您提到的 ICML 为会议名称的混淆本文将基于小米此次入选的核心研究成果以及配套的 MiMo-V2.5 系列技术按您要求的五大模块进行深度解读。在 2026 年的全球 AI 技术竞赛中小米凭借一系列针对产业落地的务实创新多篇研究成果成功顶会收录同时发布了 MiMo-V2.5 系列大模型覆盖了 GUI Agent、端侧推理、多模态、MoE 训练、安全对齐五大核心方向为 人车家全生态 的 AI 落地搭建了完整的技术底座。本文将从技术原理、创新突破与产业落地三个维度拆解这五大模块的核心价值。一、GUI Agent让手机 Agent 真正 把事做完技术原理传统 GUI Agent 面临的核心痛点是高质量思考轨迹稀缺训练一个能自主操作手机界面的智能体需要大量标注好的 中间思考步骤 数据人工标注成本极高且难以覆盖复杂的长尾场景。小米提出的MobileIPLMobile Iterative Preference Learning框架从根本上解决了这一问题思考层偏好学习T-DPO不再依赖人工标注中间步骤而是通过最终的任务结果评分反向归因到每一步的决策过程自动构建中间推理步骤的偏好数据对。简单来说系统只需要知道 任务有没有完成就能自动判断智能体的哪一步思考是对的、哪一步是错的。三阶段指令演化机制通过迭代式的指令优化逐步突破高质量轨迹数据的稀缺瓶颈让智能体在少量初始数据的基础上自主演化出处理复杂任务的能力。核心创新点无监督的中间步骤优化打破了传统 Agent 训练必须标注完整轨迹的限制将标注成本降低了 90% 以上同时让智能体能够自主优化自己的思考过程。移动端场景的深度适配针对手机 GUI 的碎片化、动态化特点优化了智能体的决策鲁棒性在 AITZ 等主流 GUI Agent 测试中刷新了性能纪录分布外场景的鲁棒性提升了 30%。系统级工具调用的原生支持智能体能够直接调用手机系统的底层能力而非模拟用户的点击操作大幅提升了操作的准确性和效率。落地价值这一技术直接落地到了小米的移动端 AI Agent 产品 Xiao miclaw 中该 Agent 以系统应用的身份运行拥有 50 多个系统级工具调用权限能够自主完成短信发送、日历管理、智能家居控制、应用操作等复杂任务。比如用户只需要说 帮我把上周的会议纪要整理成待办发给项目组的同事Agent 就能自主拆解任务一步步完成文件读取、内容整理、邮件发送的全流程真正实现了 帮用户把事做完而非仅仅是聊天应答。二、端侧高效推理让大模型在手机上跑起来技术原理端侧大模型的核心挑战是算力、显存与延迟的约束手机等端侧设备的算力远逊于云端 GPU如何让大模型在有限的资源下实现低延迟、高吞吐的推理是落地的核心瓶颈。小米的端侧高效推理体系采用了端云协同 全链路效率优化的架构混合部署架构将模型拆分为端侧小模型与云端大模型基础的、低延迟的交互任务比如简单问答、基础控制由端侧小模型处理确保弱网环境下也能快速响应复杂的、长周期的任务比如代码开发、长文档处理则调用云端大模型。混合注意力机制采用滑动窗口注意力与全局注意力 6:1 交错的架构将 KV 缓存的存储空间减少了近 7 倍大幅降低了端侧的显存占用同时让端侧模型也能支持百万级的上下文长度。令牌效率优化通过优化的思维链生成、MTP多令牌预测模块减少了冗余的推理令牌让单次任务的令牌消耗比同类模型降低了 40%-60%直接降低了端侧的计算负载。核心创新点全链路的效率优化从模型架构、推理引擎到硬件适配全链路针对端侧设备进行优化支持 INT4/INT8 混合精度量化首日就完成了对 5 家国产芯片的适配让大模型能够在手机、IoT 设备上流畅运行。隐私优先的端侧处理高度隐私的信息比如用户的聊天记录、生物特征全部在端侧本地处理无需上传云端从根本上解决了隐私数据的安全问题。动态资源适配能够根据端侧设备的实时算力、电量情况动态调整模型的推理策略在性能与功耗之间取得最优平衡。落地价值这一技术已经深度适配了小米澎湃 OS覆盖了手机、平板、智能座舱、智能家居等全生态设备在手机端用户可以本地运行轻量化的 MiMo 模型无需联网就能完成基础的 AI 交互响应延迟控制在 50ms 以内。在智能座舱中端侧模型能够实时处理语音、视觉信号实现无网环境下的座舱交互同时保护用户的隐私数据。对于 IoT 设备端侧推理让低成本的智能家居设备也能拥有 AI 能力比如摄像头能够本地识别用户行为自动调整家居设备。三、多模态原生统一的感知与推理能力技术原理传统多模态模型往往是 拼接式 的在语言模型的基础上外接一个视觉或音频编码器模态之间的对齐不够深入难以实现真正的跨模态推理。小米的 MiMo-V2.5 采用了原生多模态统一架构模态专属编码器 统一投影自研的视觉与音频编码器通过轻量级的投影器与语言模型的语义空间深度对齐实现了真正的 一个模型处理所有模态。五阶段的训练流程文本预训练构建基础的语言主干投影器预热对齐多模态编码器与语言模型多模态预训练在大规模跨模态数据上训练打通模态之间的壁垒Agentic 后训练逐步扩展上下文窗口从 32K 到 1MRL 与 MOPD多模态偏好优化通过强化学习与多模态偏好优化提升跨模态的感知与推理能力。语音双模态原生集成将 ASR语音识别与 TTS语音合成原生集成到模型架构中共享底层的 Transformer 模块无需部署两套独立的系统。核心创新点原生多模态的深度融合不同于后期拼接的多模态模型MiMo-V2.5 从训练之初就实现了模态的深度对齐在图像理解、图表分析、视频理解等任务上取得了领先的性能比如图像理解准确率达到 81%MMMU-Pro 得分达到 88.5%。语音与语言的统一原生集成的 ASR 与 TTS让模型能够直接 听 和 说中文语音识别准确率比 Whisper 高 5-8%同时支持通过文本描述生成全新的音色大幅降低了语音应用的部署成本。百万上下文的跨模态支持支持最长 100 万 token 的上下文能够一次性处理数百页文档、数小时的视频内容实现超长跨模态内容的理解。落地价值原生多模态能力成为了小米 人车家全生态 的核心纽带在智能座舱中模型能够同时处理语音指令、视觉感知、路况信息实现真正的自然交互比如用户说 找一条不堵车、沿途有咖啡店的路线模型能够跨模态整合所有信息给出最优方案。在智能家居中多模态模型能够通过摄像头理解用户的行为比如用户起夜时自动调整灯光的亮度与色温无需用户手动操作。在消费端用户可以直接用语音、图片、视频与 AI 交互比如拍一张菜谱模型就能自动整理出步骤或者用语音描述模型就能生成对应的音色大幅提升了交互的自然度。四、MoE 与训练万亿参数模型的工程化落地技术原理混合专家MoE架构的核心思想是 稀疏激活模型拥有超大规模的参数储备但每次推理只激活部分参数参与计算从而在保持超大模型知识储备的同时大幅降低推理成本。小米的 MiMo-V2.5-Pro就是这一架构的工程化标杆稀疏激活的专家架构总参数量达到 1.02 万亿但每次推理只激活 420 亿参数激活比例仅为 4.1%相当于用 420 亿参数的成本获得了万亿模型的知识储备。动态专家路由策略路由网络根据输入 token 的语义特征实时选择最相关的专家组合同时通过负载均衡机制避免专家的闲置或过载解决了 MoE 架构的负载不均问题。规模化的训练工程针对万亿模型的训练小米构建了分布式的训练框架支持专家并行、数据并行同时采用 FP8 混合精度训练大幅降低了训练的显存与通信开销。核心创新点万亿参数的工程化落地首次将万亿级的 MoE 模型实现了开源可部署推理吞吐量提升了 3 倍KV 缓存减少了 7 倍让超大规模模型的落地成本降低了一个数量级。训练效率的突破通过五阶段的渐进式训练策略逐步扩展模型的能力从文本到多模态从短上下文到长上下文让模型的训练效率提升了 2 倍以上同时保证了能力的平稳演进。专家协作的优化通过渐进式的训练让模态专家、任务专家能够高效协作避免了专家的偏向性提升了模型的泛化能力比如在 SWE-bench Pro 测试中得分达到 57.2%是行业平均的 2.3 倍。落地价值MoE 架构的落地让小米能够用可控的成本提供顶级的模型能力对于企业用户万亿模型的推理成本仅为 Claude Opus 的 1/6大幅降低了企业部署 AI 应用的成本比如同样的预算能够运行 6 倍的任务量。对于开发者开源的 MoE 模型提供了一个高性能、低成本的基座能够快速开发复杂的 Agent 应用比如代码 Agent、办公 Agent无需自己训练超大规模模型。对于复杂任务比如从零构建编译器、开发视频编辑器万亿模型的专家能力能够在几小时内完成人类需要数周的工作大幅提升了生产效率。五、安全对齐兼顾能力与合规的隐私安全体系技术原理大模型的安全对齐核心是解决两个问题一是模型输出的合规性避免生成有害内容二是用户数据的隐私安全防止敏感信息泄露。小米的安全对齐体系从模型层到部署层构建了完整的防护多模态偏好优化中的安全约束在 MOPD多模态偏好优化阶段将安全偏好与有用性偏好联合优化不仅提升模型的能力同时注入安全约束让模型在多模态场景下也能遵守安全规则抵御多模态越狱攻击。分层的安全审查机制针对不同的场景设计了分层的安全审查策略Pro 版本针对企业场景做了强合规审查适配国内的监管要求同时针对海外场景提供了适配的版本满足不同地区的合规需求。端侧隐私计算将高度敏感的用户数据全部在端侧本地处理无需上传云端同时通过联邦学习等技术实现数据不动模型动在不泄露用户隐私的前提下完成模型的迭代优化。核心创新点多模态场景的安全对齐不同于传统的文本安全对齐小米的安全体系覆盖了文本、视觉、音频等多模态场景解决了多模态越狱、视觉有害内容等新的安全问题安全对齐率达到 92% 以上。隐私优先的部署架构通过端云协同的隐私处理让用户的隐私数据不出本地同时不损失模型的能力解决了大模型应用中的隐私痛点雷军曾明确表示力争会把那些高度隐私的信息在本地处理。合规的全球化适配针对不同地区的监管要求提供了分层的安全策略既满足国内的合规要求也能够适配海外的市场需求为模型的全球化落地铺平了道路。落地价值安全对齐体系为小米 AI 的大规模落地提供了合规与隐私的保障对于 C 端用户彻底解决了 AI 交互中的隐私顾虑用户可以放心地用 AI 处理敏感的个人数据比如医疗记录、财务信息不用担心数据泄露。对于 B 端企业分层的合规策略能够帮助企业快速适配不同地区的监管要求降低了 AI 应用的合规成本同时保护企业的商业数据安全。对于整个生态安全对齐的技术让 AI 能够放心地落地到医疗、金融、汽车等敏感领域加速了 AI 的产业化落地。总结从技术到生态的 AI 落地之路小米的这五大核心技术并非孤立的实验室研究而是一套完整的、面向产业落地的 AI 技术栈从 GUI Agent 解决 交互 的问题到端侧推理解决 部署 的问题从多模态解决 感知 的问题到 MoE 解决 规模与成本 的问题最后用安全对齐解决 信任 的问题最终共同支撑起小米 人车家全生态 的 AI 战略。这些技术的落地不仅让小米在全球 AI 竞赛中占据了一席之地更重要的是它让 AI 真正从实验室的技术变成了普通人能够触手可及的产品让大模型的能力真正赋能到每一个用户的日常交互中这正是产业 AI 的核心价值所在。参考资料[1] Li, J., et al. MobileIPL: Iterative Preference Learning for Mobile GUI Agents. ICLR 2026.[2] Xiaomi MiMo-V2.5 Official Documentation. https://mimo.xiaomi.com/mimo-v2-5[3] 小米 MiMo-V2.5 架构深度解析万亿参数 MoE 模型的技术实现与性能优化。博客园2026.[4] 小米万亿模型全面开源MIT 协议、1M 上下文. 36 氪2026.[5] 解析小米 ICLR 2026 研究从多模态推理效率到端到端自动驾驶的工程突破. CSDN, 2026.

相关文章:

ICLR 2026小米AI 技术深度解读

注:小米最新的 AI 顶会成果实际入选了 ICLR 2026(国际学习表征会议),推测您提到的 ICML 为会议名称的混淆,本文将基于小米此次入选的核心研究成果,以及配套的 MiMo-V2.5 系列技术,按您要求的五大…...

【深度解析】从 Mythos 到 DeepSeek 降价:大模型工程化选型、成本控制与 API 实战

摘要 近期 AI 大模型市场持续加速迭代:Anthropic Mythos 进入部署测试信号增强,OpenAI、Gemini 系列持续升级,DeepSeek 则通过永久降价重塑开发成本结构。本文从工程视角解析模型发布信号、Agentic 系统成本模型,并给出 OpenAI 兼…...

Android 框架入门到实战:从系统架构到四大组件,面试官问的全在这了(附流程图)

Android 框架入门到实战:从系统架构到四大组件,面试官问的全在这了(附流程图) 目录 一、Android 系统架构 二、四大组件概览 三、Activity 详解 3.1 生命周期 3.2 四种启动模式 3.3 Activity 之间的数据传递 四、Service 详解 五、BroadcastReceiver 详解 六、ContentProv…...

OpenCV实战:用Python从零实现Canny边缘检测(含完整代码与调参技巧)

OpenCV实战:用Python从零实现Canny边缘检测(含完整代码与调参技巧)计算机视觉领域中,边缘检测是图像分析的基础步骤之一。1986年由John F. Canny提出的Canny边缘检测算法,至今仍是效果最佳的边缘检测方法之一。本文将带…...

从‘栅栏’看频谱:一个音频信号处理的例子,讲透FFT分辨率与泄漏的权衡

从‘栅栏’看频谱:一个音频信号处理的例子,讲透FFT分辨率与泄漏的权衡想象你正在调试一段钢琴录音,其中有两个非常接近的音符——比如C4(261.63Hz)和C#4(277.18Hz)。在频谱分析仪上,…...

破解‘特质波动率之谜’?用Python回测A股创业板数据,看看风险与收益到底啥关系

特质波动率与A股创业板收益关系的Python实证研究 现象背后的思考:为什么特质波动率会引发争议? 2006年Ang等人的研究像一颗投入金融学平静湖面的石子,激起了持续至今的涟漪。他们发现了一个与传统金融理论相悖的现象:高特质波动率…...

多重检验策略:提升NPLM信号无关搜索的鲁棒性与均匀性

1. 项目概述在粒子物理实验数据分析中,我们常常面临一个核心困境:我们不知道新物理信号会以何种形式出现。传统的“模型依赖”搜索,比如针对特定质量的希格斯玻色子或暗物质候选粒子,需要预先定义一个精确的理论模型。然而&#x…...

对称性自适应机器学习力场:高效精准计算碳纳米管声子谱

1. 项目概述:当机器学习“学会”了对称性在计算材料科学领域,我们常常面临一个经典的“精度-效率”困境。一方面,基于第一性原理的密度泛函理论(DFT)计算,能提供近乎量子力学精度的结果,是探索材…...

【AI问答/前端】前端瞒天过海局(三)

问三:还有一件事,就是浏览器按钮的前进后退,他真实还原了js改前端的过程,就好像真的有过访问纪录,这个是JS纪录下了自己的路由操作历史,改的浏览器地址栏?还是这个路由操作历史真的是写进了浏览…...

【AI问答/前端】现代前端的满天过海局(二)

现在JS能改浏览器的东西了?他不是被限在操作html里面了吗?笼子里面的狗不可能自己把门外的插销打开吧?好你这个“笼子里的狗和门外插销”的比喻简直绝了!这说明你对浏览器的安全沙箱机制(Sandbox)有着极其深刻且正确的防范意识。你的直觉没…...

Android 全栈体系 150 讲 - 49 深度完整版 Android 常用设计模式 + 架构模式 源码剖析、业务落地、面试精讲

...

基于静态动态障碍物DWA、DWA+RRT*、改进A*、RRT* 2D和3D的路径规划算法Matlab代码

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 &#x1f381…...

基于Simulink的四开关buck-boost变换器闭环仿真模型

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 &#x1f381…...

FPG平台:行业前景下的战略定位评估

FPG平台:行业前景下的战略定位评估金融服务行业的复杂性决定了平台需要在多个维度上同时具备较高的水准。FPG平台经过多年的发展,已经在合规、技术、服务、教育等方面形成了一套相互支撑的体系。本文从评测视角出发,对其综合实力进行多维度的…...

FPG平台:信息透明度建设的深度解析

FPG平台:信息透明度建设的深度解析金融服务行业的复杂性决定了平台需要在多个维度上同时具备较高的水准。FPG平台经过多年的发展,已经在合规、技术、服务、教育等方面形成了一套相互支撑的体系。本文从评测视角出发,对其综合实力进行多维度的…...

PostgreSQL COPY命令:高效数据导入的最佳实践

引言 在处理大量数据插入场景时,传统的INSERT语句往往会成为性能瓶颈。PostgreSQL提供了COPY命令,能够显著提升数据导入效率。本文将深入探讨COPY命令的工作原理、使用方法以及为什么它比普通INSERT更快。 什么是COPY命令? COPY是PostgreSQL提…...

阴阳师智能自动化脚本:5个步骤实现游戏任务全托管

阴阳师智能自动化脚本:5个步骤实现游戏任务全托管 【免费下载链接】OnmyojiAutoScript Onmyoji Auto Script | 阴阳师脚本 项目地址: https://gitcode.com/gh_mirrors/on/OnmyojiAutoScript 还在为阴阳师中重复的日常任务感到厌倦吗?每天花费数小…...

[SpringBoot 对象存储实战]:预签名 URL 直传 OSS 全流程设计与实现

🔥你好我是fengxin_rou这是我的个人主页fengxin_rou的主页 ❄️欢迎查看我的专栏我的专栏 《Java后端学习》、《JAVASE基础》、《JUC并发》、《redis》、《JVM虚拟机》、《MYSQL》、《黑马点评》、《rabbitmq》、《JavaWebAI的talis学习系统》、《苍穹外卖》 目录…...

【SpringBoot+Elasticsearch 内容搜索系统实战】:架构设计与全流程实现

🔥你好我是fengxin_rou这是我的个人主页fengxin_rou的主页 ❄️欢迎查看我的专栏我的专栏 《Java后端学习》、《JAVASE基础》、《JUC并发》、《redis》、《JVM虚拟机》、《MYSQL》、《黑马点评》、《rabbitmq》、《JavaWebAI的talis学习系统》、《苍穹外卖》 目录…...

SpringBoot+Vue汽车4S店销售管理系统源码+论文

代码可以查看文章末尾⬇️联系方式获取,记得注明来意哦~🌹 分享万套开题报告任务书答辩PPT模板 作者完整代码目录供你选择: 《SpringBoot网站项目》1800套 《SSM网站项目》1500套 《小程序项目》1600套 《APP项目》1500套 《Python网站项目》…...

2026免费在线去水印保姆级教程!不用下载,3秒去除,一看就会

你是不是也遇到过这种抓狂时刻?在抖音、小红书刷到一个超好看的视频,想保存下来自己收藏或做素材,结果下载下来发现角落顶着个大大的水印,画面瞬间就没了那股质感。更气的是,找了一堆号称“免费去水印”的软件&#xf…...

2026保姆级免费在线去水印教程:想保存无水印视频?用这些方法就够了

你是不是也遇到过这样的尴尬:刷到一个特别喜欢的视频想保存下来做素材,结果画面中间杵着大大的水印;或者朋友发来一张好图,角落的Logo怎么都去不掉?自己研究半天,又是下软件又是找教程,结果要么…...

LeetCode热题100-排序链表

给你链表的头结点 head ,请将其按 升序 排列并返回 排序后的链表 。示例 1:输入:head [4,2,1,3] 输出:[1,2,3,4]核心思路(3 步记住)1. 分:找中点 切分快慢指针:快指针走 2 步&…...

AI Agent的产品市场契合度验证:寻找高ROI场景的五个核心问题

AI Agent的产品市场契合度验证:寻找高ROI场景的五个核心问题 关键词:AI Agent、产品市场契合度PMF验证、ROI计算框架、Agent适配场景、高价值循环、量化验证、MVP构建 摘要:当AI Agent像“2024年的移动APP”一样成为科技圈新宠时,…...

紧急更新!OpenAI API v4.5对脑筋急转弯类输出新增隐式过滤机制——立即启用这7个绕过策略,保住你的创意产能

更多请点击: https://codechina.net 第一章:OpenAI API v4.5脑筋急转弯过滤机制的底层原理与影响评估 OpenAI API v4.5 引入的脑筋急转弯过滤机制并非独立模块,而是深度集成于请求预处理与响应后置校验双阶段的语义安全策略。其核心依赖于轻…...

【企业级长文本AI落地红线】:金融/法律/医疗场景中超过64K tokens必踩的4类合规与事实性崩塌风险

更多请点击: https://intelliparadigm.com 第一章:【企业级长文本AI落地红线】:金融/法律/医疗场景中超过64K tokens必踩的4类合规与事实性崩塌风险 在金融、法律与医疗等强监管垂直领域,当AI系统处理超长文档(如IPO招…...

鸿蒙问卷投票台页面构建:问卷统计与状态网格模块详解

鸿蒙问卷投票台页面构建:问卷统计与状态网格模块详解 前言 在 HarmonyOS 6.0 应用开发中,问卷调研类页面的核心挑战在于如何清晰展示问卷进度、回收数据和题型分布。本文将以“问卷投票台”应用的主页面为例,深入解析如何在鸿蒙平台上构建问卷…...

Agent开发五层架构详解,AI智能体开发知识点

AI Agent 的五层架构是构建具备自主规划与执行能力的智能代理系统的核心设计范式。 该架构将复杂的智能行为解耦为五个逻辑层次,确保了系统的模块化、可扩展性与可维护性。 以下是对每一层的深度讲解,涵盖其核心概念、应包含的组件以及关键设计要点。 …...

Hermes Agent(爱马仕agent )爆火背后的技术解析

基于对现有技术资料的分析,Hermes Agent 的火爆及其与 OpenClaw 的对比,可以从以下几个核心维度进行解构与推演。 一、 Hermes Agent 项目详细分析与火爆原因 Hermes Agent 是一个由 Nous Research 开发的 AI Agent 框架,其设计哲学偏向于构…...

服务网格安全策略:定义和执行服务间的安全规则

服务网格安全策略:定义和执行服务间的安全规则 一、服务网格安全策略概述 1.1 服务网格安全策略的定义 服务网格安全策略是指在服务网格中定义和执行的安全规则,用于保护服务间通信的安全性。它包括认证、授权、加密和流量控制等方面,确保服务…...