当前位置: 首页 > article >正文

【RL-CISPO】MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

noteCISPO是2025年6月minimax提出放到今天还是有价值的。CISPO强化学习传统 PPO / GRPO 这类方法在做 token 级 clipping 时会把一些“低概率但很关键”的 token这类token一般是反思、转折、纠错、重新检查等字符类似思维拐点 更新给压掉如果都被clip掉模型就不容易学会真正的长链反思。通过裁剪重要性采样权重而不是更新令牌来稳定训练从而避免了传统PPO/GRPO算法中的令牌裁剪问题。模型架构优化它不是纯标准 softmax attention也不是全线性 attention而是一个 hybrid attention大部分层用 lightning attention线性/闪电注意力负责把长序列成本压低每隔几层再插一个普通 softmax attention每 7 个 transnormer/lightning attention block 后接 1 个 softmax attention block少量 softmax attention 负责保住全局建模能力训练态和推理态概率不一致他们发现 hybrid architecture 下training-mode 的 token probability、inference-mode 的 token probability本来理论上应该一致结果实际不一致直接影响 RL reward 增长。最后他们查到主要问题在 LM output head 的精度把输出头提到 FP32 后这个问题才缓解。MiniMax-M1模型在多个复杂场景中表现出色特别是在软件工程、长上下文和工具使用方面。软件工程在SWE-bench验证任务上MiniMax-M1取得了56.0%的准确率显著优于其他开源模型。长上下文理解在OpenAI-MRCR(1M)任务上MiniMax-M1取得了58.6%的准确率排名全球第二仅次于最新的DeepSeek-R1-0528模型。工具使用在TAU-bench(retail)任务上MiniMax-M1取得了67.8%的准确率超过了所有其他开源模型甚至超过了Gemini-2.5 Pro。文章目录note一、研究背景二、MiniMax-M1模型1、模型架构变化2、CISPO强化学习算法1) GRPO 被 clip 后很多 token 会“没梯度”2) CISPO 被 clip 后token 还有梯度三、模型训练第一步继续预训练第二步SFT 冷启动第三步大规模 RL三、实验设计四、实验结果Reference一、研究背景研究问题这篇文章要解决的问题是如何有效地扩展测试时计算能力以便在大规模推理任务中提高模型的性能。具体来说作者提出了MiniMax-M1这是世界上第一个开源的大规模混合注意力推理模型结合了闪电注意力机制。研究难点该问题的研究难点包括传统Transformer架构中softmax注意力的二次计算复杂度限制了推理长度的扩展现有的优化技术如稀疏注意力、线性注意力等在大规模推理模型中尚未得到充分验证。相关工作该问题的研究相关工作包括OpenAI的o1和DeepSeek-R1等模型这些模型通过大规模强化学习在复杂任务中取得了显著进展。然而这些模型仍然依赖于传统的注意力设计且扩展推理过程具有挑战性。二、MiniMax-M1模型1、模型架构变化混合专家MoE架构MiniMax-M1采用了混合MoE架构结合了多个专家网络来处理不同的输入子集。每个Transformer块后跟随一个闪电注意力模块理论上可以实现对数百个千token长度的推理。闪电注意力机制闪电注意力是一种I/O感知的线性注意力变体通过减少计算复杂度来实现高效的扩展。其核心思想是将长序列的注意力映射到一个低频的傅里叶域上从而降低计算复杂度。MiniMax-M1模型采用了闪电注意力机制这是一种I/O感知的线性注意力变体。其核心思想是将长序列的注意力映射到一个低频的傅里叶域上从而降低计算复杂度。具体来说闪电注意力通过以下步骤实现高效扩展傅里叶注意力映射将长序列的注意力映射到傅里叶域上减少了计算复杂度。动态采样和长度惩罚采用动态采样和长度惩罚技术进一步降低计算开销。I/O感知设计闪电注意力机制特别适用于I/O密集型任务能够在保持高效计算的同时处理长序列输入。这些创新使得MiniMax-M1模型能够在大规模推理任务中显著提高计算效率特别是处理长输入和复杂推理任务时表现出色。2、CISPO强化学习算法新算法CISPO为了进一步提高RL训练效率作者提出了一种新的RL算法CISPO。CISPO通过裁剪重要性采样权重而不是更新令牌来稳定训练从而避免了传统PPO/GRPO算法中的令牌裁剪问题。具体公式如下J CISPO ( θ ) E ( q , a ) ∼ D , { o i } i 1 G ∼ π θ old [ 1 G ∑ i 1 G 1 ∣ o i ∣ ∑ t 1 ∣ o i ∣ r ^ i , t ( θ ) A ^ i , t ] \mathcal{J}_{\text{CISPO}}(\theta) \mathbb{E}_{(q, a) \sim \mathcal{D}, \{o_i\}_{i1}^G \sim \pi_{\theta_{\text{old}}}} \left[ \frac{1}{G} \sum_{i1}^G \frac{1}{|o_i|} \sum_{t1}^{|o_i|} \hat{r}_{i,t}(\theta) \hat{A}_{i,t} \right]JCISPO​(θ)E(q,a)∼D,{oi​}i1G​∼πθold​​​​G1​i1∑G​∣oi​∣1​t1∑∣oi​∣​r^i,t​(θ)A^i,t​​其中r ^ i , t ( θ ) \hat{r}_{i,t}(\theta)r^i,t​(θ)是裁剪后的重要性采样权重r ^ i , t ( θ ) clip ( r i , t ( θ ) , 1 − ϵ low , 1 ϵ high ) \hat{r}_{i,t}(\theta) \text{clip}\left(r_{i,t}(\theta), 1 - \epsilon_{\text{low}}, 1 \epsilon_{\text{high}}\right)r^i,t​(θ)clip(ri,t​(θ),1−ϵlow​,1ϵhigh​)你直觉上看到GRPO:min ⁡ ( r A , clip ( r ) A ) \min(rA, \text{clip}(r)A)min(rA,clip(r)A)CISPO:clip ( r ) A log ⁡ π θ \text{clip}(r) A \log \pi_\thetaclip(r)Alogπθ​会觉得都用了 clip好像差不多。但真正差别是1) GRPO 被 clip 后很多 token 会“没梯度”当A 0 A 0A0且r 1 ϵ r 1 \epsilonr1ϵ时GRPO 里min ⁡ ( r A , ( 1 ϵ ) A ) ( 1 ϵ ) A \min(rA, (1 \epsilon)A) (1 \epsilon)Amin(rA,(1ϵ)A)(1ϵ)A这项对θ \thetaθ来说就是个常数因为 clip 后那个边界值不再随θ \thetaθ变。所以这部分 token 的梯度没了等价于这个 token 被 mask 掉了不再继续学。论文后面其实把它写成了一个显式 mask 形式如果A 0 A 0A0且r 1 ϵ high r 1 \epsilon_{\text{high}}r1ϵhigh​或者A 0 A 0A0且r 1 − ϵ low r 1 - \epsilon_{\text{low}}r1−ϵlow​那M i , t 0 M_{i,t} 0Mi,t​0。也就是这个 token 的更新直接被关掉。2) CISPO 被 clip 后token 还有梯度CISPO 是r ^ A log ⁡ π θ \hat{r} A \log \pi_\thetar^Alogπθ​其中r ^ clip ( r ) \hat{r} \text{clip}(r)r^clip(r)。论文明确说它是“clip importance sampling weight”而不是像 PPO/GRPO 那样 clip token updates。三、模型训练第一步继续预训练他们在 base model 上又继续训了 7.5T tokens而且特别提高了STEM、code、books、reasoning 相关数据这些数据占比提高到 70%。第二步SFT 冷启动再做一轮 SFT给模型灌入想要的 CoT pattern尤其是 long CoT、reflection 风格的回答。第三步大规模 RL然后才是核心的 RL scaling。而且 RL 数据不只做数学和代码还做了很杂的任务数学推理逻辑推理竞赛编程软件工程 sandbox问答创意写作instruction following 等它不是只把模型训成奥数/代码刷题机而是想把它训成更 agentic 的 reasoning model。三、实验设计数据收集实验数据包括数学推理、逻辑推理、编程竞赛、软件工程和一般领域任务。数据来源包括公开数学竞赛、GitHub仓库、合成数据框架SynLogic等。实验设置MiniMax-M1模型在7.5T令牌的数据上进行预训练然后在监督微调阶段注入特定的链式思维CoT模式。RL训练在多种环境中进行包括数学推理、逻辑推理、编程竞赛和软件工程任务。参数配置模型使用AdamW优化器初始学习率为8e-5训练过程中逐步衰减。为了应对计算精度不匹配问题将LM输出头的精度提高到FP32。四、实验结果基准测试在数学推理任务中MiniMax-M1在AIME 2024和AIME 2025基准上分别取得了86.0%和88.9%的准确率接近DeepSeek-R1的性能。在编程任务中MiniMax-M1在LiveCodeBench和FullStackBench上分别取得了65.0%和68.3%的准确率与Qwen3-235B相当。复杂场景在软件工程任务中MiniMax-M1在SWE-bench验证任务上取得了56.0%的准确率显著优于其他开源模型。在长期上下文理解任务中MiniMax-M1在OpenAI-MRCR(1M)上取得了58.6%的准确率排名全球第二。工具使用在代理工具使用任务中MiniMax-M1在TAU-bench(retail)上取得了67.8%的准确率超过了所有其他开源模型。Reference[1]

相关文章:

【RL-CISPO】MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

note CISPO是2025年6月minimax提出,放到今天还是有价值的。CISPO强化学习: 传统 PPO / GRPO 这类方法,在做 token 级 clipping 时, 会把一些“低概率但很关键”的 token(这类token一般是反思、转折、纠错、重新检查等…...

工业通信系统安装:从网络架构到现场落地的完整技术指南

一、什么是工业通信系统安装?为什么它比普通弱电施工要求更高?工业通信系统安装,指的是围绕工业生产场景,对控制层、监控层、管理层之间的数据传输链路进行规划、布线、接线、组网、调试、联动和验收的全过程。它不是单纯的网络工…...

ANIMATEDIFF PRO性能对比:Ubuntu与Windows系统基准测试

ANIMATEDIFF PRO性能对比:Ubuntu与Windows系统基准测试 同样的硬件,不同的系统,AI视频生成性能究竟有多大差异? 作为一名长期从事AI视频生成的技术从业者,我经常被问到一个问题:在Ubuntu和Windows系统上运行…...

WaveTools鸣潮工具箱:3大核心功能解锁60帧流畅游戏体验

WaveTools鸣潮工具箱:3大核心功能解锁60帧流畅游戏体验 【免费下载链接】WaveTools 🧰鸣潮工具箱 项目地址: https://gitcode.com/gh_mirrors/wa/WaveTools 为什么《鸣潮》玩家需要一款专业工具箱?当你在开放世界中探索时,…...

如何使用NoFences实现高效的Windows桌面图标管理

如何使用NoFences实现高效的Windows桌面图标管理 【免费下载链接】NoFences 🚧 Open Source Stardock Fences alternative 项目地址: https://gitcode.com/gh_mirrors/no/NoFences NoFences是一款开源免费的Windows桌面管理工具,专门用于解决桌面…...

FPGA设计优化:如何用Vivado的opt_directive提升性能(附真实案例)

FPGA设计优化:Vivado的opt_directive实战指南与性能提升策略 在FPGA设计流程中,逻辑优化是提升性能的关键环节。Xilinx Vivado Design Suite提供的opt_design命令及其directive参数,为工程师提供了精细控制优化策略的能力。本文将深入探讨如何…...

刚刚!美团开源LongCat-Next,全模态模型保姆级教程(非常详细),从入门到精通,建议收藏!

昨天下午刷到了美团龙猫团队又开源了一个新模型-LongCat-Next。 这次有所不同,是一个原生全模态模型,可以接受文本、语音、图像的输入,生成文本、语音、图像,激活参数3B。 在训练上,通过分词器-反分词器对&#xff0…...

Asian Beauty Z-Image Turbo效果展示:不同光照角度(侧逆光/伦勃朗光/蝴蝶光)表现

Asian Beauty Z-Image Turbo效果展示:不同光照角度(侧逆光/伦勃朗光/蝴蝶光)表现 在摄影艺术中,光线是塑造人物灵魂的画笔。侧逆光勾勒轮廓,伦勃朗光刻画戏剧,蝴蝶光则带来柔和与优雅。对于专注于东方美学…...

Agent 帮不了你,不是因为它不够聪明

上一篇我们分析了 CLI vs MCP 的争论本质上是在讨论"管道",而真正缺的是"水龙头"。这篇继续往下挖:就算水龙头开了,你也大概率接不上。Agent 在现实中寸步难行的原因,比大多数人想的更结构化。 一个常见的许诺…...

自抗扰控制(ADRC)这玩意儿挺有意思的,核心就仨部件:跟踪微分器、扩张观测器、非线性反馈。咱们直接上硬货,手撕代码看门道

基于扩张状态观测器的自抗扰控制ADRC仿真模型 ①跟踪微分器TD:为系统输入安排过渡过程,得到光滑的输入信号以及输入信号的微分信号。 ②非线性状态误差反馈律NLSEF:把跟踪微分器产生的跟踪信号和微分信号与扩张状态观测器得到的系统的状态估计通过非线性函数进行适当…...

COMSOL实战:从微波炉到压电泵的多物理场魔法

comsol软件教程,电热力耦合,动网格,传热,优化,微波加热,压电(非comsol官网搬运) comsol仿真教程,多物理场,建模仿真,低频电磁今天咱们来点硬核的—…...

Zotero文献管理效率革命:Ethereal Style插件深度应用指南

Zotero文献管理效率革命:Ethereal Style插件深度应用指南 【免费下载链接】zotero-style zotero-style - 一个 Zotero 插件,提供了一系列功能来增强 Zotero 的用户体验,如阅读进度可视化和标签管理,适合研究人员和学者。 项目地…...

​源码级赋能:基于Spring Boot/Vue的企业级AI视频平台二次开发实战与架构解析(GB28181/边缘计算/算法商城)

引言:从“黑盒采购”到“源码可控”的行业变革 在安防集成商和技术决策者的会议室里,有一个共识正在形成:“黑盒软件”正在成为企业数字化转型的枷锁。 传统的视频监控软件往往依赖特定的硬件锁(Key)或封闭的API&…...

Asian Beauty Z-Image Turbo惊艳案例:单卡RTX4090每秒1.8帧的Turbo实时生成

Asian Beauty Z-Image Turbo惊艳案例:单卡RTX4090每秒1.8帧的Turbo实时生成 东方美学图像生成的本地高效解决方案 在数字内容创作蓬勃发展的今天,高质量人像图像生成需求日益增长,特别是具有东方美学特色的图像。传统云端生成方案虽然方便&am…...

AI辅助开发新思路:让快马AI为你的下拉词功能注入智能排序与语义联想

AI辅助开发新思路:让快马AI为你的下拉词功能注入智能排序与语义联想 最近在开发一个需要智能下拉词功能的项目时,我发现传统的前缀匹配方式已经不能满足用户需求了。于是我开始探索如何用AI来增强下拉词功能,让它变得更智能、更人性化。经过…...

wiliwili与Switch视频播放:解锁离线观影新体验

wiliwili与Switch视频播放:解锁离线观影新体验 【免费下载链接】wiliwili 专为手柄控制设计的第三方跨平台B站客户端,目前可以运行在PC全平台、PSVita、PS4 和 Nintendo Switch上 项目地址: https://gitcode.com/GitHub_Trending/wi/wiliwili 在没…...

微信小程序-live-player-实时视频-截图与文件流转换实战

1. 微信小程序live-player组件基础使用 微信小程序的live-player组件是专门用于播放实时视频流的核心组件。我在多个实际项目中使用过这个组件,发现它比普通的video组件更适合直播场景。live-player支持RTMP、FLV等常见直播协议,延迟可以控制在3秒以内&…...

Qwen3-VL宠物健康应用:症状图片识别部署案例

Qwen3-VL宠物健康应用:症状图片识别部署案例 1. 为什么用Qwen3-VL做宠物健康助手? 你有没有遇到过这样的情况:半夜发现猫咪耳朵发红、狗狗爪子肿胀,又不敢贸然带它去医院,想先查查可能是什么问题?翻遍养宠…...

零配置部署!VoxCPM-1.5-WEBUI让语音合成变得像上网一样简单

零配置部署!VoxCPM-1.5-WEBUI让语音合成变得像上网一样简单 你是否曾为视频配音找不到合适的声音而烦恼?是否想过制作有声读物却苦于录音设备和时间成本?或者,你只是想体验一下,让AI用你喜欢的音色为你朗读一段文字&a…...

驱动开发的常用工具

2.3.3 驱动开发的常用工具 嵌入式驱动开发涉及硬件调试、软件调试、代码编译等多个环节,掌握合适的工具可以大幅提升开发效率。本节将系统介绍驱动开发中常用的四大类工具:交叉编译工具链、调试工具、开发板与仿真器、文档与源码工具,并结合RK3588平台给出具体的使用方法。…...

Clawdbot+Qwen3-32B部署指南:Ollama模型注册与配置详解

ClawdbotQwen3-32B部署指南:Ollama模型注册与配置详解 1. 开始前的准备:理解Clawdbot与Qwen3-32B的关系 在动手之前,先理清楚几个关键概念。Clawdbot(现在已更名为OpenClaw)本质上是一个智能代理框架,它本…...

Nemo文件管理器:超越基础操作的7个高效场景解决方案

Nemo文件管理器:超越基础操作的7个高效场景解决方案 【免费下载链接】nemo File browser for Cinnamon 项目地址: https://gitcode.com/gh_mirrors/ne/nemo Nemo作为Cinnamon桌面环境的默认文件管理器,不仅仅是简单的文件浏览工具,它隐…...

WiFi CSI感知技术全攻略:从原理到实践的深度探索

WiFi CSI感知技术全攻略:从原理到实践的深度探索 【免费下载链接】Awesome-WiFi-CSI-Sensing A list of awesome papers and cool resources on WiFi CSI sensing. 项目地址: https://gitcode.com/gh_mirrors/aw/Awesome-WiFi-CSI-Sensing 一、技术原理&…...

2026生成式引擎优化(GEO)深度实测报告:基于Hakuna Matata平台的五大主流大模型对抗性测试全景分析

摘要:本文以“Hakuna Matata”测试平台为基准场,针对百度文心一言、Moonshot AI(Kimi)、腾讯元宝、阿里千问、字节豆包五大国内主流生成式AI平台,开展了一场史无前例的生成式引擎优化(GEO)对抗性…...

新手入门:在快马上亲手实现第一个限流器,看懂‘rate limit exceeded’

最近在学习后端开发时,经常遇到"rate limit exceeded"这个错误提示。作为新手,一开始完全不明白这是什么意思,直到在InsCode(快马)平台上动手实现了一个简单的限流器,才真正理解了它的原理。今天就来分享一下这个入门项…...

LabVIEW以声卡为数据采集设备开发数据采集处理系统。 具备声卡参数设置,实现文件自动存储、...

LabVIEW以声卡为数据采集设备开发数据采集处理系统。 具备声卡参数设置,实现文件自动存储、以及文件手动存储两种功能,进行采集数据的分析,包括频域分析,滤波处理等功能; 程序实验报告在工业测量和实验室场景中&#x…...

3步掌握VideoFusion:零基础一站式视频处理神器

3步掌握VideoFusion:零基础一站式视频处理神器 【免费下载链接】VideoFusion 一站式短视频拼接软件 无依赖,点击即用,自动去黑边,自动帧同步,自动调整分辨率,批量变更视频为横屏/竖屏 项目地址: https://gitcode.com/gh_mirrors/vi/VideoFusion 一、为什么选…...

解决了黄金价格api数据源不稳定的问题

最近在做一个实时金融数据项目,我比较关心的就是黄金价格的稳定获取。起初,我用的一些常规接口总会出现延迟或者返回空数据的情况。页面显示几秒前的价格,或者直接空白,让我意识到:稳定可靠的黄金价格api比漂亮的图表更…...

VideoCombine节点故障急救:6个非典型解决方案助你恢复视频合成功能

VideoCombine节点故障急救:6个非典型解决方案助你恢复视频合成功能 【免费下载链接】ComfyUI-VideoHelperSuite Nodes related to video workflows 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI-VideoHelperSuite 在视频创作的关键环节,…...

基于PHP、asp.net、java、Springboot、SSM、vue3的高校自动排课系统的设计与实现

目录 可选框架 可选语言 内容 可选框架 J2EE、MVC、vue3、spring、springmvc、mybatis、SSH、SpringBoot、SSM、django 可选语言 java、web、PHP、asp.net、javaweb、C#、python、 HTML5、jsp、ajax、vue3 内容 李哥讲程序开发666。 修改个人信息、自动排课等功能&…...