当前位置: 首页 > article >正文

不卷跑分不养虾,MiniMax M2.7 带来了一个真正能打的 Cowork Agent

3月18日晚Minimax 悄悄上了波大分。更新了其最新的M2.7版本并且官方还给出了一个核心定义M2.7是 MiniMax 第一代深度参与自身进化的模型。其不仅在指令遵循、办公协同、Coding 方面有明显提升更重要的是它能够自主搭建 Agent Harness。也就是说它能搭出一套完整的任务框架调用各种技能和工具解决单个模型搞不定的问题思考干活两手抓妥妥的“自我进化”。但这不是光说不练Minimax还甩出了可验证的测试数据。在测试中测试员给它甩在了MLE Lite 22道高难度竞赛中M2.7取得了9金5银1铜的成绩仅次于Opus-4.6、GPT-5.4与Gemini-3.1持平。另外在当下行业最关注的 Agent 真实任务执行能力评测上M2.7 的表现同样出圈。在基于标准化 OpenClaw Agent 测试的 PinchBench 榜单中刚发布的 M2.7 快速登顶以 86.2% 的任务成功率击败英伟达 Nemotron 3拿下了 Best score 榜单的全球第四名仅次于 Claude Sonnet 4.6、GPT-5.4、Claude Opus 4.6刷新了国内大模型在该榜单的最好成绩。而此次更新仅仅距离 M2.5 过去一个月。接连刷新的榜单、肉眼可见的能力跃升都在印证一件事大模型的能力已经不仅仅局限于答题、写代码的基础能力正在向自主规划、自主迭代进化。尤其是 OpenClaw 爆火后大家更在意的已经不是模型能不能写代码了而是接进真实工作流以后到底好不好用。说白了就是把模型和工具真正接起来跑任务之后它会不会掉链子能不能把事情接着往下做。OpenClaw 本身就是冲着这种用法去的所以现在大家都在找一个更合适的大模型接入。我们第一时间拿到了上手评测的机会。这一次我们核心要验证的只有一件事接入 OpenClaw 之后M2.7 的真实体验到底如何M2.7 到底是不是现在国内最好的 Cowork Agent长链路任务的稳定性才是真分水岭最近 OpenClaw 这波热度大家应该都感受得到。现在模型能接进去真不算新鲜事了真正开始拉开差距的是接进去以后到底好不好使。任务短的时候很多模型都还能装得挺像样一旦开始挂 skills、开始叠约束、开始把流程拉长问题就出来了前面条件没吃透后面补充一句它就乱做到一半直接掉线。OpenClaw 本来就是冲着把模型和工具、会话、任务链路接起来去的所以放在这个环境里测反而更容易看出一个模型到底靠不靠谱。第一个任务是一道约束很多的龙虾活动题预算、人群、渠道、门店承载、风险和备选方案全都提前卡死重点就看它会不会先把条件理清再往下拆。M2.7 这一步给我的感觉还不错没有急着往外发散而是先把约束捞出来再拆任务再给方案这种起手方式就比较让人放心。而这也正是 M2.7 本次升级的核心强化方向 —— 复杂长链路任务的承接与落地实测下来的表现的确不俗。接着我把任务再拉长一点。先给一版基础方案然后一轮一轮往上加条件不能打折、供应链有限、门店人手少、目标人群变了最后再加一个更像真实业务会提的要求希望这套活动下个月还能复用成 SOP。全程下来M2.7 没有出现很多模型常见的 “一加需求就推翻重写” 的问题始终能沿着初始的核心逻辑持续优化迭代这一点对于长流程工作流来说至关重要。第三轮迭代中它出现了短暂的卡顿能看出超长链路中仍有小幅波动但在追问之后它快速补齐了所有内容包括最小可复用版本、标准化执行环节、人工决策节点完整承接没有出现信息遗漏。跑完这两组全链路任务M2.7 在 OpenClaw 里的表现已经非常清晰它最核心的价值不是单轮输出多么惊艳的答案而是任务启动时逻辑清晰、链路拉长后不易散架、多轮迭代中不丢约束。在真实的工作流里这种稳定的持续交付能力远比单轮的华丽输出重要得多。而在复杂长链路任务的承接上M2.7 已经交出了国内最好的 Cowork Agent该有的满分答卷。代码能力全场景验证从 “写代码” 到 “做项目” 的工程化跃升真要看编程能力还是得把项目丢过去。MiniMax 这次公开给出的方向里Coding 的位置明显更靠前。官方数据显示在 SWE-Pro 基准测试中M2.7 得分 56.22%无限接近 Claude Opus 的顶级水平在端到端完整项目交付的 VIBE-Pro 测试中得分 55.6%在复杂工程系统理解的 Terminal Bench 2 测试中得分 57.0%。更重要的是它的能力早已跳出了单纯的代码生成延伸到了日志分析、Bug 定位、故障排障、工程重构等高阶开发领域而这种变化在实测中有着极为直观的体感。在前端测试环节我们给出了一个品牌展示官网的全量开发需求这个任务的难度并非简单的页面拼接 ——它会包含品牌调性、视觉配色、页面节奏、交互动效、粒子特效等多个维度并且多个维度必须同时达标最终产出的才是一个能真正商用的官网。很多模型在这里最容易翻车的。而 M2.7 的表现也超出了我的意料尤其是配合官方 Skill 协同运行时页面的完成度直接拉满完全没有常见的模板化痕迹视觉层次、品牌配色、交互动效完全统一最终交付的是一个可以直接上线使用的完整站点而非零散的代码片段。在后端测试环节我给 M2.7 的不是补几段接口代码的小任务而是一个从零开始往下搭的真实项目。技术栈用的是 Python、FastAPI 和 PostgreSQL里面既有接口、数据模型、鉴权这些基础环节也有迁移、测试、文档和后续排障。这类任务真正难的地方不在代码量而在上下文要一直对得上前面定下来的结构后面每一步都不能乱。 M2.7 这一轮最让人惊喜的一点就是它在这种连续工程任务中更像是资深开发的项目管理思维而非单纯的代码生成工具先搭好完整的项目骨架再逐层补齐数据库设计、业务接口、测试用例、接口文档项目上线跑通后遇到问题还能自主排查、快速修复全程逻辑连贯没有出现任何架构跑偏、上下文脱节的问题。M2.7 这次编程能力最明显的变化不是某个点突然特别炸而是工程感更强了。前端会往展示结果上收后端也能按项目节奏一路往下推。现在模型会写代码已经不稀奇了真正有价值的是项目跑起来之后还能不能继续跟。就这一点看M2.7 已经不只是一个会生成代码的模型了而是在往真正能参与开发流程的 Cowork Agent 方向走。放到国内这批模型里这种工程参与感其实很少见。办公自动化全链路考验覆盖完整知识工作流的协同能力Office 自动化这块我没有拿简单表格来试而是直接上了一条完整链路。先生成一套模拟经营数据再基于数据做复杂金融图表最后把图表和数据整理成网页数据报告。这里测的已经不是会不会写公式而是数据、图表、分析和展示能不能连成一套结果。M2.7 这一轮的表现比较扎实。数据生成不是随便拼数字收入、利润率、现金流、营收这些指标之间有基本逻辑图表也不是简单折线图而是把几个关键经营指标放进同一个分析画面里信息密度和重点都够。继续往下做网页报告时它也没有停在把图贴上去而是把核心结论、风险点和管理建议一起整理出来最后形成的是一份能直接展示的页面不是一堆零散素材。它现在展现出来的已经不是基础表格处理能力了而是复杂 Office 自动化能力。数据清洗、图表生成、分析归纳、汇报整理这一整条链路它都能继续往下做多轮修改之后结构也没有明显散掉。放到真实办公场景里这种表现比单独会做 Excel、会写报告更有参考价值因为它开始覆盖的是更完整的知识工作流程。从能力边界来看M2.7 的能力已经不只是停留在办公整理层面。其不仅能完整落地企业经营分析全链路任务并且对于资料归纳、研究链路梳理、专业分析与结果汇总这类更高阶的知识工作也能轻松完成。最佳 Cowork Agent 来了吗这一轮测下来M2.7 给我最明显的感觉已经不只是编程能力继续往上走了一点真正拉开差距的地方在于它对智能体工作流的支持更完整了。尤其放进 OpenClaw 之后这种变化会更明显。任务交过去它不只是给一段回答很多时候是真的能顺着任务往下做过程中也没那么容易散。单看这一点我会直接把 M2.7 放在国内最好 Cowork Agent 的位置上。如果用几句话概括 M2.7 这次最值得看的地方核心还是连续性、稳定性和落地感。不过更值得注意的是它这次已经开始显出自我迭代能力。官方给出的路径很清楚不只是让模型调用 Agent Harness 干活而是让它基于短时记忆、自反馈和自优化去反复调整自己的做事方法。内部脚手架优化里M2.7 可以连续跑超过 100 轮分析失败轨迹、规划改动、修改代码、回跑评测、对比结果再决定保留还是回退内部评测效果提升 30%。放到更重的机器学习任务里它在 MLE Bench Lite 22 个任务上拿到 9 金 5 银 1 铜平均得牌率 66.6%。这说明它已经不只是执行任务也开始参与优化完成任务的路径。当下整个行业都在跟风适配 OpenClaw忙着教模型怎么用好人类打造的工具却很少有人真正去突破模型的能力边界 —— 让模型自己造工具、自己搭框架、自己完成迭代进化。M2.7 自主搭建 Agent Harness 的能力本质上是让模型拥有了自主打造 “任务操作台” 的能力它不再局限于人类给定的工具与框架而是能根据任务需求自主搭建完整的任务执行体系调度多智能体协同作业甚至能通过自反馈、自优化持续迭代这套体系本身。更重要的是它已经深度参与到了 MiniMax 自身的模型研发流程中成为了下一代模型研发的核心参与者真正实现了 “模型训练模型” 的正向循环。这种自我迭代的技术创新不仅让 M2.7 坐稳了国内最好 Cowork Agent 的位置更提前抢占了下一代大模型竞争的核心分水岭开启了大模型自主进化的全新纪元。显然M2.7 更适合那些已经不满足于简单问答的人。独立开发者、全栈工程师、产品型开发者或者本来就会把模型接进自己工作流的人用起来会更容易感受到它的价值。因为这类用户真正关心的从来不是模型会不会说几句聪明话而是能不能把任务拆开、持续推进、出问题后继续修正最后把结果交出来。借着M2.7我们似乎也看到了最强的 Cowork Agent 长什么样子或许在未来我们能看到 AI 能承接更多的任务解决更复杂的任务。如果你当下正在关注 OpenClaw 的生态或是正在寻找一款接入后足够顺手、足够能打、能真正融入工作流的大模型M2.7 绝对值得你亲自上手实测。体验地址如下快来试试吧MiniMax Agentagent.minimaxi.comToken Plan 订阅https://platform.minimaxi.com/subscribe/token-plan

相关文章:

不卷跑分不养虾,MiniMax M2.7 带来了一个真正能打的 Cowork Agent

3月18日晚,Minimax 悄悄上了波大分。 更新了其最新的M2.7版本,并且官方还给出了一个核心定义:M2.7,是 MiniMax 第一代深度参与自身进化的模型。 其不仅在指令遵循、办公协同、Coding 方面有明显提升,更重要的是它能够…...

STC89C52单片机最小系统搭建全攻略(附电路图+代码示例)

STC89C52单片机最小系统实战指南:从电路设计到代码调试 1. 最小系统核心电路解析 STC89C52作为经典的8051架构单片机,其最小系统搭建是每个电子爱好者必须掌握的技能。与AT89C51相比,STC89C52在内部资源(如8K Flash、256字节RAM&a…...

突破性能瓶颈:Firecrawl批量抓取系统的千级URL并发处理实战指南

突破性能瓶颈:Firecrawl批量抓取系统的千级URL并发处理实战指南 【免费下载链接】firecrawl 🔥 Turn entire websites into LLM-ready markdown 项目地址: https://gitcode.com/GitHub_Trending/fi/firecrawl 在当今数据驱动的时代,高…...

【花雕动手做】拆解德国微型20mm外转子无刷带霍尔三级行星减速电机5-12V稀土中强磁

来自德国原装设备的全新拆机款 ——20mm 外转子无刷带霍尔行星减速电机,虽为塑料机身,却凭借德系严苛用料与精工设计,搭配稀土中强磁磁钢与三级减速结构,在小体积里实现了低转速、大扭矩的出色表现。本次拆解,带你看清…...

Panfrost驱动架构解析:从Mali-GPU硬件到Linux开源实现

1. Mali GPU架构演进与Panfrost的诞生背景 第一次接触Mali GPU是在调试一块开发板时发现的——明明硬件参数写着支持OpenGL ES 3.0,运行3D应用却频繁崩溃。后来才明白,这块板子用的Mali-T860 GPU虽然硬件达标,但厂商提供的闭源驱动只支持到O…...

【花雕动手做】华航 HOTRC DS600 6 通道单手遥控器

华航 HOTRC DS600 6 通道单手遥控器 一、产品定位 DS600 是华航 HOTRC 出品的 2.4GHz 6 通道单手数字遥控系统,采用单手手枪式轻量化设计,搭配小型 LCD 状态屏,自带定速巡航、混控、失控保护,专为车船、低速工程模型、DIY 智能小车…...

SpringBoot + MyBatis 实战:从零搭建一个用户管理系统(附完整代码)

SpringBoot MyBatis 实战:从零搭建企业级用户管理系统 在当今快速发展的互联网时代,用户管理系统作为各类应用的基础组件,其开发效率和稳定性直接影响着整个项目的成败。SpringBoot以其"约定优于配置"的理念,配合MyBa…...

fanqienovel-downloader:构建个人数字阅读库的全场景解决方案

fanqienovel-downloader:构建个人数字阅读库的全场景解决方案 【免费下载链接】fanqienovel-downloader 下载番茄小说 项目地址: https://gitcode.com/gh_mirrors/fa/fanqienovel-downloader 现象剖析:数字阅读时代的隐性痛点 场景还原&#xff…...

手把手教你用SOEM和SOES搭建EtherCAT主从站(基于LAN9252/9253)

基于SOEM/SOES的EtherCAT主从站开发实战指南 1. 环境准备与硬件选型 在工业自动化领域,EtherCAT以其卓越的实时性能和灵活的拓扑结构成为主流现场总线协议之一。对于开发者而言,使用开源库SOEM(主站)和SOES(从站&#…...

基于STM32的智能超声波测距与多级报警系统开发(附仿真与源码)

1. 项目背景与核心功能 超声波测距技术在现代智能设备中的应用越来越广泛,从智能家居到工业自动化都能看到它的身影。这次我们要做的项目,是用STM32单片机搭配HC-SR04超声波传感器,打造一个带有多级报警功能的测距系统。这个系统不仅能实时测…...

B站Index-AniSora动漫视频生成模型实战:从零部署到二次元创作全流程解析

1. Index-AniSora模型初探:二次元创作者的AI神器 第一次听说B站开源的Index-AniSora模型时,我正在为一个同人动画项目发愁。传统动画制作需要逐帧绘制,光是5秒的镜头就可能耗费数天时间。而这个号称"最强动漫视频生成"的AI工具&…...

汇川PLC通讯协议避坑指南:H2u与H3u的地址映射与常见错误解析

汇川PLC通讯协议避坑指南:H2u与H3u的地址映射与常见错误解析 在工业自动化领域,汇川PLC以其稳定性和性价比赢得了广泛的市场认可。然而,对于许多工程师来说,H2u和H3u系列PLC的通讯协议地址映射问题却是一个令人头疼的"暗礁&q…...

MATLAB小白也能懂的LTI系统时域分析:从零输入响应到阶跃响应全攻略

MATLAB零基础玩转LTI系统时域分析:从微分方程到响应曲线实战指南 刚接触信号与系统课程时,看到那些复杂的微分方程和响应曲线总让人望而生畏。但别担心,今天我们就用MATLAB这把"瑞士军刀",带你轻松拆解LTI(线…...

IDEA开发环境调试LongCat-Image-Edit V2 Java应用

IDEA开发环境调试LongCat-Image-Edit V2 Java应用 1. 引言 作为一名Java开发者,当你听说LongCat-Image-Edit V2这个强大的图像编辑模型时,第一反应可能是:怎么在我的IDEA里快速跑起来?确实,在本地开发环境中调试AI应…...

打破所有纪录的AI助手,却引发了安全恐慌

如果你还没听说过OpenClaw,那你很快就会知道了。2026年3月,这款AI助手成为史上增长最快的开源项目,GitHub星标数突破25万——这一里程碑,Linux操作系统花了数年才达成。但在其爆火后的短短几周内,政府机构便发布了安全…...

OnmyojiAutoScript:解放双手的阴阳师智能自动化助手

OnmyojiAutoScript:解放双手的阴阳师智能自动化助手 【免费下载链接】OnmyojiAutoScript Onmyoji Auto Script | 阴阳师脚本 项目地址: https://gitcode.com/gh_mirrors/on/OnmyojiAutoScript 阴阳师玩家们是否厌倦了日复一日的重复操作?刷御魂、…...

SM3加密算法实战:从零实现32位哈希值生成(附完整C++代码)

SM3加密算法实战:从零实现32位哈希值生成(附完整C代码) 在当今数据安全领域,哈希算法扮演着至关重要的角色。作为中国自主研发的密码学哈希标准,SM3算法以其高安全性和高效性在金融、政务等领域得到广泛应用。本文将带…...

无需训练数据!RexUniNLU零样本抽取实战,效果超预期

无需训练数据!RexUniNLU零样本抽取实战,效果超预期 1. 零样本理解:NLP领域的新范式 在传统自然语言处理项目中,我们常常陷入一个困境:为了从文本中抽取特定信息,必须先收集大量标注数据,然后训…...

Matplotlib子图标注神器:用transAxes实现跨图统一位置标注(附完整代码)

Matplotlib子图标注神器:用transAxes实现跨图统一位置标注(附完整代码) 当我们需要在多个子图中展示不同范围的数据时,经常会遇到一个棘手的问题:如何在每个子图的相同相对位置添加标注?比如在2x3的子图矩阵…...

SDXL-Turbo实战案例:插画师用实时反馈优化线稿→上色→特效全流程

SDXL-Turbo实战案例:插画师用实时反馈优化线稿→上色→特效全流程 1. 开篇:重新定义AI绘画工作流 作为一名插画师,你是否曾经遇到过这样的困扰:脑海中有一个绝妙的创意,但在AI绘画工具中输入提示词后,需要…...

DDR5内存调优实战:手把手教你用MRW/MRR命令配置模式寄存器

DDR5内存调优实战:模式寄存器配置与信号完整性优化 当DDR5内存以6400MT/s的速率运行时,每个数据位的传输窗口仅有0.156纳秒。在这个比光传播50厘米所需时间还短的瞬间里,任何信号完整性问题都可能导致灾难性的误码。这就是为什么现代DDR5系统…...

【小白量化智能体】实战:从通达信指标到Python可视化分析的自动化实现

1. 为什么需要量化智能体? 刚接触量化交易的朋友们经常会遇到这样的困扰:看到通达信里各种炫酷的技术指标,想自己动手改一改或者组合创新,但面对复杂的公式语法总是无从下手。好不容易写出来一个指标,想用Python做更深…...

对比评测:BEYOND REALITY Z-Image如何让AI人像拥有摄影级质感?

对比评测:BEYOND REALITY Z-Image如何让AI人像拥有摄影级质感? 1. 评测背景与模型介绍 在AI图像生成领域,写实人像一直是最具挑战性的任务之一。传统模型往往难以平衡生成速度与画面质量,直到BEYOND REALITY Z-Image的出现改变了…...

使用Dify快速搭建DeOldify图像上色AI应用工作流

使用Dify快速搭建DeOldify图像上色AI应用工作流 你是不是也翻出过家里的老照片,看着那些泛黄、褪色的影像,想象着它们原本的色彩?或者,作为一个内容创作者,手头有一些黑白素材,却苦于没有专业工具或技能去…...

从零开始理解IEC104协议:电力系统通信的底层逻辑与报文解析

从零开始理解IEC104协议:电力系统通信的底层逻辑与报文解析 在数字化电力系统的架构中,通信协议如同神经网络般连接着各类自动化设备。当变电站的遥测数据需要实时上传,或调度中心发出远程控制指令时,IEC104协议便是确保这些关键信…...

GitHub中文化插件:打破语言障碍,让全球最大开发者社区说你的母语

GitHub中文化插件:打破语言障碍,让全球最大开发者社区说你的母语 【免费下载链接】github-chinese GitHub 汉化插件,GitHub 中文化界面。 (GitHub Translation To Chinese) 项目地址: https://gitcode.com/gh_mirrors/gi/github-chinese …...

手把手教你用W25Qxx Flash芯片存储数据(附SPI配置避坑指南)

嵌入式开发实战:W25Qxx Flash芯片SPI存储全解析与避坑指南 在嵌入式系统开发中,外部存储扩展是提升设备数据能力的核心环节。W25Qxx系列SPI Flash以其高性价比、低功耗和易用性,成为众多开发者的首选。但初次接触这类存储芯片时,不…...

基于CODESYS平台的S7客户端与西门子PLC通讯源码

基于CODESYS平台的S7客户端与西门子PLC通讯源码工业现场的数据通讯就像车间里的八卦,设备之间总得互相传点悄悄话。今天咱们聊聊CODESYS平台下用C语言搞S7协议通讯的黑科技——别看西门子PLC平时一副高冷样,其实撩拨起来也没那么难。先甩段硬核代码镇楼&…...

探索Avalonia跨平台UI框架:构建现代化多媒体应用的核心实践

探索Avalonia跨平台UI框架:构建现代化多媒体应用的核心实践 【免费下载链接】Avalonia AvaloniaUI/Avalonia: 是一个用于 .NET 平台的跨平台 UI 框架,支持 Windows、macOS 和 Linux。适合对 .NET 开发、跨平台开发以及想要使用现代的 UI 框架的开发者。 …...

如何按作者检索论文?找领域大佬必会

当你刚进入一个研究领域时,最常见的检索方式往往是从关键词开始。打开数据库,输入研究主题,然后下载几十篇甚至上百篇论文,看起来文献已经积累了不少。但随着阅读逐渐深入,你很快会发现一个现象:有些作者的…...