当前位置: 首页 > article >正文

MiniMax V-Triune让强化学习(RL)既擅长推理也精通视觉感知

MiniMax 近日在github上分享了技术研究成果——V-Triune,这次MiniMax V-Triune的发布既是AI视觉技术也是应用工程上的一次“突围”,让强化学习(RL)既擅长推理也精通视觉感知,其实缓解了传统视觉RL“鱼和熊掌不可兼得”的尴尬。

之前AI视觉语言大模型(VLMs)在训练时存在个普遍的问题:

只会推理不会感知,或者只会感知不会推理,真的无解。

比如,某些AI模型能很好地解决数学题、编程等推理任务,却在目标检测、图片识别、OCR(图片文字识别)等简单视觉任务上表现一般;而专注视觉感知类任务的模型,遇到需要深度推理和思考的问题时就如同降智一般。

举个生活中的例子,班级里有的同学只会做数学题,却看不懂试卷上的图片;另一些同学能看懂试卷上的图片,却做不出一道数学题,作为老师是不是神烦。现在一个名叫V-Triune的学霸来了,既会做数学题也能看懂所有图片,拿了高分。

这个问题的根源在于,传统的强化学习(RL)方法只能针对任务单一、类型相近的数据进行训练,因为推理任务和感知任务在数据格式、评价标准、奖励机制等方面差异很大,导致RL很难“一心二用”,就像西游降魔篇里的天残脚一样。

MiniMax团队提出的V-Triune系统踏踏实实解决了这一问题,首次把视觉推理和感知训练结合在了一起。

我看了论文,它主要干了下面三件事:

  • 样本级数据格式,让每种任务(不管是推理还是视觉识别)都能有自己的训练规则;
  • 验证器级奖励机制,为不同任务设计特定的评分标准;
  • 数据源级指标监控,实时跟踪各类任务的表现,及时纠正模型。

此外,V-Triune还提出了“动态IoU奖励”,可以理解为阶梯递进式奖励,让模型在学习图片识别时,从“及格线”逐步爬到“满分线”。

因此,V-Triune让RL“鱼和熊掌兼得”:不仅推理能力强,像解奥数题一样严谨,还能看懂图片、识别物体、数清数量、读懂图片里的文字。

基于V-Triune训练出来的Orsta系列模型实验结果显示,统一的RL训练在各种视觉推理和感知任务上都优于传统模型,后面会详细讲解实测数据。

V-Triune三大技术亮点,有什么神通之处?

前面说到,V-Triune之所以能让AI视觉兼顾推理和识别能力,离不开它的三大核心技术,我看了几遍论文,讲讲粗浅的理解。

1、样本级数据格式化—“因材施教”的典范

以往的强化学习RL训练,像是用同一套模板教所有学生,不管你是学数学、识图还是做阅读理解,奖励机制都一刀切。

这就导致推理题和感知题在训练时被“平均对待”,很多细节需求被忽略。

V-Triune则改变了这一现状。

V-Triune给每类任务都配上了个性化解决方案,每个样本可以自己定义奖励权重(比如多鼓励步骤分,还是更看中答对),选择专属验证器(比如数学题用数学验证器,检测题用检测验证器)。

这样一来,解数学题的时候可以重视推理过程,做目标检测时则更关注框的位置和精度,让模型在不同任务中各有侧重,学得更细致。

相比业内许多只专注推理或者感知某一面的RL方案,V-Triune在任务适配和灵活性上进步了很多,可以用“因材施教”来形容。

2、验证器级奖励计算—不同领域的“专家”各司其职

传统的AI视觉模型所有任务都用一套臃肿的奖励函数,既难维护,又容易“错给分”,比如编程题用错了视觉检测的标准,或者视觉检测被要求输出推理过程。

即便是一些强化推理能力的先进VLMs,也主要侧重于推理奖励的精细化,而对感知类任务的处理往往不够细致。

V-Triune则将每种任务都由独立的验证器负责,比如数学验证器专门判断答案和过程,检测验证器专门算IoU(框的准确度)。

各类问题都交给最懂行的专家评分,既公平又高效。这种“专家分工”的设计,让每一类任务都能用上最适合的评判标准,既避免了错给分,也方便了后续的扩展和维护。

V-Triune还有一套独创武功秘籍-“动态IoU奖励”机制,训练早期采用宽松标准,让模型有信心逐步进步,中期、后期逐步提高要求,最终实现高精度。

这就像从小学、中学、本科、硕士、博士阶梯式培养,一步步提升难度,不鸡娃,让AI既不会被难题吓倒,也能最终达到高水平。

V-Triune把“循序渐进”做得更全面,感知和推理一视同仁,既照顾到推理的深度,也兼顾了感知的准确。

3、源级指标监控—精准定位,实时检查

以往RL训练就像个“黑箱子”,只能看见总分高低,却很难知道哪道题、哪类任务出了问题,主要因为指标混杂、问题定位难,导致调优效率低下。

V-Triune在这块做了优化,训练时对每个数据来源、每种任务都单独统计指标,比如每类任务的正确率、输出长度、反思率(AI说“让我再想想”、“检查一下”的占比)等等。

如果某类数据表现异常或者模型只会某一类题,它能第一时间发现和定位,从而有针对性地优化。
正因为有了这种细致的分项监控,V-Triune像开了天眼一样,实时发现视觉模型或数据噪声问题,并进行精准修正,让模型更均衡、更强大。

除了上面的三大技术,V-Triune还有一系列实用的工程策略创新。

  • ViT冻结策略:只微调语言部分,避免视觉主干参数不稳定导致训练崩溃。
  • 防止胡扯过滤器:训练时自动剔除模型生成的无效、异常图片Token,提升稳定性。
  • CoT提示池:给AI准备丰富多样的推理提示语,防止因提示单一导致模型学得片面。
  • 噪声样本过滤:两轮高标准数据清洗,确保模型“吃”到的都是高质量好题。

这些工程细节的考量改进,也让V-Triune在大规模多任务RL训练的稳定性和泛化能力上表现更好。

评测才能见真实力,V-Triune得分表现如何?

下面的这张表是Orsta模型与其基础模型(QwenVL-2.5-VL)在视觉推理和感知任务上的表现对比,能看到不管是在7B还是32B规模,Orsta提升都很明显。

推理任务:数学、编程等

首先在需要复杂推理能力的任务中,比如MMMU和MathVista,Orsta-7B的分数从45.56提升到49.70,MathVista更是由67.50提升到72.50,32B大模型同样在这些任务上大幅进步。

感知任务:视觉检测、OCR等

在视觉感知任务上,Orsta的提升也相当牛。例如在COCO单目标检测任务中,Orsta-7B的mAP从35.02提升到42.83,COCO多目标检测也从59.59跃升至63.36。

在CountBench计数任务和OCRBench文字识别任务中,Orsta-32B的准确率分别提升至88.59和59.09,表现远超基础模型。这说明Orsta能更精准地识别、计数和读取图片信息。

整体来看,V-Triune统一强化学习的方法让Orsta模型很好的兼顾了推理和感知两大任务,推理和视觉感知任务实测数据跑下来相比传统模型提升不少。

除此之外,Orsta在GUI、Chart等小众场景也表现很好,体现其界面元素理解和图像文字识别的强大之处。

V-Triune应用脑洞:智能驾驶障碍物检测

V-Triune的技术特性能优化很多工业化场景的AI视觉识别和推理能力,就拿我所在的汽车行业来说,智能驾驶的障碍物检测依旧存在很大进步空间。

传统的智能驾驶模式在遇到突发障碍物时,比如突然闯入行人或电瓶车,由于固定IoU阈值会导致漏检或误检,致使检测系统可能出现“全无”状态,这就很危险。

V-Triune则可以通过“动态IoU奖励”机制解决这一问题,在眨眼级反应的0-100ms内,优先快速锁定障碍物大致区域,进行存在性判断,而不需要监测出具体什么障碍物,这样能进行有效预判。

然后在凝视级分析的100-300ms内,再对物体精修边界框,进行边缘检测和阴影确认,区分障碍物与阴影,这样可以预测是否需要避让。比如下雨天前方静止的车辆和车辆在水面的倒影,前者需要避让,后者不需要避让。

最后在决策级确认的300ms以上,对物体实现厘米级定位,以及轨迹追踪,对障碍物进行精准分类和识别。

这样通过“动态IoU奖励”机制能实时动态加载不同阶段的障碍物监测模型,相较于固定IoU奖励,一方面能大幅降低障碍物的检测延迟时间,另一方面能有效降低AEB(自动紧急制动)系统的误触发率,并将漏检率压缩到非常低的水平。

自动驾驶许多场景需要这样的分级判断机制,比如鬼探头、连续变道、雨雾天气、高速路口等等,能修正误差并建立感知与决策的弹性安全边界,进行早期预警。

结论

相比较传统的只具备单一能力的AI视觉RL⽅案,V-Triune兼顾了推理与感知,培养了“会思考的眼睛”,让AI如同人类五官协同,处理更多的任务。

其实不光是智能驾驶领域,汽车工业还有很多场景可能会用到V-Triune,比如工厂流水线汽车零部件质检,针对不同零件,定义差异化质检规则,精准识别产品图像,并推理分析其缺陷和改进方案。诸如此类的案例数不胜数,其他行业可能更多,非常期待。

相关文章:

MiniMax V-Triune让强化学习(RL)既擅长推理也精通视觉感知

MiniMax 近日在github上分享了技术研究成果——V-Triune,这次MiniMax V-Triune的发布既是AI视觉技术也是应用工程上的一次“突围”,让强化学习(RL)既擅长推理也精通视觉感知,其实缓解了传统视觉RL“鱼和熊掌不可兼得”…...

Hash 的工程优势: port range 匹配

昨天和朋友聊到 “如何匹配一个 port range”,觉得挺有意思,简单写篇散文。 回想起十多年前,我移植并优化了 nf-HiPAC,当时还看不上 ipset hash,后来大约七八年前,我又舔 nftables,因为用它可直…...

同为.net/C#的跨平台运行时的mono和.net Core有什么区别?

Mono 和 .NET Core(现已统一为 .NET)都是 .NET 生态的跨平台实现,但它们在设计目标、技术特性和应用场景上有显著区别。以下是详细对比: ​​1. 历史背景​​ ​​项目​​​​诞生时间​​​​开发者​​​​当前状态​​​​Mo…...

前端安全直传MinIO方案

目的:前端直接上传文件到Minio,不通过服务器中转文件。密钥不能在前端明文传输。 ## 一、架构设计 mermaid sequenceDiagram 前端->>后端: 1.请求上传凭证 后端->>MinIO: 2.生成预签名URL 后端-->>前端: 3.返回预签名URL 前端->…...

HackMyVM-Dejavu

信息搜集 主机发现 ┌──(root㉿kali)-[~] └─# arp-scan -l Interface: eth0, type: EN10MB, MAC: 00:0c:29:39:60:4c, IPv4: 192.168.43.126 Starting arp-scan 1.10.0 with 256 hosts (https://github.com/royhills/arp-scan) 192.168.43.1 c6:45:66:05:91:88 …...

LeetCode Hot100(动态规划)

70. 爬楼梯 题目: 假设你正在爬楼梯。需要 n 阶你才能到达楼顶。每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢? 题解: 不难发现,每一次都是从i-1或者i-2爬上来的,我们加起来求和即可 class So…...

Opencv实用操作5 图像腐蚀膨胀

相关函数 腐蚀函数 img1_erosion cv2.erode(img1,kernel,iterations1) (图片,卷积核,次数) 膨胀函数 img_dilate cv2.dilate(img2,kernel1,iterations1) (图片,卷积核,次数)…...

【赵渝强老师】OceanBase的部署架构

OceanBase数据库支持无共享(Shared-Nothing,SN)模式和共享存储(Shared-Storage,SS)模式两种部署架构。 一、 无共享(Shared-Nothing,SN)模式 在SN模式下,各…...

(18)混合云架构部署

文章目录 🚀 混合云架构部署:Java应用的云原生之旅🌩️ 混合云架构简介⚡ Java应用云原生部署五大核心技术1️⃣ 容器化与编排技术2️⃣ 服务网格与API网关3️⃣ CI/CD自动化流水线4️⃣ 多云管理平台5️⃣ 云原生Java框架与运行时 &#x1f…...

c/c++的opencv霍夫变换

OpenCV中的霍夫变换 (C/C) Hough Transform 霍夫变换 (Hough Transform) 是一种在图像分析中用于检测几何形状(如直线、圆形等)的特征提取技术。它通过一种投票机制在参数空间中寻找特定形状的实例。OpenCV 库为 C 开发者提供了强大且易用的霍夫变换函数…...

AAOS系列之(七) --- AudioRecord录音逻辑分析(一)

一文讲透AAOS架构,点到为止不藏私 📌 这篇帖子给大家分析下 AudioRecord的初始化 1. 场景介绍: 在 AAOS 的 Framework 开发中,录音模块几乎是每个项目都会涉及的重要组成部分。无论是语音控制、车内对讲(同行者模式)…...

MySQL大表结构变更利器:pt-online-schema-change原理与实战指南

MySQL大表结构变更利器:pt-online-schema-change原理与实战指南 MySQL数据库运维中,最令人头疼的问题之一莫过于对大表进行结构变更(DDL操作)。传统的ALTER TABLE操作会锁表,导致业务长时间不可用,这在724小时运行的互联网业务中是不可接受的。本文将深入剖析Percona To…...

LangChain【3】之进阶内容

文章目录 说明一 LangChain Chat Model1.1 少量示例提示(Few-Shot Prompting)1.2 Few-Shot示例代码1.3 示例选择器(Eample selectors)1.4 ExampleSelector 类型1.5 ExampleSelector案例代码1.6 LangServe工具1.7 LangServe安装1.8 langchain项目结构1.9 …...

大规模JSON反序列化性能优化实战:Jackson vs FastJSON深度对比与定制化改造

背景:500KB JSON处理的性能挑战 在当今互联网复杂业务场景中,处理500KB以上的JSON数据已成为常态。 常规反序列化方案在CPU占用(超30%)和内存峰值(超原始数据3-5倍)方面表现堪忧。 本文通过Jackson与Fas…...

【OpenSearch】高性能 OpenSearch 数据导入

高性能 OpenSearch 数据导入 1.导入依赖库2.配置参数3.OpenSearch 客户端初始化4.创建索引函数5.数据生成器6.批量处理函数7.主导入函数7.1 函数定义和索引创建7.2 优化索引设置(导入前)7.3 初始化变量和打印开始信息7.4 线程池设置7.5 主数据生成和导入…...

HTML5有那些更新

语义化标签 header 头部nav 导航栏footer 底部aside 内容的侧边栏 媒体标签 audio 音频播放video 视频播放 dom查询 document.querySelector,document.querySelectorAll他们选择的对象可以是标签,也可以是类(需要加点),也可以是ID(需要加#) web存储 localStorage和sessi…...

AWS EC2 实例告警的创建与删除

在AWS云环境中,监控EC2实例的运行状态至关重要。通过CloudWatch告警,用户可以实时感知实例的CPU、网络、磁盘等关键指标异常。本文将详细介绍如何通过AWS控制台创建EC2实例告警,以及如何安全删除不再需要的告警规则,并附操作截图与…...

STM32 搭配 嵌入式SD卡在智能皮电手环中的应用全景评测

在智能皮电手环及数据存储技术不断迭代的当下,主控 MCU STM32H750 与存储 SD NAND MKDV4GIL-AST 的强强联合,正引领行业进入全新发展阶段。二者凭借低功耗、高速读写与卓越稳定性的深度融合,以及高容量低成本的突出优势,成为大规模…...

黑马点评项目01——短信登录以及登录校验的细节

1.短信登录 1.1 Session方式实现 前端点击发送验证码,后端生成验证码后,向session中存放键值对,键是"code",值是验证码;然后,后端生成sessionID以Cookie的方式发给前端,前端拿到后&a…...

【笔记】Windows 系统安装 Scoop 包管理工具

#工作记录 一、问题背景 在进行开源项目 Suna 部署过程中,执行设置向导时遭遇报错:❌ Supabase CLI is not installed. 根据资料检索,需通过 Windows 包管理工具Scoop安装 Supabase CLI。 初始尝试以管理员身份运行 PowerShell 安装 Scoop…...

LVS + Keepalived高可用群集

目录 一:keepalived双击热备基础知识 1.keepalived概述及安装 1.1keepalived的热备方式 1.2keepalived的安装与服务控制 (1)安装keepalived (2)控制keepalived服务 2.使用keepalived实现双击热备. 2.1主服务器的…...

MySQL之约束和表的增删查改

MySQL之约束和表的增删查改 一.数据库约束1.1数据库约束的概念1.2NOT NULL 非空约束1.3DEFAULT 默认约束1.4唯一约束1.5主键约束和自增约束1.6自增约束1.7外键约束1.8CHECK约束 二.表的增删查改2.1Create创建2.2Retrieve读取2.3Update更新2.4Delete删除和Truncate截断 一.数据库…...

Greenplum:PB级数据分析的分布式引擎,揭开MPP架构的终极武器

一、Greenplum是谁?—— 定位与诞生背景 核心定位:基于PostgreSQL的开源分布式分析型数据库(OLAP),专为海量数据分析设计,支撑PB级数据仓库、商业智能(BI)和实时决策系统。 诞生背…...

Oracle数据库性能优化的最佳实践

原创:厦门微思网络 以下是 Oracle 数据库性能优化的最佳实践,涵盖设计、SQL 优化、索引管理、系统配置等关键维度,帮助提升数据库响应速度和稳定性: 一、SQL 语句优化 1. 避免全表扫描(Full Table Scan)…...

云原生时代 Kafka 深度实践:02快速上手与环境搭建

2.1 本地开发环境搭建 单机模式安装 下载与解压:前往Apache Kafka 官网,下载最新稳定版本的 Kafka 二进制包(如kafka_2.13-3.6.0.tgz,其中2.13为 Scala 版本)。解压到本地目录,例如/opt/kafka&#xff1a…...

Redis7 新增数据结构深度解析:ListPack 的革新与优化

Redis 作为高性能的键值存储系统,其核心优势之一在于丰富的数据结构。随着版本迭代,Redis 不断优化现有结构并引入新特性。在 Redis 7.0 中,ListPack 作为新一代序列化格式正式登场,替代了传统的 ZipList(压缩列表&…...

分布式爬虫架构设计

随着互联网数据的爆炸式增长,单机爬虫已经难以满足大规模数据采集的需求。分布式爬虫应运而生,它通过多节点协作,实现了数据采集的高效性和容错性。本文将深入探讨分布式爬虫的架构设计,包括常见的架构模式、关键技术组件、完整项…...

汽配快车道:助力汽车零部件行业的产业重构与数字化出海

汽配快车道:助力汽车零部件行业的数字化升级与出海解决方案。 在当今快速发展的汽车零部件市场中,随着消费者对汽车性能、安全和舒适性的要求不断提高,汽车刹车助力系统作为汽车安全的关键部件之一,其市场需求也在持续增长。汽车…...

Windows 11 家庭版 安装Docker教程

Windows 家庭版需要通过脚本手动安装 Hyper-V 一、前置检查 1、查看系统 快捷键【winR】,输入“control” 【控制面板】—>【系统和安全】—>【系统】 2、确认虚拟化 【任务管理器】—【性能】 二、安装Hyper-V 1、创建并运行安装脚本 在桌面新建一个 .…...

PyQt6基础_QtCharts绘制横向柱状图

前置: pip install PyQt6-Charts 结果: 代码: import sysfrom PyQt6.QtCharts import (QBarCategoryAxis, QBarSet, QChart,QChartView, QValueAxis,QHorizontalBarSeries) from PyQt6.QtCore import Qt,QSize from PyQt6.QtGui import QP…...