当前位置: 首页 > article >正文

MindGYM:一个用于增强视觉-语言模型推理能力的合成数据集框架,通过生成自挑战问题来提升模型的多跳推理能力。

2025-03-13,由中山大学和阿里巴巴集团的研究团队提出了MindGYM框架,通过合成自挑战问题来增强视觉-语言模型(VLMs)的推理能力。MindGYM框架通过生成多跳推理问题和结构化课程训练,显著提升了模型在推理深度和广度上的表现,同时减少了对大规模数据和计算资源的依赖。

 

一、研究背景

随着视觉-语言模型(VLMs)的发展,其在处理需要联合视觉和文本输入的任务中逐渐成为基础工具。然而,如何让这些模型具备鲁棒的、可迁移的推理能力仍然是一个挑战。目前,高质量的推理数据获取主要依赖于人工标注的数据集或计算成本高昂的自监督学习方法,这限制了模型的推理能力提升。

目前遇到的困难和挑战:

1、数据获取成本高:人工标注的数据集如OK-VQA和ScienceQA需要大量人力进行标注,难以大规模扩展。

2、自监督方法的局限性:现有的自监督合成方法(如MMInstruct和MMEvol)在跨模态和任务的泛化能力上表现不佳,无法紧密耦合视觉和文本语义。

3、推理能力提升的计算成本高:强化学习等推理能力提升方法计算成本高昂,限制了其实际应用。

 

链接地址:MINDGYM|视觉语言推理数据集|多模态认知任务数据集

 

二、让我们一起来看一下MindGYM

MindGYM是一个用于增强视觉-语言模型推理能力的合成数据集框架,通过生成自挑战问题来提升模型的多跳推理能力。

 

构建:

1、种子单跳问题合成:模型基于给定的背景文档生成逻辑相关的单跳问题,涵盖数学、科学、逻辑等多个语义领域。

2、挑战性多跳问题合成:将种子问题通过认知操作(如桥接、比较、视觉-文本对齐等)组合成多跳问题。

3、思维诱导课程微调:通过逐步训练,从有指导的推理到独立推理,提升模型的推理能力。

 

特点:

1、高数据效率:仅用400个合成样本即可实现显著性能提升。

2、计算效率:减少训练和推理成本。

3、泛化能力强:在不同任务和合成源上表现出色。

 

使用方法:

MindGYM框架通过合成数据直接注入训练过程,无需额外数据。用户可以通过调整合成模板和训练策略,将其应用于不同的视觉-语言模型。

 

基准测试:

在多个基准测试中,MindGYM显著优于现有方法,例如在MathVision-Mini任务中,仅用400个样本就实现了16%的性能提升。

 

 

MindGYM 框架架构由三个核心阶段组成:①种子单跳问题合成,②具有挑战性的多跳问题合成,以及③思维诱导式课程微调

 

首先:对文本(例如数学/生物问题)和多模态(文本+图像)上下文的认知感知自我合成。

然后:种子问题通过基于文本的策略(桥接、比较、时间)和多模态推理类型(视觉-文本对齐、空间推理、因果推断、上下文合成)相结合,形成自我挑战性问题。

最后:通过掩码任务学习,课程驱动的微调阶段将结构化的认知能力注入模型。

 

 

三、让我们一起来看一下MindGYM的应用

比如你正在准备一门化学考试,手头有一张复杂的化学反应图,上面画着各种分子结构、反应箭头,还有标注的反应条件。旁边还有一段文字描述,大概讲了这个反应的过程和一些关键信息。问题是,你得根据这张图和文字描述,推断出这个反应在特定条件下的产物是什么,或者这个反应需要在什么温度下才能顺利进行。

这时候,MindGYM就能派上大用场了!它就像是一个智能的“化学助教”,专门帮你训练这种复杂的推理能力。

首先,MindGYM会根据这张化学反应图和文字描述,生成一些基础的单跳问题。比如,它可能会问:“这个反应中的主要反应物是什么?”或者“图中箭头的方向代表什么含义?”这些问题就像是热身,帮助模型先熟悉一下基本的信息。

然后,MindGYM开始“出难题”了。它会把几个基础问题组合起来,生成一个更复杂的多跳问题。比如:“如果这个反应的温度升高到100摄氏度,产物会有什么变化?请结合图中的反应条件和文字描述进行推理。”这就需要模型不仅要理解图和文字的内容,还要能够把它们联系起来,进行多步推理。

在这个过程中,MindGYM还会让模型“说出”它的思考过程。比如说,模型可能会这样回答:“首先,我看到图中标注的反应条件是80摄氏度,产物是A和B。如果温度升高到100摄氏度,根据文字描述中的能量变化规律,反应可能会向生成更多C的方向进行,因为高温会促使反应向吸热方向移动……”

通过这种训练,模型就像是被“逼”着去深入思考科学问题,而不是简单地死记硬背。这样一来,当它真正面对类似的科学问题时,就能更准确地回答,比如在考试中或者在实际的科学研究里。而且,这种训练方式不仅适用于化学,还可以推广到物理、生物等其他科学领域,帮助模型更好地理解和推理各种复杂的科学概念。

 

 

论文中提到数据集:

 

数据集:ScienceQA

数据集介绍:这是一个大规模的多模态数据集,用于标注讲座和解释答案

数据集地址:TheMrguiller/ScienceQA|科学教育数据集|知识问答数据集

 

 

数据集:OK-VQA

数据集介绍:一个用于视觉问答的数据集,要求模型能够结合外部知识回答问题

数据集地址:ReplugLens/OK-VQA|视觉问答数据集|人工智能数据集

 

 

数据集:MMStar

数据集介绍:一个包含1500个挑战样本的多模态基准测试数据集。

数据集地址:Lin-Chen/MMStar

 

 

数据集:MathVista-Mini

数据集介绍:一个结合了多种数学和视觉任务的基准测试数据集,包含6141个样本。

数据集地址:MathVista-Mini

 

 

数据集:MathVision-Mini

数据集介绍:一个包含3040个高质量数学问题的数据集。

数据集地址:MathVision-Mini

 

 

数据集:GSM8K

数据集介绍:一个包含小学数学应用题的数据集,每个问题需要2到8步来解决

数据集地址:openai/gsm8k|数学应用题数据集|自然语言处理数据集

 

 

数据集:MATH

数据集介绍:MATH数据集是一个专注于数学问题解决的数据集,涵盖了代数、几何、数论等多个数学领域。该数据集由多个子集构成,每个子集针对不同的数学主题,旨在为机器学习和自然语言处理领域提供高质量的数学问题与解答数据。

数据集地址:MATH|数学求解数据集|教育技术数据集

 

 

数据集:GPQA

数据介绍:GPQA是一个由生物学、物理学和化学领域的专家编写的448个多选题数据集。该数据集的特点是问题质量高且极其困难,即使是具有博士学位或在读博士的专家也仅能达到65%的准确率,而高技能的非专家验证者仅有34%的准确率。数据集旨在用于研究未来AI系统在帮助解答非常困难问题时的可扩展监督方法,特别是在开发新科学知识时。

数据集地址:GPQA|科学问答数据集|AI监督学习数据集

 

数据集:MMEvol

数据集介绍:一个用于多模态推理的数据集,包含ScienceQA和DVQA两个子集

数据集地址:MMEvol|多模态数据数据集|数据增强数据集

 

 

数据集:LIMO

数据集介绍:一个用于文本推理的数据集,通过少量高质量数据提升模型性能

数据集地址:LIMO

 

 

数据集:Open-O1

数据集介绍:一个用于激活链式推理(CoT)的SFT数据集

数据集地址:​​​OpenO1-SFT|语言模型微调数据集|思维链推理数据集

 

更多免费的数据集,请打开:遇见数据集

遇见数据集-让每个数据集都被发现,让每一次遇见都有价值。遇见数据集,领先的千万级数据集搜索引擎,实时追踪全球数据集,助力把握数据要素市场。 https://www.selectdataset.com/

 

相关文章:

MindGYM:一个用于增强视觉-语言模型推理能力的合成数据集框架,通过生成自挑战问题来提升模型的多跳推理能力。

2025-03-13,由中山大学和阿里巴巴集团的研究团队提出了MindGYM框架,通过合成自挑战问题来增强视觉-语言模型(VLMs)的推理能力。MindGYM框架通过生成多跳推理问题和结构化课程训练,显著提升了模型在推理深度和广度上的表…...

WPS 搭配 Zotero 插件使用

安装Zotero后,Word自动引入了插件,但WPS却没有,做为WPS的重度用户,这是不行的。 解决方案: 1.找到 Zotero.dotm 一般在安装目录下, 2.然后复制到WPS的startup下 我的目录是:C:\Users\lianq…...

汽车NVH诊断案例 | 纯电车急加速过大弯底盘异响

引言 失去发动机的掩蔽效应后,新能源电车的NVH问题,成为了困扰维修技师新难点。风噪、胎噪、电机高频啸叫等问题更容易车主识别,根源却难以被有效分辨。如何更精准且高效地识别电车NVH问题根源?今天分享的这个案例,内…...

万字长文详解嵌入式电机软件开发

第一章:嵌入式电机概述 1.1 电机类型:选对 “主角” 有多重要? 在嵌入式电机控制系统里,电机就如同故事中的主角,选对了方能使整个剧情顺利推进。不同应用场景对精度、速度、功率以及成本的需求各异,因而了…...

电机控制常见面试问题(十二)

文章目录 一.电机锁相环1.理解锁相环2.电机控制中的锁相环应用3.数字锁相环(DPLL) vs 模拟锁相环(APLL)4.锁相环设计的关键技术挑战5.总结 二、磁链观测1.什么是磁链?2.为什么要观测磁链?3.怎么观测磁链&am…...

卡尔曼滤波算法从理论到实践:在STM32中的嵌入式实现

摘要:卡尔曼滤波(Kalman Filter)是传感器数据融合领域的经典算法,在姿态解算、导航定位等嵌入式场景中广泛应用。本文将从公式推导、代码实现、参数调试三个维度深入解析卡尔曼滤波,并给出基于STM32硬件的完整工程案例…...

添加 ChatGPT/Grok/Gemini 到浏览器搜索引擎

添加 ChatGPT/Grok/Gemini 到浏览器搜索引擎 添加 ChatGPT/Grok/Gemini 到浏览器搜索引擎如何添加步骤 1: 打开浏览器设置步骤 2: 添加新搜索引擎步骤 3: 保存设置 注意事项 添加 ChatGPT/Grok/Gemini 到浏览器搜索引擎 在使用 ChatGPT/Grok/Gemini 进行对话时,每次…...

【SpringMVC】常用注解:@RequestBody

1.作用 用于获取请求实体内容,直接使用得到的是keyvalue&keyvalue的数据。获取请求实体内容不适用get请求。 2.属性 required 描述是否有请求体,默认值为true。当取值为true时,get 请求方式会报错。如果取值为false,get请…...

数学建模之数学模型-3:动态规划

文章目录 动态规划基本概念阶段状态决策策略状态转移方程指标函数最优指标函数 动态规划的求解前向算法后向算法二者比较 应用案例 一种中文分词的动态规划模型摘要引言动态规划的分词模型问题的数学描述消除状态的后效性选择优化条件 算法描述和计算实例算法的效率分析和评价结…...

Amazon Quantum Ledger Database (QLDB):革新数据可信记录的终极解决方案

在数字化浪潮中,企业数据的安全性与可信性成为核心挑战。无论是金融交易的透明审计、供应链的全程追踪,还是医疗记录的真实性验证,如何确保数据不可篡改且可追溯,已成为企业亟待解决的难题。Amazon Quantum Ledger Database (QLDB…...

Navicat SqlServer 设置自增主键

Navicat是一款优秀的数据库管理工具&#xff0c;可以连接很多类型的数据库。使用它可以极大的提高工作效率。 Navicat 不能设置SqlServer自增字段&#xff0c;只能通过sql语句来实现 建表时设置 create table <表名> ( <字段1-主键> int identity (1,1) primar…...

开源后台管理系统推荐

前言 在当今数字化时代&#xff0c;企业和组织对于管理和运营资源的需求日益增加。开源后台管理系统应运而生&#xff0c;为用户提供了一个灵活、可定制化的管理平台。本文将介绍开源后台管理系统的概念和优势&#xff0c;探讨常见的开源后台管理系统&#xff0c;以及如何选择…...

韦伯望远镜的拉格朗日点计算推导过程,包含MATLAB和python运动轨迹仿真代码

研究过程 起源与提出&#xff1a;1687 年牛顿提出 “三体问题”&#xff0c;旨在研究三个可视为质点的天体在相互之间万有引力作用下的运动规律&#xff0c;但因运动方程过于复杂&#xff0c;难以得到完全解。欧拉的贡献1&#xff1a;1767 年&#xff0c;瑞士数学家莱昂哈德・…...

iOS OC匹配多个文字修改颜色和字号

1、传入字符串数组&#xff0c;通过NSMutableAttributedString修改匹配文字 可以根据需要搞成匹配单个字符串 - (NSAttributedString *)applyFontSizeToText:(NSString *)text matchStrings:(NSArray<NSString *> *)matchStrings {NSMutableAttributedString *attribut…...

编程助手学Python--Deepseek对OpenAI的Python库调用GPT-4模型生成对话回复理解

编程助手学Python--Deepseek对OpenAI的Python库调用GPT-4模型生成对话回复理解 1. 导入库2. 设置环境变量3. 打印环境变量4. 配置 OpenAI API5. 打印 API 配置6. 定义对话消息7. 调用 OpenAI API8. 打印 API 响应9. 提取并打印生成的回复10. 代码总结11. 注意事项12. 完整代码示…...

计算机的物理组成——微机的物理结构

对于用户和维修人员来说&#xff0c;最重要的是微机实际物理结构&#xff0c;即组成微机的各个部件&#xff0c;通俗来说&#xff0c;他由主机、键盘、鼠标、显示器等部分组成。&#xff08;在 计算机基础知识——微机系统 中已经介绍了微机的主机部分&#xff09; PC 系列微机…...

STM32 RS232通信开发全解析 | 零基础入门STM32第五十九步

主题内容教学目的/扩展视频RS232串口电路原理&#xff0c;跳线设置&#xff0c;驱动程序。与超级终端通信。了解电路原理和RS232协议。 师从洋桃电子&#xff0c;杜洋老师 &#x1f4d1;文章目录 一、RS232通信系统架构二、RS232核心原理与硬件设计2.1 电气特性对比2.2 典型电路…...

C# net deepseek RAG AI开发 全流程 介绍

deepseek本地部署教程及net开发对接 步骤详解&#xff1a;安装教程及net开发对接全流程介绍 DeepSeekRAG 中的 RAG&#xff0c;全称是 Retrieval-Augmented Generation&#xff08;检索增强生成&#xff09;&#xff0c;是一种结合外部知识库检索与大模型生成能力的技术架构。其…...

建筑管理(2): 施工承包模式,工程监理,质量监督

文章目录 一. 施工承包模式1. 施工总承包模式1.1 施工总承包的特点1.2 施工总承包模式中的承包方 2. 平行承包模式3. 联合体与合作体承包模式 二. 工程监理1. 强制实行监理的工程范围1.1 国家重点建设工程1.2 大中型公用事业工程(重点)1.3 成片开发建设的住宅小区工程1.4 必须实…...

最节省服务器,手搓电子证书查询系统

用户预算150元&#xff0c;想要一个最简单证书查询系统。前台能查询证书、后台管理员能登录能修改密码&#xff0c;证书能够手动输入修改删除、批量导入导出删除数据、查询搜索。能够兼容苹果、安卓、PC三端浏览器&#xff0c;最后帮忙部署到云服务器上。 用户预算不多&#xf…...

Go string 字符串底层逻辑

在 Go 语言中&#xff0c;string 类型的底层结构是一个结构体&#xff0c;包含两个字段&#xff1a;一个指向字节数组的指针和该字节数组的长度。以下是其在 Go 源码中的大致定义&#xff1a;type stringStruct struct {str unsafe.Pointerlen int } str&#xff1a;这是一个指…...

STM32F407 IIC通信

1、IIC 介绍 IIC(Inter-Integrated Circuit)总线是一种由数据线 SDA 和时钟线 SCL 构成的两线式串行总线,可发送和接收数据,常用于 MPU/MCU 与外部设备连接通信、数据传输。每个连接到总线的设备都有一个独立的地址,主机可以通过该地址来访问不同设备。因为 IIC 协议比较简单…...

【论文阅读方法】沐神课程:如何读论文

一篇论文的一般结构 titleabstractintroductionmethodexperienceconclusion 三明治论文阅读法 第一遍&#xff1a;海选 titleabstractconclusion——确定要不要读第二遍&#xff1a;精读 对整个文章过一遍&#xff0c;知道每一块在做什么 可以从标题开始读到最后&#xff0c;注…...

机器人基础知识

在机器人学中&#xff0c;“inverse dynamics”&#xff08;逆动力学&#xff09;和 “forward dynamics”&#xff08;正向动力学&#xff09;是两个核心概念&#xff0c;它们帮助我们理解和计算机器人如何移动以及需要应用什么样的力来实现这些移动。 Inverse Dynamics&#…...

jupyter无法转换为PDF,HTMLnbconvert failed: Pandoc wasn‘t found.

无法转为PDF 手动下载工具 https://github.com/jgm/pandoc/releases/tag/3.6.3 似乎跟我想的不大一样&#xff0c;还有新的报错 https://nbconvert.readthedocs.io/en/latest/install.html#installing-tex 不知道下的啥玩意儿 sudo apt-get install texlive-xetex texlive-fon…...

Python高级算法与数据结构优化实战

Python高级算法与数据结构优化实战 在算法竞赛中,掌握高级优化技巧和数据结构实现可以显著提升解题效率和代码性能。本文深入探讨Python中常见算法问题的高效实现方法,通过实际比赛案例展示如何优化时间复杂度和空间复杂度。 一、前缀和与差分数组 前缀和与差分数组是算法…...

使用 Excel 实现绩效看板的自动化

引言 在日常工作中&#xff0c;团队的绩效监控和管理是确保项目顺利进行的重要环节。然而&#xff0c;面临着以下问题&#xff1a; ​数据分散&#xff1a;系统中的数据难以汇总&#xff0c;缺乏一个宏观的团队执行情况视图。​看板缺失&#xff1a;系统本身可能无法提供合适…...

Tomcat新手登峰指南:从零到部署的原子化实践

开篇&#xff1a;为什么选择Tomcat&#xff1f; 2024年StackOverflow调查显示&#xff0c;Tomcat以68.9%占有率蝉联Java Web服务器榜首。但新手常陷入三大误区&#xff1a; 直接使用IDE内置Tomcat导致生产环境配置失准权限配置不当引发安全漏洞内存参数未优化造成性能瓶颈 本…...

vue3怎么和大模型交互?

引言 平时我们都是用的在线的AI工具&#xff0c;直接输入问题&#xff0c;然后AI回答我们&#xff0c;那么怎么把AI接入项目中呢&#xff1f; 这个问题问得好。 方案一&#xff1a;引入第三方已封装好的UI库方案二&#xff1a;自己写 对于方案一&#xff0c;市面上已有一些…...

【网络编程】HTTP网络编程

13.1 HTTP 简介 HTTP(Hyper Text Transfer Protocol,超文本传输协议)是用于从万维网(WWW:World Wide Web) 服务器(简称Web 服务器)传输超文本到本地浏览器的传送协议&#xff0c;基于TCP/IP 通信协 议来传递数据 (HTML 文件、图片文件、查询结果等)。 13.2 HTTP 的工作原理 …...