当前位置: 首页 > news >正文

InfiMM-WebMath-40B——利用由 24 亿数学文档组成的数据集提高 LLM 的数学性能

1. 前言

论文地址:https://arxiv.org/abs/2409.12568
本文提出了一个新的大规模多模态预训练数据集 InfiMM-WebMath-40B,以提高数学推理能力。该数据集包含 24 亿个科学和数学相关的网络文档、85 亿个图片 URL 和约 400 亿个文本标记。该数据集支持多模态大语言模型(MLLMs)的训练,MLLMs 能够将文本和图像结合起来,提高推理能力,尤其是数学问题的推理能力。

具体来说,该数据集取自大型网络抓取资源库 CommonCrawl。创建该数据集的方法是,首先从数十亿个网页中只选择与科学和数学相关的网页,然后用链接的图像和文本对数据进行进一步过滤。这一过程使用了特定的基于规则的过滤和基于模型的过滤技术。最终产生了 2400 万份高质量的网络文档,并针对数学推理训练进行了优化。

一些实验结果证实,该数据集可用于构建 MLLM,其性能超越了传统的开源模型。例如,"MathVerse "和 "We-Math "等最先进的基准通过有效结合文本和图像,在解决问题方面取得了显著进步,尤其是在具有视觉成分的数学推理方面。

这种方法有望加速开发能够有效解决复杂数学问题的 MLLMs,尤其是那些大量使用数学公式、图形和图表的问题。所提议的数据集规模大、质量高,是整个开源社区的重要资源。

2.实验

本文的实验使用多个基准来验证 InfiMM-WebMath-40B 数据集。实验的目的是验证所提出的数据集在多大程度上提高了大规模多模态数学推理模型(MLLM)的性能。

首先,该模型的架构基于最先进的视觉语言学习方法,使用 SigLip 模型提取视觉特征,使用 Perceiver Resampler 提取视觉和文字部分。Coder 1.3B 和 DeepSeek-Coder 7B)。

训练分三个阶段进行。第一个阶段是模态对齐阶段,使用常见的图像-文本对进行训练,以弥合视觉和文本模态之间的差距。在这一阶段,视觉编码器和 LLM 主干网是固定的,只对感知器重采样器进行训练。

然后使用 InfiMM-WebMath-40B 数据集进行了额外的预训练,以增强多模态数学知识的获取。在这里,使用 4096 个词条的上下文长度和多达 32 幅图像进行了一次历时训练。

最后一个阶段是利用指令数据集进行微调。在这一阶段,固定了视觉编码器,更新了感知器重采样器和 LLM 的参数。在训练中使用了 ScienceQA 和 DocVQA 等数据集,从而提高了指令跟踪能力。

实验结果表明,使用 InfiMM-WebMath-40B 的模型在 MathVerse 和 We-Math 两个基准测试中表现出色。特别是,该模型在 MathVerse 基准测试中的表现优于传统的开源模型,并在 We-Math 中表现出卓越的多模态推理能力。特别是,7B 模型的性能可与其他 72B 和 110B 模型相媲美。

3.结果

本文的结论强调,InfiMM-WebMath-40B 作为首个公开的大规模多模态数学预训练数据集,为开源研究界做出了重要贡献。该数据集通过结合文本和图像实现了高级学习,特别是在数学推理方面,为提高解决复杂数学问题的能力奠定了基础。

使用 InfiMM-WebMath-40B 的模型比传统的开源模型表现更好,特别是在 MathVerse 和 We-Math 等现代基准测试中。特别是,7B 模型的性能可与其他 72B 和 110B 的大型模型相媲美。这些结果表明,InfiMM-We-Math-40B 的高质量多模态数据集大大增强了其数学推理能力。

未来的研究显示,计划增强视觉编码器,以高效处理数学符号、图表和表达式,并利用强化学习技术进一步提高数学推理能力。据说,这将为解决多模态数学推理的复杂性和开发更精确的人工智能模型铺平道路。

4.图表说明

在这里插入图片描述
本图展示了构建数学相关数据集 InfiMM-WebMath-40B 的过程。首先,我们从一个名为 CommonCrawl 的大型网络数据集开始,该数据集涵盖 122.6 亿个网页。

第一步是 “语言过滤”,根据语言进行过滤,将列表缩小到 57.2 亿页。然后进行 “高检索数学过滤”,以识别相关的数学内容,从而筛选出 9.5 亿个页面。

接下来,"重复数据删除 "会删除重复数据,并将页面数量减少到 3.9 亿页。之后,"基于规则的过滤 "将删除更多不必要的内容。这一阶段的数据数量为 3.8 亿页。

最后,"高精度数学过滤 "只保留高精度数学内容,最终选出约 24 万页。这 24 万页包含 40 亿个文本标记和 8500 万张图片。这一过滤过程建立了一个以数学为重点的高质量数据集。

在这里插入图片描述
此图形象地说明了与高斯定律有关的 "电通量 "概念。图中电荷呈曲面状,周围有电场线。这些电场线显示了电场如何在电荷周围扩散。

正负电荷位于图的中心,电场线朝向或远离正负电荷。电通量指的是通过这个表面的电场线的总和,与表面所包围的电荷的总和成正比。这意味着被包围的电荷量越大,电通量就越大。

dA 向量代表的只是表面该部分的微小面积元素,描述的是电场线与表面之间的关系。此图可作为直观教具的一部分,帮助学生理解物理和电磁学中的重要概念。

在这里插入图片描述
本表评估了不同模型的性能。

  • 表格第一列显示的是型号名称。人体 "表示人体性能标准。
  • 接下来,"Base LLM "表示每个模型所基于的大规模语言模型(LLM)的类型。
  • 全部 "一栏显示所有类型任务的总得分。
  • 下面各栏显示的是根据任务特征得出的分数:"Text Dominant "表示以文本为主要信息来源的任务,"Text Lite "表示文本信息很少的任务,"Vision Intense "表示图像信息很多的任务,"Vision Dominant "表示以图像为主要信息来源的任务,"Vision Only "表示完全只有图像信息的任务。Vision Dominant "表示以图像为主要信息来源的任务,而 "Vision Only "表示完全只有图像信息的任务。

在本表中,三个非公开模型被评估为 “专有模型”,即 GPT-4V、Gemini-Pro 和 Qwen-VL-Max。此外,"开源模型 "是一组可公开获取的模型,包括 SPHINX-Plus、G-LaVA、InternLM-XC2 和 Math-LLAVA 等。

最后,"我们的模型 "中列出了 InfiMM-Math DS-Coder-1.3B 和 DS-Coder-1.5-7B 这两个模型。这些模型在某些分数上优于其他开源模型。

总体而言,InfiMM-数学模型在 “全部”、"文本主导 "和 "视觉密集 "任务中的表现尤为出色,显示出它在结合视觉和文本信息的任务中的优势。这是我们设计该模型的结果,目的是提高它在同时使用视觉和文本信息的复杂任务中的能力,让机器学习新手也能轻松理解。
在这里插入图片描述
该图显示了机器学习模型的评估结果。具体来说,它比较了 DeepSeek-Coder 1.5-7B 模型在不同训练设置下,在评估标准 MathVerse 上的得分。

表中有两种主要的训练方法:连续预训练(CPT)和指令微调(IFT)。这些方法都能提高模型的性能。

  • 本文介绍了 "梅维斯 "和 "扩展 "两个不同数据集的结果。
  • 在不使用 CPT 的情况下,Mavis 数据集的得分为 22.8,而使用 CPT 后得分提高到 27.1。
  • 在扩展数据集中,使用 CPT 将得分从 23.8 提高到 29.1。

从表中可以看出,使用 CPT 后,模型的性能得到了提升。这种改进在扩展数据集上尤为明显,因为该数据集使用的数据更加多样化。

在这里插入图片描述
本表显示了一个机器学习模型的实验结果。具体来说,它衡量了 "CPT "和 "IFT "两种不同训练方法结合使用时的效果。

  • CPT "是 Continual Pre-Training(持续预训练)的缩写,是一种利用现有数据集重新训练模型的方法。
  • IFT "是 “指令微调”(Instruction Fine-Tuning)的缩写,是一种利用基于指令的数据集调整模型的方法。

该表显示了以下信息。

  • DSC-1.3B "是所用型号的名称。
  • Mavis "和 "Extended "是不同数据集的名称。
  • MathVerse w/o score "表示 MathVerse 评分标准的得分。其分数衡量学生解决数学问题的能力。
  • 例如,仅对 "梅维斯 "数据集进行评估时,得分是 20.2,但在执行 "CPT "后,得分提高到 25.1。

这些结果表明,结合不同的训练方法可以提高模型的性能。每种方法的得分提升范围也有详细显示,这有助于了解这些方法的具体效果。

在这里插入图片描述
本表比较了不同语言模型(LLM)在数学基准测试 We-Math 中的表现。

模型和基础 LLM 栏:.

  • 模型栏列出了每个模型的名称,下面显示了所使用的基本模型(Base LLM)。
  • 基础 LLM 是用于自然语言处理的主要模型,在每个模型中都会用到。

专有型号:.

  • 这些都是公司拥有的私人模型。
  • 有多种不同性能级别的型号,如 Qwen-VL-Max 和 GPT-4o。

开源模型:.

  • 这是一个公开的开源模型。
  • 介绍了许多型号,包括 LLaVA 系列和 DeepSeek-VL。

我们的机型:.

  • 这是研究小组自己开发的模式。
  • 可以看出,InfiMM-Math 使用的是 DeepSeek-Coder-1.3B 和 DeepSeek-Base-7B 基本模型。

绩效指标:.

  • AVG 表示平均性能得分。越高表示整体越好。
  • IK(知识不足)是指知识不足的百分比,越低越好。
  • 不充分概括 (IG) 是对不充分概括的衡量;该值越高越好。
  • 完全掌握 (CM) 表示完全理解,应为高分。
  • RM(Rote Memorisation)是死记硬背的比率,数值越低,表示理解越自然。

该图表的目的是方便直观地显示每个模型的性能如何。它是衡量模型总体掌握程度或知识欠缺程度的一种手段。它还显示了专有模型与其他公开模型相比的竞争力。
在这里插入图片描述

本表比较了不同机器学习模型的性能。表中列出了每个模型的平均得分(AVG)和基于特定评估标准(IK、IG、CM、RM)的得分。

  • 专有型号 "类别包括 Qwen-VL-Max 和 GPT-4V 等专有型号,每种型号都有不同的评估指数。例如,与其他型号相比,GPT-4o 的 "CM "得分特别高(35.2)。
  • 开源模型 "类别包括 LLaVA 系列和 Math-LaVA 等开源模型。这些模型的 AVG 分数通常低于专有模型,但也有更注重视觉信息的模型。
  • 我们的模型 "展示了一个名为 InfiMM-Math 的独特模型,它使用了 DeepSeek-Coder-1.3B 和 DeepSeek-Base-7B 等基本模型。这些模型在某些评估标准(IK、IG 和 CM)上的得分不亚于或优于其他开源模型。

通过该表,可以一目了然地了解不同模型的优缺点,对那些对数学推理能力感兴趣的人尤其有用。

在这里插入图片描述
本表显示了分类模型的评估结果。使用的两个模型是 LLM 分类器和 FastText 分类器。每个模型在基准 MMLU (STEM) 和 GSM8K 上的得分均已列出。

首先,"MMLU (STEM) "是一项评估各种科学和技术领域知识的测评,LLM-分类器得分 32.8,FastText-分类器得分 31.1。其次,GSM8K 是一项评估数学推理能力的基准测试,LLM-Classifier 的得分率为 17.5%,FastText-Classifier 的得分率为 20.2%。这表明 FastText-Classifier 在 GSM8K 中更胜一筹。

文本的平均长度也显示出来,LLM-分类器的平均长度为 2500,FastText-分类器的平均长度为 1700。这表明,即使发布的信息较少,快速文本分类器也可能更有效。

相关文章:

InfiMM-WebMath-40B——利用由 24 亿数学文档组成的数据集提高 LLM 的数学性能

1. 前言 论文地址:https://arxiv.org/abs/2409.12568 本文提出了一个新的大规模多模态预训练数据集 InfiMM-WebMath-40B,以提高数学推理能力。该数据集包含 24 亿个科学和数学相关的网络文档、85 亿个图片 URL 和约 400 亿个文本标记。该数据集支持多模…...

Swarm-LIO: Decentralized Swarm LiDAR-inertial Odometry论文翻译

文章目录 前言一、介绍二、相关工作三、方法A. 问题表述B. 框架概述C. 群体系统的初始化D. 去中心化激光雷达-惯性状态估计 四. 实验A. 室内飞行B. 退化环境飞行C. 去中心化部署 五. 结论和未来工作 前言 原文:原文 准确的自我状态和相对状态估计是完成群体任务的关…...

第十八章 Vue组件样式范围配置之scoped

目录 一、引言 二、案例演示 2.1. 工程结构图 2.2. 核心代码 2.2.1. main.js 2.2.2. App.vue 2.2.3. BaseOne.vue 2.2.4. BaseTwo.vue 2.3. 运行效果 2.4. 调整代码 2.4.1. BaseTwo.vue 2.4.2. 运行效果 三、scoped原理 一、引言 前面的几个章节在介绍组件的时…...

【JavaScript】JavaScript 进阶-3-编程思想构造函数原型(更新中)

目录 编程思想构造函数原型 编程思想 构造函数 原型...

头歌网络安全爬虫

#!/usr/bin/env python # -*- coding: utf-8 -*- # Time : 2020/4/8 8:19 # File : info.py # ---------------------------------------------- # ☆ ☆ ☆ ☆ ☆ ☆ ☆ # >>> Author : Alex # >>> QQ : 2426671397 # >>> Mail…...

二、k8s快速入门之docker+Kubernetes平台搭建

centosmaster192.168.100.10centosnode1192.168.100.20centosnode2192.168.100.30 除特殊说明命令都需要在三台都执行 ⭐️ k8s 的指令: kubeadm:用来初始化集群的指令kubelet: 在集群中的每个节点上用来启动Pod和容器kubectl: 用来与集群通信的命令行…...

k8s的发展历史

Kubernetes(通常缩写为 K8s)是一个开源的容器编排平台,用于自动化应用程序的部署、扩展和管理。它的发展历史可以追溯到多个关键的里程碑: 1. 起源(2013 年) Kubernetes 的起源可以追溯到 Google 的内部项…...

Pytorch lightning多机多卡训练通讯问题(NCCL error)排查

一、问题 单机多卡可以正常训练模型,多机多卡数据加载完成后卡住不动,排查两台机器可以ping通,表明网络没有问题,查看bug信息是NCCL通信问题。报错信息大致如下: torch.distributed.DistBackendError: NCCL error in: …/torch/c…...

React如何实现Vue的keepAlive功能

前言 在React中,默认情况下组件在被卸载后会销毁状态,这与Vue的keep-alive功能不同。在Vue中,keep-alive组件可以缓存组件状态,在路由切换时重新挂载。实现这一功能在React中并不简单,但我们可以借助一个第三方库——…...

在 Ubuntu 22.04 LTS 上安装 NVM (Node Version Manager) 管理和切换不同版本的 Node.js npm

安装 nvm curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.1/install.sh | bash# nvm --version 0.40.1安装 Node.js 的不同版本 列出所有可用的 Node.js 远程版本 nvm ls-remotenvm install v18.20.4# node --version v18.20.4# nvm current v18.20.4npm 是 …...

如何搭建题库管理小序❓

土著刷题小🍊序不仅能够作为组织考试的利器,它同样可以帮助教育培训机构构建一个强大且高效的题库管理系统。 下面跟随我们的指导,一起来看看如何利用土著刷题小🍊序轻松快捷地建立起自己的题库,并享受其所带来的诸多好…...

Spring Boot框架下校园社团信息管理的创新实践

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常…...

vscode clangd for cuda 插件配置

这里写目录标题 1. 下载插件clangd,并且安装server到host2. 配置3. 安装调试插件 1. 下载插件clangd,并且安装server到host 步骤 extension下载 altshiftp, 下服务,如果下不下来请考虑用🪜 下载好后check一下,检查是否正常 正常的标志 注意…...

软件测试学习笔记丨SeleniumPO模式

本文转自测试人社区,原文链接:https://ceshiren.com/t/topic/22525 本文为霍格沃兹测试开发学社的学习经历分享,写出来分享给大家,希望有志同道合的小伙伴可以一起交流技术,一起进步~ 说明:本篇博客基于sel…...

研发效能DevOps: Vite 使用 Vue Router

目录 一、实验 1.环境 2.初始化前端项目 3.安装vue-router 4.Vite 使用 Vue Router 二、问题 1.运行出现空页面 2.Vue Router如何禁止页面回退 一、实验 1.环境 (1)主机 表1 主机 系统 软件版本备注Windows11VS Code1.94.2Node.jsv18.20.4(LT…...

记第一次本地编译seatunnel源码

拉取代码 git clone https://github.com/apache/seatunnel.git 使用版本 我们生产环境用的是2.3.5版本,所以基于2.3.5-release分支代码进行编译。 maven package过程 遇到的第一个问题:‘com.sun.tools.javac.tree.JCTree com.sun.tools.javac.tree…...

《云主机配置全攻略》

《云主机配置全攻略》 一、云主机配置的重要性二、配置云主机的关键要素(一)CPU 的选择(二)内存的考量(三)硬盘的抉择(四)带宽的确定(五)机房线路的考虑&…...

RHCE nginx架构和安装

nginx架构和安装 nginx架构和安装1.1 nginx架构1.2 安装nginx1.1.1 本地安装1.1.2 官网安装1.1.3 源码安装 1.3 控制服务1.4 页面自定义 nginx架构和安装 nginx是多进程组织模式,而且是一个由 Master 主进程和 Worker 工作进程组成 1.1 nginx架构 1.2 安装nginx …...

Jmeter自动化实战

一、前言 由于系统业务流程很复杂,在不同的阶段需要不同的数据,且数据无法重复使用,每次造新的数据特别繁琐,故想着能不能使用jmeter一键造数据 二、创建录制模板 可参考:jmeter录制接口 首先创建一个录制模板 因为会有各种请求头,cookies,签名,认证信息等原因,导致手动复制…...

构建高效的Java SOCKS5代理:从零开始的网络转发实现

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…...

Docker 运行 Kafka 带 SASL 认证教程

Docker 运行 Kafka 带 SASL 认证教程 Docker 运行 Kafka 带 SASL 认证教程一、说明二、环境准备三、编写 Docker Compose 和 jaas文件docker-compose.yml代码说明:server_jaas.conf 四、启动服务五、验证服务六、连接kafka服务七、总结 Docker 运行 Kafka 带 SASL 认…...

【网络安全产品大调研系列】2. 体验漏洞扫描

前言 2023 年漏洞扫描服务市场规模预计为 3.06(十亿美元)。漏洞扫描服务市场行业预计将从 2024 年的 3.48(十亿美元)增长到 2032 年的 9.54(十亿美元)。预测期内漏洞扫描服务市场 CAGR(增长率&…...

土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测;从基础到高级,涵盖ArcGIS数据处理、ENVI遥感解译与CLUE模型情景模拟等

🔍 土地利用/土地覆盖数据是生态、环境和气象等诸多领域模型的关键输入参数。通过遥感影像解译技术,可以精准获取历史或当前任何一个区域的土地利用/土地覆盖情况。这些数据不仅能够用于评估区域生态环境的变化趋势,还能有效评价重大生态工程…...

2025季度云服务器排行榜

在全球云服务器市场,各厂商的排名和地位并非一成不变,而是由其独特的优势、战略布局和市场适应性共同决定的。以下是根据2025年市场趋势,对主要云服务器厂商在排行榜中占据重要位置的原因和优势进行深度分析: 一、全球“三巨头”…...

【Linux系统】Linux环境变量:系统配置的隐形指挥官

。# Linux系列 文章目录 前言一、环境变量的概念二、常见的环境变量三、环境变量特点及其相关指令3.1 环境变量的全局性3.2、环境变量的生命周期 四、环境变量的组织方式五、C语言对环境变量的操作5.1 设置环境变量:setenv5.2 删除环境变量:unsetenv5.3 遍历所有环境…...

在 Spring Boot 中使用 JSP

jsp&#xff1f; 好多年没用了。重新整一下 还费了点时间&#xff0c;记录一下。 项目结构&#xff1a; pom: <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://ww…...

深入浅出Diffusion模型:从原理到实践的全方位教程

I. 引言&#xff1a;生成式AI的黎明 – Diffusion模型是什么&#xff1f; 近年来&#xff0c;生成式人工智能&#xff08;Generative AI&#xff09;领域取得了爆炸性的进展&#xff0c;模型能够根据简单的文本提示创作出逼真的图像、连贯的文本&#xff0c;乃至更多令人惊叹的…...

java高级——高阶函数、如何定义一个函数式接口类似stream流的filter

java高级——高阶函数、stream流 前情提要文章介绍一、函数伊始1.1 合格的函数1.2 有形的函数2. 函数对象2.1 函数对象——行为参数化2.2 函数对象——延迟执行 二、 函数编程语法1. 函数对象表现形式1.1 Lambda表达式1.2 方法引用&#xff08;Math::max&#xff09; 2 函数接口…...

命令行关闭Windows防火墙

命令行关闭Windows防火墙 引言一、防火墙:被低估的"智能安检员"二、优先尝试!90%问题无需关闭防火墙方案1:程序白名单(解决软件误拦截)方案2:开放特定端口(解决网游/开发端口不通)三、命令行极速关闭方案方法一:PowerShell(推荐Win10/11)​方法二:CMD命令…...

C++中vector类型的介绍和使用

文章目录 一、vector 类型的简介1.1 基本介绍1.2 常见用法示例1.3 常见成员函数简表 二、vector 数据的插入2.1 push_back() —— 在尾部插入一个元素2.2 emplace_back() —— 在尾部“就地”构造对象2.3 insert() —— 在任意位置插入一个或多个元素2.4 emplace() —— 在任意…...