当前位置: 首页 > article >正文

论文阅读笔记——Emerging Properties in Unified Multimodal Pretraining

BAGEL 论文
商业闭源系统与学术/开源模型的差距很大,BAGEL 旨在通过开源统一架构+大规模交错数据主要解决:

  1. 架构割裂:理解/生成分属两条网络,信息被压缩在少量条件 token 中,长上下文推理受限。
  2. 数据贫乏:主要依赖静态图文对,缺乏真实世界的时序、物理与因果信号。
  3. 能力天花板:在复杂任务(自由图像操控、未来帧预测、世界导航)上与闭源模型存在数量级差距。

随着交织多模态预训练规模扩大,基础多模态理解与高保真生成能力最先收敛;随后涌现复杂编辑与自由视觉操控能力;最终长上下文推理开始赋能多模态理解与生成,表明原本独立的原子技能协同形成了跨模态的组合推理能力。
当前主流架构有三种:

  • 自回归视觉生成:使用离散视觉 tokenizer(如 VQGAN)将图像编码为 tokens,通过自回归 Transformer 直接预测下一 token(文本 / 视觉统一建模)。代表模型如 Janus、Chameleon 等。优势是架构简单,可复用现有 LLM 基建,易于实现端到端训练。但生成质量受限,视觉生成效果显著低于扩散模型(如 SDXL),因自回归的顺序生成难以建模复杂像素依赖;并且推理效率低,逐 token 生成导致长序列推理延迟高(如生成 1024x1024 图像需数千步)。
  • 外接生成模型:使用 LLM 甚至 VLM 作为 backbone,生成语义 condition,通过轻量级 Adapter 连接预训练扩散模型,其基于语义 condition 生成图像。代表模型如 DreamLLM、SEED-X、MetaQuery、BLIP3-o等。优势是可复用预训练权重,收敛迅速;且受益于扩散模型的高保真图像合成能力,生成质量高。但存在语义瓶颈,LLM 需将长上下文压缩为少量 latent tokens(如 64x64 特征图),导致细节丢失,尤其在长序列推理中表现不佳;且跨模态交互弱,理解与生成模块通过Adapter间接连接,难以实现深度语义对齐。
  • 统一集成 Transformer:将 LLM 与扩散模型统一在单个 Transformer 架构中,共享自注意力层,支持端到端跨模态推理。代表模型如Transfusion、JanusFlow等。优势是无交互瓶颈,文本、图像、视频 tokens 在同一 Transformer 层中直接交互,避免信息压缩;且可扩展性强,支持大规模交错数据训练,兼容长上下文和复杂任务;最重要的是通过共享参数,理解与生成能力可协同优化,促进复杂推理能力的涌现。但存在的挑战很明显,训练成本高,需同时优化语言建模与扩散生成,计算资源需求显著高于前两类方案。

字节这篇工作核心是通过交错多模态数据(包括图像、视频、导航等多种信息),结合更多场景的导航数据,把多模态信息直接作为模型输入,而不是像以前那样把视觉等信息仅作为文字条件或辅助提示。模型内部通过分离的FFN和KV机制设计,保证不同模态数据既能保持各自特征,又能互相影响和融合,增强了跨模态的深度理解和推理能力。底层模型基于Qwen2.5做调整和优化,使得这套架构能很好支持论文里提到的图像理解、视频处理、导航等复杂任务,实现更强的多模态交互和应用。
这样,模型不再是单向地用文字去“控制”图像信息,而是多模态数据间双向、甚至多向地相互作用。

在这里插入图片描述

在训练过程中,构建了三种视觉表征:噪声化 VAE 表征(用于 Rectified-Flow)、纯净 VAE 表征(作为图像/文本 token 生成的条件输入)、ViT 视觉表征(统一不同模态数据输入规范)——区分扩散与自回归生成。使用了广义因果注意力,采用 Pytorch FlexAttention,KV 缓存规则——仅存储纯净的 VAE 表征和 ViT 视觉表征(噪声 VAE 是前向扩散阶段的噪声预测,仅用于 MSE);图像生成完成后,上下文的含噪 VAE 标记被替换为纯净版。采用 Classifier-Free Guidance,对文本采用 10% 的 dropout,ViT 采用 50% 的 dropout,纯净 VAE 采用 10% 的 dropout。
理解专家(处理Text / ViT tokens)与生成专家(处理 VAE tokens)共享自注意力层,实现语义信息的无损传递(如下图所示,MoT 架构的 MSE 损失收敛更快,CE Loss也稳定更低)。
在这里插入图片描述
覆盖文本、图像、视频、网页四大模态,总量达数万亿token

  • 视频-文本交错数据:来自公开视频库(如 YouTube 教育视频、科普短片)+ 开源数据集 Koala36M(含交互场景)、MVImgNet2.0(多视角物体数据)。
  • 网页-文本交错数据:来自OmniCorpus 网页数据集(含教程、百科、设计文档)+ 结构化编辑数据集(如 OmniEdit、UltraEdit)。
  • 以及推理以增强数据:包括文生图、自由图像操控和智能编辑,使用开源VLM/LLM辅助构建推理过程。
    训练时采用四阶段渐进训练
  1. 对齐阶段:仅训练视觉 - 语言连接器,对齐 ViT 与语言模型。
  2. 预训练阶段:全模型训练,以图像 - 文本对为主(占比 60%),初步掌握基础生成。
  3. 持续训练阶段:提升视频 / 网页数据比例(各占 15%),增加分辨率至 1024x1024,强化长上下文推理。
  4. 监督微调阶段:精选高质量指令数据,优化多轮对话与复杂编辑。

实验

在这里插入图片描述

在 MMMU 和 MM-Vet 基准测试中,BAGEL显著超越开源统一模型Janus-Pro,提升了 14.3 分和 17.1 分。与 Qwen2.5-VL 和 InternVL2.5 等专用理解模型相比,BAGEL 在大多数这些基准测试中表现出更优越的性能,这表明我们的 MoT 设计在保持强大视觉理解能力的同时,有效缓解了任务冲突。
在这里插入图片描述
采用GenEval评测物体对齐与属性生成能力,采用WISE评测世界知识推理能力,从上表定量结果可以发现:在GenEval上BAGEL取得88% 总分,超越 SD3-Medium(74%)、Janus-Pro(80%),接近 FLUX.1-dev(82%)。在WISE上,BAGEL取得52% 原始得分,启用 “CoT” 后提升至 70%,比未使用 CoT 的版本高出 0.18,且显著超越了所有现有开源模型(之前的最佳成绩为 MetaQuery-XL 的 0.55),逼近 GPT-4o(80%)。
在这里插入图片描述

相关文章:

论文阅读笔记——Emerging Properties in Unified Multimodal Pretraining

BAGEL 论文 商业闭源系统与学术/开源模型的差距很大,BAGEL 旨在通过开源统一架构大规模交错数据主要解决: 架构割裂:理解/生成分属两条网络,信息被压缩在少量条件 token 中,长上下文推理受限。数据贫乏:主…...

JAVA批量发送邮件(含excel内容)

EmailSenderHtmlV1 是读取配置文件《批量发送邮件.xlsx》,配置sheet获取 发件人邮箱 邮箱账号 口令,发送excel数据sheet获取收件人邮箱 抄送人邮箱 邮件标题 第N行开始(N>1,N0默认表头) 第M行结束(M>1,M0默认表头) 附件文件夹…...

Linux(Ubuntu)新建文件权限继承问题

当你在一个工作目权限为777的文件下,新建一个文件的时候,就有可能发生,新建的这个文件,权限和其他文件,或者工作目录不一致的问题,我们不可能每次新建一个文件,就要 sudo chmod -R 777 /PATH 所…...

Java中的String的常用方法用法总结

1.1 String (1)声明 (2)字符串常量 存储字符串数据的容器:private final char value[] 字符串常量都存储在字符串常量池(StringTable)中 字符串常量池不允许存放两个相同的字符串常量 &#xff…...

QGIS如何打开 ARCGIS的mxd工程文件

“SLYR”是一款由著名开源组织“北路开源”开发的一套QGIS兼容和转换ARCGIS样式、工程、设置信息的插件!其主要功能为: 最近项目需要,我使用了一些功能,发现其对中文环境及中文信息支持不太好,还有一些其它BUG&#xf…...

基于微信小程序的智能问卷调查系统设计与实现(源码+定制+解答)基于微信生态的问卷管理与数据分析系统设计

博主介绍: ✌我是阿龙,一名专注于Java技术领域的程序员,全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师,我在计算机毕业设计开发方面积累了丰富的经验。同时,我也是掘金、华为云、阿里云、InfoQ等平台…...

React 如何封装一个可复用的 Ant Design 组件

文章目录 前言一、为什么需要封装组件?二、 仿antd组件的Button按钮三、封装一个可复用的表格组件 (实战)1. 明确需求2. 设计组件 API3. 实现组件代码4. 使用组件 三、封装组件的最佳实践四、进阶优化 总结 前言 作为一名前端开发工程师,在日常项目中&a…...

CloudWeGo-Netpoll:高性能NIO网络库浅析

一、Netpoll 简介 Netpoll 是由字节跳动开发的高性能 NIO(Non-blocking I/O)网络库,专注于 RPC 场景。在 RPC 场景中,通常有较重的处理逻辑,无法串行处理 I/O。而 Go 的标准库 net 设计了 BIO(Blocking I/…...

Mac的显卡架构种类

目录 一、Intel架构时期的Mac显卡(2006 年至 2020 年) 1. Intel 集成显卡(iGPU) 2. 独立显卡(dGPU)—— AMD 和 NVIDIA (1)AMD Radeon(主流独显选择) &a…...

HTTP基本概述

HTTP基本概述 报文格式 HTTP报文分为 请求报文 和 响应报文 一、请求报文 请求行(Request Line)请求头部(Request Headers)(空行)请求体(Request Body) ← 可选,如 P…...

Canvas SVG BpmnJS编辑器中Canvas与SVG职能详解

Canvas详解与常见API 一、Canvas基础 核心特性 • 像素级绘图:Canvas是基于位图的绘图技术,通过JavaScript操作像素实现图形渲染,适合动态、高性能场景(如游戏、数据可视化)。 • 即时模式:每次绘制需手动…...

dify多实例部署,一台机器部署多个dify实例

dify多实例部署 目的 实现在一台机器上,部署多个dify的实例。比如一个部署1.2版本,一个部署1.3版本。废话没有,直接上干货。 前提 你的电脑已经部署了一个dify实例,并成功运行。比如已经部署成功0.15.3版本。 步骤如下&#…...

ML 48.机器学习之临床生存树(rpartSurv)

简介机器学习中生存树(Survival Tree)的原理详解 生存树是结合决策树与生存分析的机器学习模型,主要用于处理带有时间-事件数据(包含删失数据)的预测问题。其核心目标是:通过树状结构对数据进行递归分割&am…...

HarmonyOS 应用开发,如何引入 Golang 编译的第三方 SO 库

本指南基于笔者临时修复的 ohos_golang_go 项目fork,解决HO 应用导入 cgo编译产物时的 crash 问题。 1. 下载 ohos_golang_go git clone https://gitcode.com/deslord/ohos_golang_go.git📌 该仓库为笔者临时修复版本,修复了 CGO 编译模式下…...

Axure元件动作六:设置图片

亲爱的小伙伴,在您浏览之前,烦请关注一下,在此深表感谢!如有帮助请订阅专栏! Axure产品经理精品视频课已登录CSDN可点击学习https://edu.csdn.net/course/detail/40420 案例视频: Axure元件动作:设置图片 课程主题:设置图片 主要内容:图片悬停、鼠标按下时、选中...

一体化雷达波明渠流量计简介

一、技术定义与核心原理 一体化雷达波明渠流量计是基于微波技术的全自动流量监测设备,采用 24G K 波段平面雷达技术,通过非接触式测量方式实现对明渠、河道、排水管网等场景的水位、流速及流量监测。其核心原理是利用雷达发射高频电磁波,经水…...

Pr -- 耳机没有Pr输出的声音

问题 很久没更新视频号了,想用pr剪辑一下,结果使用Pr打开后发现耳机没有Pr输出的声音 解决方法 在编辑--首选项-音频硬件中设置音频硬件的输出为当前耳机设备...

白皮精读:2024年国家数据基础设施建设指引【附全文阅读】

《国家数据基础设施建设指引》提出建设覆盖数据采集至安全全链条的新型基础设施,目标到 2029 年形成横向联通、纵向贯通的格局,聚焦数据可信流通、算力协同、高速传输、安全保障四大功能,明确技术架构与重点方向,强调政府与市场协同,分阶段推进试点及规模化部署,为数字中…...

【信息系统项目管理师】第21章:项目管理科学基础 - 23个经典题目及详解

更多内容请见: 备考信息系统项目管理师-专栏介绍和目录 文章目录 【第1~2题】【第3题】【第4题】【第5题】【第6题】【第7题】【第8题】【第9题】【第10题】【第11题】【第12题】【第13题】【第14题】【第15题】【第16题】【第17题】【第18题】【第19题】【第20题】【第21题】…...

Mocha-Webpack 使用教程

Mocha-Webpack 使用教程 mocha-webpackmocha test runner with integrated webpack precompiler项目地址:https://gitcode.com/gh_mirrors/mo/mocha-webpack 项目介绍 Mocha-Webpack 是一个结合了 Mocha 和 Webpack 的测试工具,它允许开发者在使用 Webpack 打包的…...

AI硬件革命:OpenAI“伴侣设备”——从概念到亿级市场的生态重构

2025年5月23日,OpenAI宣布以65亿美元全股收购苹果前首席设计师Jony Ive创立的AI硬件公司io,并计划于2026年底前推出首款“AI伴侣设备”,目标出货量达1亿台。这一消息迅速成为全球AI领域的热点,标志着AI技术从云端大模型向端侧硬件…...

穿屏技巧:Mac-Windows一套鼠标键盘控制多台设备 (sharemouse6.0-Keygen)| KM-401A

文章目录 引言I sharemouse6.0介绍功能介绍关闭自动更新安装包II 安装系统对应的sharemouse软件Windowsmac版本III 知识扩展:SCP、FTP、SSH文件传输SCP配置SSH密钥免密登录FTP(File Transfer Protocal,文件传输协议)引言 基于USB进行同步键盘和鼠标事件,更流畅。 基于局域…...

【写在创作纪念日】基于SpringBoot和PostGIS的各省东西南北四至极点区县可视化

目录 前言 一、空间检索简介 1、空间表结构 2、四至空间检索 二、前后端实现 1、后端实现 2、前端集成 三、成果展示 1、东部省份 2、西部省份 3、南部省份 4、北部省份 5、中部省份 四、总结 前言 在当今数字化时代,地理信息数据的分析与可视化对于众…...

【C/C++】线程状态以及转换

文章目录 线程状态以及转换1 基本状态1.1 新建(New)1.2 就绪(Ready / Runnable)1.3 运行中(Running)1.4 阻塞/等待(Blocked / Waiting / Sleeping)1.5 挂起(Suspended&am…...

从零开始:Python语言进阶之异常处理

一、认识异常:程序运行中的“意外事件” 在编写Python程序时,即使代码语法完全正确,运行过程中也可能遭遇各种意外情况。这些意外被称为异常,它们会打断程序的正常执行流程。例如,当我们尝试打开一个不存在的文件、用0…...

关于vue彻底删除node_modules文件夹

Vue彻底删除node_modules的命令 vue的node_modules文件夹非常大,常规手段根本无法删除. 解决方法: 在node_modules文件夹所在的路径运行命令窗口,并执行下面的命令. npm install rimraf -g rimraf node_modules说明: npm install rimraf -g 该命令是安装 node…...

如何制作可以本地联网搜索的MCP,并让本地Qwen3大模型调用搜索回答用户问题?

环境: SearXNG Qwen3-32B-FP8 vllm 0.8.5 问题描述: 如何制作可以本地联网搜索的MCP,并让本地Qwen3大模型调用搜索回答用户问题? 解决方案: 一、安装searxng 1.按需新建模型相关文件夹 mkdir MCP chmod 777 /mnt/program/MCP2.配置conda源 nano ~/.condarc nano…...

服务器硬盘虚拟卷的处理

目前的情况是需要删除逻辑卷,然后再重新来弄一遍。 数据已经备份好了,所以不用担心数据会丢失。 查看服务器的具体情况 使用 vgdisplay 操作查看服务器的卷组情况: --- Volume group ---VG Name vg01System IDFormat …...

一个国债交易策略思路

该国债交易策略的核心在于通过分析历史价格数据来识别市场趋势,并在趋势确认时进行开仓操作。策略的设计思路结合了价格波动范围的计算和市场波动性的评估,旨在捕捉市场的短期趋势并控制风险。 首先,策略通过对过去5根K线的最高价和最低价进行…...

Linux常用下载资源命令

wget命令 基本用法 wget -O http://example.com/file.zip-O 参数表示将文件保存为原始文件名。 如果需要指定文件名,可以使用 -o 参数: wget -o custom_name.zip http://example.com/file.zip-P :指定下载文件的保存路径。 wget -P /path/…...