当前位置：首页 > article >正文

清华大学提出统一多模态模型新突破：让AI同时学会“看“和“画“

article 2026/3/25 18:51:22

这项由清华大学、西安交通大学和中科院大学联合开展的研究发表于2026年的arXiv预印本论文编号arXiv:2603.12793v1研究团队开发了一个名为CHEERS的全新AI模型能够同时具备图像理解和图像生成两种截然不同的能力。对于大多数人来说看懂一张图片和画出一张图片是两种完全不同的技能。看图需要的是理解和分析能力就像我们在博物馆欣赏画作时能够识别画中的人物、场景和情感。而画图则需要创造和构建能力就像艺术家用画笔在画布上创作出全新的作品。在AI的世界里这两种能力同样存在着巨大差异就如同让一个擅长阅读的学生突然去创作小说一样困难。目前的AI系统通常只能专精其中一种能力。理解图像的AI模型就像一位优秀的艺术评论家能够准确描述画作的内容、风格和意义但却无法自己动手作画。而生成图像的AI模型则像一位技艺精湛的画家能够根据描述创作出精美的作品但却不善于分析和理解现有的画作。这种分工虽然各有专长但在实际应用中却带来了诸多不便就好比你需要同时雇佣一位翻译和一位作家才能完成一个完整的文学创作项目。CHEERS模型的革命性突破在于它成功地将这两种能力统一在同一个系统中就像培养出了一位既能深刻理解艺术又能亲手创作的全才艺术家。这个模型不仅能够准确理解和分析输入的图像内容还能够根据文本描述生成高质量的新图像在多个标准测试中的表现都达到了业界先进水平。更令人惊喜的是CHEERS在实现这种统一能力的同时还大幅提升了效率。传统方法就像是用两套完全不同的工具箱来处理不同任务而CHEERS则设计了一套通用工具箱不仅能处理所有任务还比原来的方法节省了80%的训练成本。这就好比发明了一台既能洗衣又能烘干的一体机不仅功能更全面还更加经济实用。一、统一多模态建模的挑战与机遇在深入了解CHEERS的技术细节之前我们需要理解为什么让AI同时具备看和画的能力会如此困难。这个挑战的根源在于这两种任务对信息处理方式的截然不同要求。当我们要求AI理解一张图片时就像要求一个人快速浏览一本图册并总结其内容。这个过程需要AI提取图像中的关键语义信息比如识别出图中有什么物体、这些物体之间的关系如何、整个场景传达了什么含义等等。这类似于一个经验丰富的图书馆管理员能够快速浏览一本书的内容并为其归类标记重点在于理解和概括。相反当我们要求AI生成一张图片时情况就完全不同了。这就像要求一个人根据别人的描述在画布上精确地重现出每一个细节。AI需要关注图像的每一个像素点确保颜色渐变自然、纹理细腻真实、边缘清晰锐利。这更像是一个精密的工匠需要对每个微小细节都精益求精。这种差异造成了一个根本性的矛盾。理解任务需要的是高层次的抽象概括能力就像用几个关键词就能概括一本书的主题。而生成任务需要的是低层次的细节构建能力就像需要逐字逐句地写出一个完整的故事。传统的AI系统很难在同一套框架内平衡这两种截然不同的需求。以往的解决方案主要有三种思路。第一种思路是完全分离就像在一个工作室里设置两个独立的工作区域一个专门用于分析鉴定另一个专门用于创作制作。这种方法虽然保证了各自的专业性但需要维护两套完全不同的系统成本高昂且难以协调。第二种思路是强行统一就像试图用同一套工具既做精密测量又做粗糙加工。这种方法虽然简化了系统结构但往往导致两个任务的表现都不尽如人意就像一个想要包打天下的万能工具最终可能什么都做不好。第三种思路是特征融合类似于将两套不同的工具混合在一起希望能够取长补短。但这种混合往往会导致相互干扰就像在调色板上混合太多颜色最终只能得到一团泥色。CHEERS团队在深入分析这些问题后提出了一个全新的解决思路。他们认为问题的关键不在于如何强行统一这两种不同的需求而在于如何巧妙地分离和重组信息处理流程。这就像在同一个工作室中设计了一个智能的信息分发系统能够将输入的原始信息按照不同任务的需要进行精准分配和处理。具体来说CHEERS采用了一种解耦策略将图像信息分为两个不同的层次语义信息和细节信息。语义信息就像是图像的身份证记录着这张图片的基本内容和含义主要用于理解任务。细节信息则像是图像的指纹保存着每个像素的精确特征主要用于生成任务。这种分离策略的巧妙之处在于它让同一个系统能够根据当前任务的需要选择性地使用不同类型的信息。当执行理解任务时系统主要依赖语义信息就像一个评论家主要关注作品的主题和风格而不必纠结于每一笔画的精确位置。当执行生成任务时系统则会在语义信息的指导下逐步添加细节信息就像画家先勾勒出作品的整体轮廓再逐步填充色彩和纹理细节。更重要的是CHEERS还设计了一个语义门控机制能够智能地控制在生成过程中何时、以多大强度添加细节信息。这就像一个经验丰富的画家知道在创作的不同阶段应该关注什么什么时候应该专注于整体布局什么时候应该精雕细琢局部细节。通过这种精心设计的架构CHEERS成功地解决了统一多模态建模的核心难题不仅在理解和生成两个任务上都取得了优异的表现还大幅降低了模型的训练成本和计算复杂度。二、CHEERS架构的三大核心组件CHEERS模型的成功源于其精心设计的三层架构每个组件都承担着特定的功能就像一个高效的生产流水线每个工位都有明确的职责最终协同完成复杂的任务。第一个核心组件是统一视觉标记器它的作用类似于一个智能的图像翻译员。当一张图片输入系统时这个组件首先将图片转换为计算机能够理解的数字信号就像将一幅画作转录成详细的文字描述。但与传统方法不同的是这个翻译员具有双重能力它既能提取图像的高层语义信息比如这是一只橘色的猫坐在沙发上又能保留图像的底层细节信息比如猫毛的具体纹理和沙发布料的质感。这个统一视觉标记器的工作流程就像一个经验丰富的艺术品鉴定师。当面对一幅画作时鉴定师会先用专业相机拍摄高分辨率的图像记录下每一个细微的笔触和色彩变化对应VAE编码器的功能然后通过专业软件重建画作的数字版本对应VAE解码器的功能最后运用自己的专业知识提取画作的艺术特征和历史背景对应SigLIP2-ViT编码器的功能。整个过程既保留了画作的完整信息又提取了便于分析的关键特征。为了提高处理效率这个组件还采用了一种叫做像素重排的技术将图像信息进行压缩整理。这就像将一张大尺寸的海报折叠成便于携带的小册子虽然物理尺寸变小了但所有的信息内容都完整保留。通过这种方式CHEERS实现了4倍的信息压缩大大提高了后续处理的效率。第二个核心组件是基于大语言模型的统一变换器它扮演着整个系统的大脑角色。这个组件建立在已经训练好的大语言模型基础上就像在一个已经具备丰富知识的图书馆基础上建设一个多媒体中心。它能够同时处理文字信息和图像信息并根据不同的任务需求采用不同的处理策略。当执行理解任务时这个大脑采用类似于阅读理解的方式从左到右、从上到下逐步分析输入的信息最终给出文字描述或答案。这就像一个学生在考试中回答问题需要仔细阅读题目和材料然后按照逻辑顺序组织答案。当执行生成任务时这个大脑则切换到一种全新的工作模式。它不再按照固定的顺序处理信息而是采用一种叫做扩散建模的方法就像一个画家在画布上作画。画家不需要从左上角开始逐个像素地填充颜色而是可以先在整个画布上铺上底色再逐步添加细节最后完成整幅作品。这种方式更符合人类的创作习惯也能产生更加自然和协调的图像效果。第三个核心组件是级联流匹配头它是CHEERS最具创新性的部分就像一个分工明确的艺术创作团队。这个组件将图像生成过程分为两个阶段每个阶段都有专门的专家负责。第一阶段的专家专注于整体布局和主要元素的构建就像建筑师首先设计建筑物的整体结构和主要功能区域。这个阶段主要依赖从统一变换器中获得的语义信息确保生成的图像在内容上符合文字描述的要求。比如如果文字描述是一只狗在公园里奔跑这个阶段就要确保画面中确实出现了狗、公园、奔跑的动作等核心元素。第二阶段的专家则专注于细节雕琢和质感提升就像室内设计师在建筑师完成主体结构后添加家具、装饰和各种细节元素。这个阶段会引入之前保存的细节信息通过一个智能的门控机制来决定何时、在哪里、以多大强度添加这些细节。这个门控机制就像一个经验丰富的画家知道在创作的不同阶段应该关注什么。在创作初期画家主要关注整体构图和色彩搭配此时门控机制会降低细节信息的权重。随着创作的深入当整体效果基本确定后画家开始关注局部细节和质感此时门控机制会逐步增加细节信息的权重让生成的图像越来越精细和真实。研究团队通过实验发现这种门控机制的行为模式与人类画家的创作过程高度相似。在生成过程的早期阶段细节信息的注入强度较低主要用于勾勒物体的基本轮廓。在中期阶段强度适中用于完善物体的形状和基本特征。在后期阶段强度显著增加用于添加纹理、光影等精细效果。这种渐进式的细节添加过程不仅提高了生成图像的质量还使整个过程更加稳定和可控。通过这三个组件的精密协作CHEERS成功实现了在同一个框架内既能深度理解图像内容又能生成高质量图像的目标。每个组件都在自己的专业领域内发挥着最大的作用同时又与其他组件保持着良好的协调配合就像一支训练有素的交响乐团每个乐手都专精自己的乐器但能够完美地融合在一起演奏出和谐优美的乐章。三、训练过程的渐进式策略CHEERS的训练过程就像培养一个从零开始学习艺术的学生需要经历四个循序渐进的阶段每个阶段都有明确的学习目标和训练重点。这种渐进式的培养方法确保了模型能够稳步掌握各项技能同时避免了不同任务之间的相互干扰。第一阶段是视觉语言对齐训练相当于让学生学习基础的看图说话技能。在这个阶段系统主要学习如何将看到的图像内容用文字准确描述出来就像教一个孩子认识苹果时要让他理解圆形、红色、水果这些概念之间的联系。研究团队使用了450万对图像和文字描述的配对数据就像给学生准备了450万张图片配文字的学习卡片。在这个阶段系统只训练新添加的组件投影器、流匹配头和门控模块就像一个学生在学习新技能时主要锻炼的是新的能力模块而不改变已有的基础知识结构。为了让系统同时具备初步的生成能力研究团队将ImageNet数据集重复了10次确保系统在学会理解的同时也开始接触图像生成的基础概念。第二阶段是通用预训练就像让学生进入正式的综合性学习阶段。这时除了固定的图像编解码器外所有的模型参数都参与训练就像学生开始全面发展各项技能。这个阶段使用了3000万个多模态样本涵盖了理解、生成和纯文本三种类型的任务比例为3:6:1。这种配比就像为学生安排的课程表30%的时间学习图像理解60%的时间练习图像生成10%的时间巩固文字处理能力。理解训练数据主要来自高质量的图像描述数据集生成训练数据则包括预训练数据和一小部分合成数据。这种搭配就像让学生既学习真实世界的案例又练习一些精心设计的习题确保知识结构的完整性。纯文本数据的加入则是为了保持系统原有的语言处理能力不退化就像在学习新技能的同时不能忘记已掌握的基础知识。第三阶段是精细化预训练相当于让学生进入专项强化训练阶段。这个阶段的重点是提升视觉推理能力和语义对齐效果使用了3300万个样本仍然保持3:6:1的任务比例。但这次的数据质量更高内容更加精细和专业。理解训练数据融合了多个高质量数据集生成训练数据则主要使用合成数据这些合成数据是用高性能模型生成的质量和多样性都比之前有显著提升。特别值得注意的是为了提升系统在组合推理方面的能力比如理解计数、颜色、空间关系等研究团队还专门制作了46.6万条基于Objects365数据集的指令数据。这就像为学生专门设计了一套逻辑思维训练题帮助他们掌握更复杂的推理技巧。第四阶段是监督微调类似于考前的冲刺训练。这个阶段使用380万个精选样本在理解和生成任务之间保持1:1的平衡。这些数据都是经过精心筛选的高质量样本包括第三阶段数据的精选子集以及一些专门的高质量数据集如Echo-4o-Image、MoviePosters和ShareGPT-4o-Image等。整个训练过程的学习率也采用了渐进式的调整策略从第一阶段的1e-4开始逐步降低到第四阶段的2e-5就像学生的学习强度随着技能的成熟而逐步精细化。训练的批量大小在前三个阶段保持为512最后阶段降低到128这种调整有助于模型在最后阶段更好地收敛和稳定。通过这种精心设计的四阶段训练策略CHEERS不仅成功掌握了理解和生成两种能力还展现出了一些意想不到的涌现能力。比如尽管在训练过程中从未接触过图像编辑任务但训练完成后的模型竟然具备了一定的图像编辑能力能够改变图像的背景颜色、将苹果变成西瓜等。这种涌现能力的出现证明了统一视觉标记器设计的有效性不同视觉任务确实能够在共享的特征空间中实现能力的相互促进和迁移。四、实验结果与性能表现CHEERS在各项测试中的表现就像一位全能选手在多项竞技比赛中都获得了优异成绩不仅在单项能力上与专业选手不相上下还展现出了罕见的全面性优势。在图像理解能力的测试中研究团队选择了十个不同类型的评测基准就像为这位全能选手安排了十场不同项目的比赛。这些测试涵盖了通用理解、文字识别、视觉空间分析和知识推理四大类别全面检验了模型的理解能力。在通用理解测试中CHEERS在SEEDBench上获得了71.7分MMStar上获得50.9分MMBench上获得70.4分。这些成绩在同等规模的统一多模态模型中都处于领先地位。特别值得关注的是CHEERS在文字识别相关的测试中表现尤为出色在ChartQA上获得75.7分在OCRBench上获得58.4分这证明了通过像素重建再进行语义编码的设计确实有效保留了图像中的精细文字信息。在图像生成能力的测试中CHEERS接受了两个主要基准的挑战GenEval和DPG-Bench。GenEval专门测试模型的组合生成能力包括单物体生成、双物体生成、计数、颜色、位置和颜色属性等六个方面。CHEERS在这个测试中获得了0.78的综合得分超过了包括Tar在内的多个先进模型。更令人印象深刻的是各个细分项目的表现。在单物体生成方面CHEERS达到了0.98分几乎做到了完美在双物体生成方面获得0.92分在计数任务中获得0.65分在颜色准确性方面获得0.86分在位置控制方面获得0.63分在颜色属性控制方面获得0.65分。这种全面优秀的表现就像一个画家不仅能画出单个物体还能准确控制多个物体的组合、颜色和位置关系。在DPG-Bench测试中CHEERS获得了83.48的综合得分在全局一致性、实体准确性、属性正确性、关系处理和其他方面都取得了平衡的好成绩。这个测试专门评估模型在复杂多实体场景中的语义对齐和指令跟随能力CHEERS的优秀表现证明了其在理解和执行复杂创作指令方面的强大能力。最引人注目的是训练效率的比较。CHEERS仅使用了8300万个训练样本就达到了这些优异成绩而对比的一些模型使用了多达4.03亿个训练样本。这就像一个学生用五分之一的学习时间就考出了同样优秀的成绩展现出了惊人的学习效率。具体来说CHEERS只需要约20%的训练成本就超越了Tar模型在GenEval和MMBench上的表现这种效率优势在实际应用中具有重要价值。为了更深入地理解CHEERS的工作机制研究团队还对高频注入机制进行了详细分析。通过可视化生成过程中每个时刻的高频信息注入强度他们发现了一个有趣的规律这种注入强度随时间的变化曲线与人类画家的创作过程惊人相似。在生成的早期阶段高频信息注入强度较低系统主要关注整体布局和主要轮廓的构建。到了中期阶段注入强度适中系统开始完善物体的基本形状和特征。在后期阶段注入强度显著增加系统专注于添加纹理、细节和精细效果。这种自适应的细节添加模式完全是模型自主学习的结果没有人为设定却与人类的创作直觉高度吻合。研究团队还进行了详细的消融实验验证了各个组件的重要性。当移除高频注入机制时虽然模型仍能生成语义正确的图像但生成质量显著下降缺乏精细的纹理和细节。当同时训练理解和生成任务时不仅获得了生成能力理解性能也略有提升证明了两种任务之间存在有益的相互促进作用。这些实验结果充分证明了CHEERS设计理念的正确性和实现方案的有效性。通过巧妙的架构设计和精心安排的训练策略CHEERS成功实现了高效统一多模态建模的目标在保持优秀性能的同时大幅降低了训练成本为未来的多模态AI发展提供了新的思路和方向。五、技术创新与未来展望CHEERS的技术创新不仅仅体现在优异的性能表现上更重要的是它为整个AI领域带来的思维方式转变和发展启示。这项研究证明了一个重要观点与其让AI系统在不同任务间相互妥协不如让它们在统一框架内各展所长。最核心的创新在于解耦设计理念的成功实践。传统方法就像试图用同一把钥匙打开所有的门往往导致哪扇门都打不好。CHEERS则像一个智能钥匙链能够根据不同的门锁自动选择合适的钥匙。这种设计不仅解决了多任务学习中的优化冲突问题还为AI系统的可扩展性开辟了新的可能性。另一个重要创新是高频注入机制的自适应特性。这个机制没有依赖复杂的人工设计或大量的超参数调整而是通过端到端的学习自动形成了与人类创作过程相似的行为模式。这种涌现智能的出现表明当我们为AI系统提供了合适的架构和充分的学习机会时它们可能会自发地发展出符合人类直觉的工作方式。从实用性角度来看CHEERS的4倍标记压缩率在实际应用中具有重要意义。这就像将高分辨率图像的行李箱压缩到原来的四分之一但所有重要物品都完整保留。这种压缩不仅减少了存储和传输成本还大幅提高了处理速度使得高分辨率图像的实时处理成为可能。更令人兴奋的是CHEERS展现出的涌现能力。尽管从未专门训练图像编辑任务但模型自然具备了改变背景颜色、物体替换等编辑功能。这就像一个学会了读写的人突然发现自己也能作诗一样这种跨任务的能力迁移暗示着统一多模态模型可能具有比预期更广阔的应用潜力。当然这项研究也面临一些挑战和限制。首先是模型规模相对较小15亿参数的配置虽然在效率上有优势但在处理极其复杂的场景时可能仍有提升空间。研究团队坦诚地指出未来可以通过扩大模型规模和训练数据来进一步提升性能。其次是训练数据的局限性。目前的训练主要基于单图像数据缺少视频、多图像序列等更复杂的多模态数据。这就像一个画家只学过静物画却没有学过动画制作虽然基础扎实但在某些应用场景下可能受限。第三个挑战是模型的可解释性。虽然研究团队通过可视化分析揭示了一些工作机制但对于为什么某些设计选择会产生特定效果仍有很多未解之谜。这种黑箱特性在某些对可靠性要求极高的应用场景中可能会成为障碍。展望未来CHEERS开辟的技术路径有着广阔的发展前景。在短期内这种统一框架可以扩展到更多的模态比如音频、视频甚至3D空间数据实现真正的全模态AI系统。我们可以想象一个能够同时理解文字、图像、声音和空间关系的AI助手能够在虚拟现实环境中与人类进行自然交互。在中期发展中这种解耦设计理念可能会启发更多领域的AI研究。比如在自然语言处理中可能会出现将语法理解和语义生成分离的新架构在机器人控制中可能会发展出将感知和行动解耦的新方法。这种思维方式的推广可能会带动整个AI领域的架构革新。从长期角度看CHEERS代表的统一多模态建模方向可能是通向更通用人工智能的重要一步。当AI系统能够在统一框架内处理越来越多的任务和模态时它们就越来越接近人类的认知方式。人类大脑也是一个统一的系统却能够处理视觉、听觉、语言、运动等各种不同类型的信息CHEERS的成功证明了这种统一性在AI系统中的可行性。对于普通用户而言这项技术的成熟应用可能会带来革命性的体验改变。未来的AI助手不再需要在理解图片和生成图片之间切换不同的模式而是能够在同一对话中无缝地分析你展示的图片并根据你的需求创作新的图像。这种一体化的交互方式将使AI真正成为我们创作和生活中的得力伙伴。总的来说CHEERS不仅在技术层面取得了显著突破更重要的是为AI发展提供了新的思路和方向。它证明了通过精心的架构设计和训练策略我们可以在保持高效性的同时实现真正的多任务统一这为构建更强大、更实用的AI系统奠定了坚实基础。QAQ1CHEERS模型是什么ACHEERS是由清华大学等机构开发的统一多模态AI模型能够同时具备图像理解和图像生成两种能力。它就像一个既能看懂画作又能画出作品的全能艺术家可以准确理解输入图像的内容也能根据文字描述生成高质量的新图像。Q2CHEERS与传统AI模型有什么不同A传统AI模型通常只能专精一种能力要么擅长理解图像要么擅长生成图像。CHEERS通过解耦设计将图像信息分为语义信息和细节信息让同一个系统能够根据不同任务需要选择性使用这些信息从而在一个框架内同时实现两种能力。Q3CHEERS的训练效率如何ACHEERS的训练效率非常高仅使用8300万个训练样本就达到了优异性能比一些对比模型节省了80%的训练成本。同时实现了4倍的信息压缩率大大提高了处理速度和降低了计算成本。

清华大学提出统一多模态模型新突破：让AI同时学会“看“和“画“

相关文章：

清华大学提出统一多模态模型新突破：让AI同时学会“看“和“画“

5分钟部署数字人：lite-avatar形象库快速集成教程

LWNN：面向8位单片机的零堆内存轻量神经网络C++库

Python实战：5步搞定MFCC语音特征提取（附完整代码）

SEO_新手必看的SEO优化入门教程与核心方法（381 ）

GitHub热键库@github/hotkey：5分钟快速上手网页键盘快捷键开发终极指南

FreeSWITCH视频通话常见问题排查：编解码错误与媒体协商失败解决方案

Public Sans字体深度测评：开源无衬线字体的技术特性与场景适配分析

AI元人文：岐金兰再次致敬黄玉顺教授

各个主体的自感，让德里达的踪迹与延异说，成就了各个主体的“内在-外部”世界统一而多元，成就了时间性与空间的辩证统一。

postgresql(15)使用yum安装后环境变量信息

OBS录屏进阶技巧：精准捕获目标窗口与自定义画质优化

拜尔模板（Bayer Pattern）在数字图像处理中的核心作用与优化策略

3个技巧教你用抖音批量下载工具实现抖音资源高效管理

TileLang：让GPU编程像Python一样简单的高性能计算新范式

AnimateDiff开源贡献：PyTorch核心代码解读与修改

Yuxi-Know部署与运维深度指南：从零到生产环境的完整解决方案

MacBook Touch Bar个性化：从效率痛点到指尖革命的全面解决方案

从官方Demo到项目集成：海康MV-EB435i RGBD相机C++采集与OpenCV图像处理实战

基于Qt C++开发一款针对武合干线量子通信工程的监控与管理平台

安装包制作教程：将Qwen3-ForcedAligner-0.6B打包为Windows应用

Qwen3-0.6B-FP8模型转换与优化：从Hugging Face到星图平台部署

Fish Speech 1.5实操手册：解决语音不自然、克隆失真等高频问题

华为OD机考双机位C卷 - 区间连接器（Java）

基于RBF神经网络的机械臂轨迹跟踪控制优化及其Matlab仿真实现

保姆级教程：用HBuilderX给UniApp安卓项目制作支持MQTT插件的自定义基座

别再手动P图了！用Python+OpenCV给图片批量加Logo水印，5分钟搞定

终极iOS越狱指南：使用palera1n突破iOS 15.0+设备限制的完整方案

仅限内部技术团队流通的Dify异步接入SOP（含安全审计清单+可观测性埋点规范）

STM32水质检测系统设计与实现