当前位置: 首页 > article >正文

字节会师何恺明!开源连续扩散语言模型Cola DLM

一水 发自 凹非寺量子位 | 公众号 QbitAI大语言模型真的只能走“预测下一个token”的路子吗继何恺明之后字节也给出了同样的回答NO。并且两边都不约而同地盯上了同一个方向——在连续语义空间中建模语言。更关键的是字节这次直接开源开到底论文、代码、模型权重、中文博客通通释出。帮大家快速回忆一下。就在上周何恺明团队推出首个扩散语言模型ELF——它跳过token层把整个生成过程留在连续embedding空间里完成仅用105M参数就跑赢一众主流扩散语言模型第一次证明连续路线在语言生成上真有潜力。而字节这次带来的Cola DLMContinuous Latent Diffusion Language Model则进一步佐证了这一趋势。他们同样选择跳出离散token的束缚把生成过程交给连续空间结果是在~2B参数、约2000 EFLOPs的严格对照实验下Cola DLM展现出了比自回归模型和主流离散DLM更稳定的scaling趋势。然而正当你以为这不过是又一个“把图像扩散模型搬进语言领域”的故事时字节却告诉你错了。Cola DLM的motivation从来不是diffusion。啊不是为了diffusion结果做了个diffusion language model字节Token≠语义表征才是真正的主角事实上真正的主角藏在这句话的后半段Cola DLM的motivation从来不是diffusion而是representation表征。在字节看来真正重要的是表征Token这种tokenizer工程和历史演化的副产物仅仅是表征被实现出来的一种形式而已。他们还大胆给出了一个暴论Token是人类语言系统的表层载体不是语义本身。简单看一个例子你就懂了比如我们用不同的话表达同一个意思我今天很开心。今天我心情很好。今天过得挺愉快。token差了一大堆但语义还是那一个。放在以前主流大模型通常会把这些不同说法当成几套不同的表达分别去学——明明背后是同一个语义模型偏偏要在token这个表层挨个对齐。所以字节的判断是如果模型内部存在一种更稳定、更抽象的“语义状态”那这些本质相同、只是说法不同的句子其实没必要被分别记忆而是可以在内部收敛到相近的表示。因此本质上而言Cola DLM的diffusion不是在恢复token而是在transport一个latent prior。怎么“transport一个latent prior”字节选择直接把语义和实现分层。具体方法论指路论文3.1.1这里我们简单翻译过来就是Cola DLM的生成模型本质上只有两部分。一个latent prior负责生成“潜在语义” 一个decoder负责把这些语义翻译成具体文字。 看上去就像是把“生成一句话”拆成了两件相对独立的事。而且关键在于整个diffusion/flow matching过程其实都发生在latent空间里而不是token空间里。就是说Cola DLM干的不是把一堆脏token慢慢去噪成干净token而是先在连续语义空间里把一团随机语义慢慢组织成有意义的潜在表达最后再统一翻译成文字。所以在它的生成路径里其实根本没有token的逐步生成过程token只在最后一步才出现前面学的都是“语义怎么形成”。这也是Cola DLM和很多扩散语言模型最大的不同。很多DLM本质上还是围绕token在做“修修补补”比如恢复被mask的token、逐步还原离散文本。但Cola DLM直接把diffusion从“文字层”搬到了“语义层”diffusion不再负责“生成token”而是负责“组织语义”。在字节看来这不是包装上的差异而是改变了diffusion在模型里到底干什么。Cola DLM背后关键细节方法论我们知道了那Cola DLM真正“和传统连续DLM拉开差距”的地方到底在哪答案就藏在几个很工程化但很关键的设计选择里。关键1latent不是简单的embedding替代品首先是latent是怎么来的。很多人一听“连续语言模型”第一反应是——不就是在word embedding上做扩散嘛。但Cola DLM偏偏没这么做它专门搭了一套Text VAEEncoder把离散文本压缩成连续latent相当于提取“语义指纹”Decoder把latent再还原回文本。差别在哪token embedding还是和token一一绑定的每个token一个向量本质上还是token序列。而Cola DLM要的latent是一个可以连续变化、可被概率建模的随机变量。这样一来模型处理的对象就不再是“下一个token”而是“整段文本对应的语义状态”。关键2prior不是普通的diffusionCola DLM用的不是大家熟悉的“加噪→去噪”那种diffusion而是一个叫block-causal DiTFlow Matching的组合。组合看不懂不要紧知道这个组合做的事就行了从一个简单分布比如高斯出发在连续时间里学习一个vector field向量场把这个分布“运输”成真实数据对应的latent分布。说白了就是不靠反复去噪而是直接学一条“最优路径”把噪声平滑地引向有意义的语义。更妙的是它在这个语义路径上还引入了block结构——块内并行搞定局部语义的快速组织块间按因果顺序保证整体逻辑不乱。整体相当于在语义层重新搭了一套生成框架“局部快、整体顺”两样都没丢。关键3训练时角色分工明确连续扩散语言模型有一个常见问题语义表示latent很容易被diffusion带偏最后退化成一个“穿了马甲的token”即表面是连续向量但骨子里还是在记词根本没形成真正的语义抽象。所以Cola DLM的做法是——把两个任务彻底分开。Encoder/Decoder只管“怎么把文字变成语义表示再变回来”PriorDiTFM只管“怎么从噪声生成语义表示”。而且训练时Encoder在diffusion阶段基本“冻结不动”。为什么不让它也跟着学因为一旦让Encoder去适应diffusion它就会为了降低loss而偷懒把语义表示悄悄滑向“好预测的token形式”最后又回到老路上。字节想要的是一个稳定的语义空间而不是一个被任务污染的中介层。所以他们反其道而行之让prior去适应语义空间而不是让语义空间讨好prior。此外他们还加了一个语义约束BERT-style mask loss防止encoder在重建时“语义坍塌”。实验证明没有这个约束latent确实会为了降loss而漂走。关键4把训练目标拆成了三块可以分别诊断的子任务如果说前面三点更像工程上的巧思而这第四点就是Cola DLM在理论上的硬功夫。字节把训练目标拆成了三个可以单独看、单独诊断的子任务重建能力给了latentDecoder能不能把原文还原出来压缩能力这个语义表示到底压缩了多少原文信息拟合能力Prior能不能学出latent的真实分布这样拆的好处在于传统自回归把所有东西都糊在一个“预测下一个词”的损失函数里。生成效果不好时你根本不知道是哪里出了问题不知道是理解错了、记忆不够还是生成路径歪了。而Cola DLM把账算得清清楚楚哪里不行分别看指标就知道。这也它能跑出稳定scaling趋势的底层原因——不是瞎蒙而是每一个环节都能单独诊断、单独优化。最后鉴于篇幅原因这里我们直接放上字节Cola DLM研究的成果省流版详细内容指路博客同一个追问两种答案而说到这里我们很难不把字节Cola DLM与何恺明团队的ELF放在一起看。很有意思的是两份工作几乎同期都在挑战一个被默认了二十年的假设——语言模型必须建立在离散token上。为什么这个假设开始受到质疑一方面自回归大模型走到今天“预测下一个token”这条路的瓶颈越来越明显——推理慢、长程依赖弱、训练目标和真实生成质量之间存在结构性gap。另一方面扩散模型在图像、视频生成上的成功让大家开始反思离散token真的是语言智能必须依附的载体吗还是只是历史选择的一种习惯这两年扩散语言模型的探索LLaDA、Dream-7B、MDLM等已经把这个问题拉到了台面上但大多数工作还停留在“离散派”——还是在token上做扩散。直到ELF和Cola DLM出现两边几乎同时给出了同一个答案——不必绑在token上。只不过具体解法上有所不同。我也去对比了两项研究之前的区别用图片展示如下简单说ELF像一个人从头干到尾在原长度embedding空间里反复琢磨到最后一步才落笔成字。Cola DLM则像两个分工部门语义部先讨论“要表达什么”文字部再负责“具体怎么写”。两条路线方法上虽然不同但底层关切完全一致——让建模发生在最适合语言本质的表示空间里不要被“token语义”这个默认框架限定。本质上而言它们其实是同一个问题的两种回答。而这也代表着一种趋势——是时候重新认识连续扩散语言模型了。过去两年扩散语言模型的舞台几乎一直由“离散派”占据。但ELF和Cola DLM这一前一后两次出手让“连续路线”第一次以一种严肃、可被对比、可被复现的姿态站到了台前。更值得注意的是Cola DLM还顺手指出了一件更大的事——长期以来“统一多模态”卡住的核心障碍之一就是文本是离散的而图像、视频、音频天然偏连续。如果想让它们真正进入同一个“latent世界”必须有一个把文本映射到连续语义latent的接口。而Cola DLM恰好扮演了这样的角色。而这或许才是字节这次出手的真正野心——不是在扩散语言模型的赛道里再添一名选手而是为语言模型造一座桥把它接入连续多模态的世界。当然Cola DLM团队自己也很克制他们在博客最后写道Cola DLM只是这条路上的一次早期尝试但这条路本身值得继续走下去。作者介绍最后按照惯例介绍一下这项研究的作者。整个团队由字节跳动Seed团队主导集结了来自港大、人大、北大、北邮、澳国立多所高校的研究者覆盖语言建模、扩散模型、视频生成等多个方向。第一署名Hongcan Guo郭泓灿目前是北邮人工智能学院大四本科生从2025年6月起在字节Seed实习。研究兴趣集中在生成模型与推理模型的数学基础和学习动力学Cola DLM的博客正是出自他手。通讯作者Yan Zeng曾妍则是字节Seed内部的“大牛级”人物她是字节爆款视频生成模型Seedance系列的研发负责人。有资料显示这位西安交大校友2021年以校招生身份加入字节后仅用了五年就从算法工程师晋升至4-2职级。这次Cola DLM里很多“分层潜变量diffusion prior”的思路与视频生成领域长期采用的latent diffusion路线存在明显相通之处。团队里还有一位很有意思的“跨界选手”——Shen Nie。他是人大高瓴AI学院李崇轩组的代表性研究者同时也是离散扩散语言模型LLaDA的第一作者。而LLaDA恰恰也是Cola DLM在论文里重点比较的一条离散扩散路线。某种意义上这件事本身就挺有意思一位离散扩散路线的代表人物也参与到了连续latent路线的研究里。某种程度上也说明Cola DLM这次真正想讨论的已经不只是“扩散怎么生成文本”而是更底层的文本智能到底应该建立在什么样的状态空间之上其他几位核心作者同样来头不小。Hengshuang Zhao是香港大学计算机系助理教授曾在MIT CSAIL、牛津Torr Vision Group做博士后长期活跃于计算机视觉与生成建模领域。Qiushan Guo则来自港大MMLab羅平组同时也是字节Seedream图像生成模型的重要研发成员之一。其他署名作者还有Qinyu Zhao、Yian Zhao、Rui Zhu、Feng Wang、Tao Yang、Guoqiang Wei。实际上如果把整份作者名单放在一起看其实会发现一个非常有意思的现象——字节这次做语言模型某种程度上几乎是把“视频/视觉生成”那套核心思路整体带了进来做latent diffusion的、做视频生成的、做图像prior的、做离散DLM的最后一起重新思考“文本到底该怎么建模”。这或许也是为什么Cola DLM整体看上去会和传统语言模型路线呈现出非常不同的气质。因为它从一开始关注的就不只是“如何更好地生成文本”而是在尝试把语言重新放回连续语义空间里变成一种能够与图像、视频、音频自然对齐的模态。而这也许才是Cola DLM最值得关注的地方当文本不再只是token序列而成为连续世界中的一种语义状态后多模态智能又会长成什么样。抱抱脸地址https://huggingface.co/ByteDance-Seed/Cola-DLMGitHub地址https://github.com/ByteDance-Seed/Cola-DLM论文https://arxiv.org/abs/2605.06548博客https://hongcanguo.github.io/posts/2026-cola-dlm-zh.html一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完—中国AIGC产业峰会全阵容发布查看议程从底层架构到爆款应用从软件到硬件从创作到投资... 这一次我们希望聚齐AI赛道的实战派聊透AI到底怎么落地、怎么赚钱、怎么改变工作。5月20日北京·金茂万丽酒店所有人马上AI起来 报名参会一键关注 点亮星标

相关文章:

字节会师何恺明!开源连续扩散语言模型Cola DLM

一水 发自 凹非寺量子位 | 公众号 QbitAI大语言模型真的只能走“预测下一个token”的路子吗?继何恺明之后,字节也给出了同样的回答:NO。并且,两边都不约而同地盯上了同一个方向——在连续语义空间中建模语言。更关键的是&#xff…...

BOTW-Save-Editor-GUI 完整技术指南:Nintendo Switch 塞尔达传说存档编辑终极方案

BOTW-Save-Editor-GUI 完整技术指南:Nintendo Switch 塞尔达传说存档编辑终极方案 【免费下载链接】BOTW-Save-Editor-GUI A Work in Progress Save Editor for BOTW 项目地址: https://gitcode.com/gh_mirrors/bo/BOTW-Save-Editor-GUI BOTW-Save-Editor-GU…...

前端地图开发避坑指南:解决天地图、高德、百度坐标偏移的完整JS方案

前端地图开发避坑指南:解决天地图、高德、百度坐标偏移的完整JS方案 当你在物流轨迹系统中发现GPS设备采集的坐标在高德地图上偏离实际位置500米,或在门店选址工具里百度地图的围栏总是无法匹配真实建筑轮廓时,这背后隐藏着中国地图服务特有…...

IC设计五大典型Bug剖析:从CDC到软硬件协同的防御性设计

1. 项目概述:IC设计中的那些“老朋友”在芯片设计的江湖里混迹多年,我越来越觉得,我们这些IC工程师(ICer)的日常,与其说是在创造,不如说是在与各种层出不穷的“老朋友”——也就是bug——斗智斗…...

微积分入门书籍之国内篇

超轻松的漫画微积分:如何追上那只乌龟(2023) 大科学家讲科学:画中漫游微积分(2017.08) 超喜欢的趣味数学书—有趣的数学园地(数学教育家刘薰宇为中学生量身打造“趣味数学”科普读物!)-2021.06 …...

瑞萨RA2L2 MCU深度解析:USB-C Rev 2.4与超低功耗设计实战

1. 项目概述:瑞萨RA2L2 MCU的定位与核心价值作为一名在嵌入式领域摸爬滚打了十多年的老工程师,每当看到像瑞萨RA2L2这样的新品发布,我的第一反应不是看那些华丽的参数,而是会立刻思考:这玩意儿到底能解决我手头项目里的…...

从手机充电到电路板:一文搞懂Type-C的6P、16P、24P到底该怎么选(附实物图对比)

Type-C接口选型实战指南:6P/16P/24P的工程决策逻辑 当你在设计一款智能手表时,是否曾纠结过该用6P还是16P的Type-C接口?这个问题看似简单,却直接影响着产品的BOM成本、用户体验和市场竞争力。作为硬件开发者,我们每天都…...

避坑指南:Vivado增量综合的‘甜蜜区’与‘雷区’——从日志文件看何时该用、何时该弃

Vivado增量综合实战决策手册:如何精准识别高效区间与风险边界 在FPGA开发领域,时间就是竞争力。当项目进入迭代优化阶段,每次按下综合按钮后的等待时间,都可能成为团队效率的隐形杀手。Vivado的增量综合功能就像一把双刃剑——用对…...

从Neuralangelo看多分辨率哈希编码:如何用‘数值梯度’和‘渐进优化’搞定高保真3D重建?

Neuralangelo与多分辨率哈希编码:高保真3D重建的技术革命 在数字孪生、虚拟制作和文化遗产保护等领域,对真实世界进行高保真3D重建的需求从未如此迫切。传统摄影测量技术受限于硬件成本和算法瓶颈,难以平衡细节精度与处理效率。而神经渲染技术…...

5分钟掌握ncmdumpGUI:将网易云ncm文件转换为MP3的完整解决方案

5分钟掌握ncmdumpGUI:将网易云ncm文件转换为MP3的完整解决方案 【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换,Windows图形界面版本 项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 你是否曾为网易云音乐下载的ncm文件…...

你的AR/机器人导航不准?可能是相机标定没做好!深入聊聊内参、畸变与三维重建精度的关系

为什么你的AR/机器人导航总是不准?相机标定中的内参与畸变参数详解 当你在开发AR应用时,虚拟物体总是莫名其妙地漂移;当你的机器人导航系统运行时,定位误差不断累积;当你进行三维重建时,模型出现难以解释的…...

Inter字体终极指南:为什么这款开源字体能重新定义数字界面设计

Inter字体终极指南:为什么这款开源字体能重新定义数字界面设计 【免费下载链接】inter The Inter font family 项目地址: https://gitcode.com/gh_mirrors/in/inter Inter字体是一款专为现代数字屏幕设计的开源无衬线字体,通过科学优化的字形设计…...

终极风扇控制解决方案:FanControl让Windows散热管理变得简单高效

终极风扇控制解决方案:FanControl让Windows散热管理变得简单高效 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_T…...

SQLI-labs 第十七关:POST二次注入与报错注入实战解析

1. 二次注入与报错注入的核心原理 二次注入就像是一个潜伏的特工,它不会在第一次接触时就暴露自己。想象这样一个场景:你在网站注册时输入了一个恶意用户名,系统当时没有表现出任何异常。但当你后续修改密码时,这个潜伏的恶意代码…...

2025最权威的六大AI辅助写作网站推荐榜单

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 处于当下学术以及内容创作范畴之内,AI工具的广泛应用带来了便利之处&#xff0c…...

利用 AsyncOpenAI 与 asyncio.gather 实现批量问题的高效并发处理

1. 为什么需要异步处理批量问题? 想象一下你开了一家奶茶店,顾客排着长队点单。如果每次只服务一个顾客,等做完他的奶茶才接待下一位,队伍会越排越长。这就是同步请求的困境——每个查询必须等待前一个完成才能开始。当我们需要同…...

告别枯燥协议!用Python脚本+逻辑分析仪实测JESD204B的F和K参数

告别枯燥协议!用Python脚本逻辑分析仪实测JESD204B的F和K参数 在高速串行通信领域,JESD204B协议因其高效率而备受青睐,但抽象的参数定义常常让工程师望而生畏。本文将以一种全新的实践视角,带您通过Python脚本和逻辑分析仪&#x…...

魔兽争霸3的现代重生:如何让经典游戏在你的电脑上焕发新生

魔兽争霸3的现代重生:如何让经典游戏在你的电脑上焕发新生 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 你是否还记得那个充满激情的年代…...

YOLO模型如何训练救生衣检测数据集深度学习如何训练救生衣检测数据集

救生衣检测模型YOLO8-300n 提供训练好的模型文件(pt格式)、过程文件和验证图片,带对应的训练数据集10000张 1 111一、救生衣检测模型(YOLOv8-300n)完整方案1. 模型与数据集信息项目详情模型版本YOLOv8n(300…...

ARM迷你PC硬核体验:RK3588玩转游戏、影音与家庭服务器

1. 项目概述:当ARM迷你PC遇上硬核游戏最近几年,迷你PC市场可以说是百花齐放,从主打办公的英特尔NUC,到各种基于AMD平台的准系统,选择非常多。但不知道你有没有注意到,一股新的力量正在悄然崛起——那就是基…...

计算机毕业设计Python深度学习面向农户的农业知识问答机器人 大数据毕业设计(源码+LW+PPT+讲解)

温馨提示:本人主页置顶文章(点我)开头有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:本人主页置顶文章(点我)开头有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:本人主页置顶文章(点我)开头有 CSDN 平台…...

扩散模型在机器人控制中的多模态优化应用

1. 扩散模型在近似模型预测控制中的创新应用在机器人控制领域,模型预测控制(MPC)因其优秀的约束处理能力和优化性能而广受青睐。然而,传统MPC需要在线求解优化问题,计算成本高昂,难以满足高速实时控制的需求…...

从‘看’到‘穿透’:用Python实战解析不同SAR波段影像(以哨兵1号和林火监测为例)

从‘看’到‘穿透’:用Python实战解析不同SAR波段影像(以哨兵1号和林火监测为例) 当卫星划过天际,它携带的"眼睛"并非普通光学镜头,而是能穿透云层和黑暗的微波雷达。这种被称为合成孔径雷达(SAR…...

Treelink选择工具:基于树形结构与链接关系的智能对象筛选方案

1. 项目概述:为什么我们需要“简化模拟选择”?在仿真分析、游戏开发、影视特效乃至工业设计领域,“模拟选择”是一个高频且令人头疼的操作。无论是为3D场景中的一片森林批量设置风力参数,还是在电路仿真中挑选特定节点进行信号分析…...

告别手动点点点:用pywinauto给微信做个自动化小助手(Python实战)

告别手动点点点:用pywinauto打造微信自动化小助手 微信作为日常高频使用的通讯工具,每天重复的"文件传输助手"转发、消息发送等操作消耗着大量时间。本文将带你用pywinauto构建一个能自动完成这些任务的Python脚本,解放双手的同时深…...

抖音下载器实战指南:告别手动保存,批量获取无水印内容

抖音下载器实战指南:告别手动保存,批量获取无水印内容 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fal…...

模仿学习新思路:拆解ACT算法中的CVAE与Transformer如何联手生成平滑动作序列

模仿学习新范式:ACT算法中CVAE与Transformer的协同进化 在机器人精细操作领域,如何生成连贯平滑的动作序列一直是核心挑战。斯坦福ALOHA团队提出的动作分块算法ACT(Action Chunking with Transformers)通过融合条件变分自编码器&…...

新手入门教程使用Python快速调用Taotoken提供的多模型API服务

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 新手入门教程使用Python快速调用Taotoken提供的多模型API服务 对于刚开始接触大模型API的开发者而言,直接对接不同厂商…...

从BadApple到像素艺术:0.96寸OLED上的微型视频播放器全栈实现

1. 从网络热梗到硬件实现:BadApple的像素之旅 第一次看到BadApple在0.96寸OLED上流畅播放时,我整个人都惊呆了。这个源自东方Project的经典黑白剪影动画,居然能在比硬币还小的屏幕上完美还原。你可能在B站看过各种版本的BadApple,…...

告别轮询!用GD32F4xx的USART中断实现高效串口数据收发(实测对比耗时)

告别轮询!用GD32F4xx的USART中断实现高效串口数据收发(实测对比耗时) 在嵌入式系统中,串口通信是最基础也最常用的外设之一。对于需要同时处理多个任务的系统来说,如何高效地管理串口通信,减少CPU资源的占用…...