当前位置：首页 > news >正文

【每日论文】TESS 2: A Large-Scale Generalist Diffusion Language Model

news 2026/2/9 22:35:16

下载PDF或阅读论文，请点击：LlamaFactory - huggingface daily paper - 每日论文解读 | LlamaFactory | LlamaFactory

摘要

我们推出了TESS 2，这是一种通用的指令跟随扩散语言模型，其性能优于当代的指令调整扩散模型，有时甚至与强大的自回归（AR）模型相当。我们通过首先使用常规的交叉熵作为扩散损失，通过持续预训练来调整一个强大的AR模型，然后进行进一步的指令调整来训练TESS 2。我们发现，调整训练以及基础模型的选择对于训练良好的指令跟随扩散模型至关重要。我们进一步提出了奖励引导，这是一种新颖且模块化的推理时间引导过程，可以在不需要训练底层模型的情况下对齐模型输出。最后，我们展示了随着推理时间计算量的增加，TESS 2的性能进一步提升，突显了扩散语言模型在推理时间对计算量进行精细控制的重要性。代码和模型可在https://github.com/hamishivi/tess-2获取。

一句话总结

TESS 2 是一种大型通用扩散语言模型，通过结合预训练和指令调整，在多个下游任务中优于现有的扩散语言模型和自回归模型。

问题1：这篇论文想要解决什么具体问题？

问题背景：现有的自回归语言模型在规划和自我修正方面存在局限性，而扩散语言模型作为一种替代方案，虽然具有潜力，但规模较小，主要关注内在指标的提升。
现有方案不足：现有的扩散语言模型规模较小，且主要集中在提高内在指标如困惑度，而不是用于评估自回归语言模型的常见下游任务。
研究目标：提出 TESS 2，一个大规模的扩散语言模型，通过结合预训练和指令调整，在多个下游任务中达到或超过自回归模型的表现。

问题2：论文的核心创新点是什么？

技术创新：提出了一种将自回归语言模型适应为扩散语言模型的食谱，包括 UL2 掩码、标签移动和全双向注意力。
方法改进：通过指令调整进一步优化扩散模型，并引入了基于奖励的指导，这是一种在推理时引导模型生成与用户偏好一致文本的新技术。
优势：与现有方法相比，TESS 2 在多个下游任务中表现出色，特别是在问答和一般指令遵循方面。

问题3：实验结果如何验证了方法的有效性？

关键实验：在多个下游任务上进行了评估，包括 AlpacaEval、SQuAD、TriviaQA 和 IFEval。
性能提升：TESS 2 在这些任务上的表现优于或接近于自回归模型。
对比结果：与现有的扩散语言模型相比，TESS 2 在多个任务上取得了更好的结果。

问题4：这个研究的实际应用价值是什么？

应用场景：TESS 2 可用于各种需要高级语言理解和生成的场景，如聊天机器人、问答系统和文本生成。
实施建议：使用 Mistral 作为基模型，并应用提出的适应和指令调整食谱。
局限与展望：尽管 TESS 2 在多个任务上表现出色，但它在推理速度和某些推理任务上的表现仍落后于自回归模型。未来的工作可以集中在提高推理速度和改进推理质量上。

【每日论文】TESS 2: A Large-Scale Generalist Diffusion Language Model

摘要

一句话总结

问题1：这篇论文想要解决什么具体问题？

问题2：论文的核心创新点是什么？

问题3：实验结果如何验证了方法的有效性？

问题4：这个研究的实际应用价值是什么？

相关文章：

【每日论文】TESS 2: A Large-Scale Generalist Diffusion Language Model

如何在 React 中测试高阶组件？

设计模式学习笔记

写论文技巧：Word文档插入图片，实现自动对齐

VSCode - VSCode 切换自动换行

postman传query一个数组类型的参数，并且数组里面只有一个值的时候

【智能客服】ChatGPT大模型话术优化落地方案

vue3 文件类型传Form Data数据格式给后端

高考或者单招考试需要考物理这科目

深入剖析 DeepSeek：张量计算范式全解析

VSCode集成deepseek使用介绍（Visual Studio Code）

【保姆级教程】DeepSeek R1+RAG，基于开源三件套10分钟构建本地AI知识库

vue,vue3 keepalive没有效果，无法缓存页面include无效，keep-alive

Windows逆向工程入门之指针类型

PHP+Apache+MySQL安装（Windows）

算法基础 -- 堆排序之C语言实现

Hutool - Extra：功能丰富的扩展模块

C++ 中的继承详解(上)

halcon三维点云数据处理（二十五）moments_object_model_3d

Mac M3/M4 本地部署Deepseek并集成vscode

Vim 调用外部命令学习笔记

相机Camera日志实例分析之二：相机Camx【专业模式开启直方图拍照】单帧流程日志详解

Docker 运行 Kafka 带 SASL 认证教程

页面渲染流程与性能优化

基于Docker Compose部署Java微服务项目

rnn判断string中第一次出现a的下标

sipsak：SIP瑞士军刀！全参数详细教程！Kali Linux教程！

LRU 缓存机制详解与实现（Java版） + 力扣解决

VisualXML全新升级 | 新增数据库编辑功能

node.js的初步学习