当前位置：首页 > news >正文

论文解读：LONGWRITER: UNLEASHING 10,000+ WORD GENERATION FROM LONG CONTEXT LLMS

news 2026/2/10 9:04:13

摘要

现象：当前的大预言模型可以接受超过100,000个tokens的输入，但是却难以生成超过2000个token的输出。
原因：监督微调过程(SFT)中看到的样本没有足够长的样本。
解决方法：

Agent Write，可以将长任务分解为子任务，从而实现可以生成超过20,000字的输出，它根据用户的输入编写了一个详细的写作计划，列出每个段落的结构和目标字数，之后以顺序的方式生成每个段落的内容。
利用管道，在GPT-4o上建立了数据集：Long Writer-6k，包含6000个长度从2k到32k的数据。使得现有模型能够输出超过10,000字。
Longbench-Write，一个基准，用于评估超长文本的生成能力。包含一组不同的用户编写指令，输出长度规格从0-500字，500-2000字，2000-4000字，超过4000字，

结果：9B参数的模型已经可以在 benchmark上取得最佳效果，只需要在模型对齐过程中具有扩展数据。

Agent Write

计划
受人类作家思维过程的启发，一个作家通常会为了长时间的写作任务制作一个总体计划，通常包括每个章节的写作计划与大纲，我们利用LLM的规划能力创作了一个写作大纲，给出一个写作指令。
写
在生成文本的时候，我们也会将前n-1段文本的内容输入进去，这种串行输入的方式生成的内容远远优于并行文本的输出。
检验
检验分为两个方法，分别是LongWrite-Ruler，用于检测一个输出模型可以输出的长度可以为多少；Longbench-Writer，这是我们自己构建的benchmark，用于评估生成内容在指令方面以及和用户指令的一致性程度。

Longbench-Write

为了评估性能，我们收集了120个用户书写提示，60个中文，60个英文，每个都包含了明确的字数要求，分为4个子集，分别为0-500个字，500-2000个字，2000-4000个字，超过4000个字。此外，我们根据输出内容，将文本分为7种类型，文学和创意写作、学术和专著、大众科学、功能写作、新闻报道、社区论坛和教育和培训。

Evaluation

在评估方面，分为两个方面，一个是文章长度是否达标，另一个是文章的质量，文章的长度决定了分数所在的不同的分段函数。
在这里插入图片描述
在具体评价质量方面，采用先进的GPT-4o模型，分别从相关性、准确性、一致性、清晰度、广度和深度以及阅读体验几个部分对于文章进行打分，最后取平均。

结果

在这里插入图片描述

LongWriter：用于生成超长输出的教学数据集及训练

我们已经有了Agent Write，可以生成长文本了，现在我们好奇是否能够利用它生成数据集，从而让大模型能够自己生成长文本。

数据集构建

我们从GPT-4o的SFT中选取了3000条中文指令，从WildChat-1M中选取了3000条英文指令，我们进一步应用基于规则的匹配来过滤掉有毒指令和原本打算用于抓取的指令，经检查发现，这6000条有95%以上需要几千字的响应。再过滤和清除掉无关内容后，构建了数据集LongWriter-6k,输出长度相对均匀地分布在2k至10k之间。一般训练的时候会将LongWriter-6k和别的数据集混合，从而弥补了2k以上的稀缺性。

模型训练

监督微调
我们基于两个最新的开源模型，GLM-4-9B和 Llama-3.1-8B进行微调，得到了LongWriter-8B和LongWriter-9B。
对齐（DPO）
为了进一步提高模型质量，我们对LongWrtier-9B进行了偏好优化。DPO数据来自GLM-4聊天数据，大约5w个；我们还额外构建了四千对针对长篇书写的数据。对于每个指令，我们从LongWriter-9B中抽取四个输出，从中取得最好的一个作为正样本，从其它三个中随机选取一个作为负样本。DPO差不多能给模型提高3%到4%的效果。
结果

论文解读：LONGWRITER: UNLEASHING 10,000+ WORD GENERATION FROM LONG CONTEXT LLMS

摘要

Agent Write

Longbench-Write

Evaluation

结果

LongWriter：用于生成超长输出的教学数据集及训练

数据集构建

模型训练

相关文章：

论文解读：LONGWRITER: UNLEASHING 10,000+ WORD GENERATION FROM LONG CONTEXT LLMS

一文了解Ansible原理以及常见使用模块

JavaEE从入门到起飞（九） ~Activiti 工作流

微服务的保护

2024前端面试题-网络篇

移情别恋c++ ദ്ദി˶ｰ̀֊ｰ́ ) ——6.vector

设计模式---简单工厂模式

Vue | Vue 中的 refInForde 用法

【原创】java+swing+mysql房屋租赁管理系统设计与实现

Django 中render、redirect 和 HttpResponse的区别

CRYPTO 2020

java 函数接口Consumer简介与示例【函数式编程】【Stream】

黑神话：悟空-配置推荐

Android14 蓝牙设备类型修改

vue3 语法糖＜script setup＞

微服务设计原则——高性能：异步与并发

机器学习——决策树，朴素贝叶斯

C语言基础（十）

人像比对-人证比对-人脸身份证比对-人脸身份证实名认证-人脸三要素对比-实人认证

Android 上下滑隐藏显示状态栏

生成xcframework

日语AI面试高效通关秘籍：专业解读与青柚面试智能助攻

React hook之useRef

Mybatis逆向工程，动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件

高频面试之3Zookeeper

令牌桶滑动窗口-＞限流分布式信号量-＞限并发的原理 lua脚本分析介绍

10-Oracle 23 ai Vector Search 概述和参数

《C++ 模板》

解决：Android studio 编译后报错\app\src\main\cpp\CMakeLists.txt‘ to exist

根目录0xa0属性对应的Ntfs!_SCB中的FileObject是什么时候被建立的----NTFS源代码分析--重要