TÜLU 3: Pushing Frontiers in Open Language Model Post-Training

基本信息
- 📝 原文链接: https://arxiv.org/abs/2411.15124
- 👥 作者: Nathan Lambert, Jacob Morrison, Valentina Pyatkin, Shengyi Huang, Hamish Ivison, Faeze Brahman, Lester James V. Miranda, Alisa Liu, Nouha Dziri, Shane Lyu, Yuling Gu, Saumya Malik, Victoria Graf, Jena D. Hwang, Jiangjiang Yang, Ronan Le Bras, Oyvind Tafjord, Chris Wilhelm, Luca Soldaini, Noah A. Smith, Yizhong Wang, Pradeep Dasigi, Hannaneh Hajishirzi
- 🏷️ 关键词: TÜLU 3
- 📚 分类: 机器学习, 自然语言处理
摘要
中文摘要
语言模型的后训练应用于提升各种最近语言模型的行为并解锁新技能,但公开的后训练应用方法落后于专有方法。后训练的基础数据和配方既是这个谜题中最重要的部分,同时也是最缺乏透明度的部分。为了弥合这一差距,我们推出了T“ULU 3,这是一系列完全开放的先进后训练模型,包括其数据、代码和训练配方,作为现代后训练技术的全面指南。T“ULU 3基于Llama 3.1基础模型构建,其成果超越了Llama 3.1指令版本、Qwen 2.5、Mistral,甚至是GPT-4o-mini和Claude 3.5-Haiku等封闭模型。我们模型的训练算法包括监督微调(SFT)、直接偏好优化(DPO)以及我们称之为可验证奖励强化学习(RLVR)的新方法。随着T“ULU 3的推出,我们引入了一个多任务评估方案,用于后训练配方,包括开发评估和未见评估、标准基准实现以及在此基准上对现有开放数据集的实质性净化。最后,我们对那些未能可靠提高性能的训练方法进行了分析和讨论。
除了T“ULU 3模型权重和演示,我们还发布了完整的配方,包括用于各种核心技能的数据集、用于数据整理和评估的强大工具包、训练代码和基础设施,最重要的是,一份详细的报告,用于复制和进一步适应T“ULU 3方法到更多领域。
原文摘要
Language model post-training is applied to refine behaviors and unlock new skills across a wide range of recent language models, but open recipes for applying these techniques lag behind proprietary ones. The underlying training data and recipes for post-training are simultaneously the most important pieces of the puzzle and the portion with the least transparency. To bridge this gap, we introduce T"ULU 3, a family of fully-open state-of-the-art post-trained models, alongside its data, code, and training recipes, serving as a comprehensive guide for modern post-training techniques. T"ULU 3, which builds on Llama 3.1 base models, achieves results surpassing the instruct versions of Llama 3.1, Qwen 2.5, Mistral, and even closed models such as GPT-4o-mini and Claude 3.5-Haiku. The training algorithms for our models include supervised finetuning (SFT), Direct Preference Optimization (DPO), and a novel method we call Reinforcement Learning with Verifiable Rewards (RLVR). With T"ULU 3, we introduce a multi-task evaluation scheme for post-training recipes with development and unseen evaluations, standard benchmark implementations, and substantial decontamination of existing open datasets on said benchmarks. We conclude with analysis and discussion of training methods that did not reliably improve performance. In addition to the T"ULU 3 model weights and demo, we release the complete recipe – including datasets for diverse core skills, a robust toolkit for data curation and evaluation, the training code and infrastructure, and, most importantly, a detailed report for reproducing and further adapting the T"ULU 3 approach to more domains.
论文解读
一句话总结
这篇论文介绍了TÜLU 3,一个开源的先进语言模型后训练模型系列,通过开放数据和训练方法,推动了开放语言模型后训练的发展。
问题1:这篇论文想要解决什么具体问题?
• 问题背景:语言模型后训练技术已广泛应用于各种语言模型,但开放的后训练技术方案落后于专有方案,且训练数据和方案缺乏透明度。
• 现有方案不足:开放源代码的后训练模型通常依赖于简单的管道和较便宜的数据,且在许多指标上已经过时。
• 研究目标:开发一个开源的、先进的后训练模型系列TÜLU 3,包括数据、代码和训练方案,以推动开放语言模型后训练的发展。
问题2:论文的核心创新点是什么?
• 技术创新:TÜLU 3基于Llama 3.1基模型,结合了监督微调(SFT)、直接偏好优化(DPO)和强化学习与可验证奖励(RLVR)等新技术。
• 方法改进:TÜLU 3引入了新的数据集、评估框架和训练流程,优化了数据混合、方法和参数。
• 优势:TÜLU 3在多个基准测试中超越了同类模型,包括Llama 3.1 Instruct、Qwen 2.5 Instruct、Mistral-Instruct等,并在大型70B模型中与闭源模型如Claude 3.5 Haiku和GPT-4o mini相媲美。
问题3:实验结果如何验证了方法的有效性?
• 关键实验:TÜLU 3在多个基准测试中进行了评估,包括MMLU、PopQA、TruthfulQA、BigBenchHard、DROP、MATH、GSM8K、HumanEval、IFEval、AlpacaEval 2和Safety。
• 性能提升:TÜLU 3在大多数基准测试中均超过了基线模型,并在某些任务中实现了显著的性能提升。
• 对比结果:TÜLU 3在70B模型中甚至超过了闭源模型如Claude 3.5 Haiku和GPT-4o mini。
问题4:这个研究的实际应用价值是什么?
• 应用场景:TÜLU 3可以应用于各种自然语言处理任务,如问答、文本生成、机器翻译、代码生成等。
• 实施建议:TÜLU 3的开源性质使得研究人员可以轻松地将其应用于各种任务,并进一步改进和扩展其功能。
• 局限与展望:TÜLU 3目前主要针对英语数据,未来可以扩展到多语言支持。此外,可以进一步研究长上下文和多轮对话等能力。
相关文章:
TÜLU 3: Pushing Frontiers in Open Language Model Post-Training
基本信息 📝 原文链接: https://arxiv.org/abs/2411.15124👥 作者: Nathan Lambert, Jacob Morrison, Valentina Pyatkin, Shengyi Huang, Hamish Ivison, Faeze Brahman, Lester James V. Miranda, Alisa Liu, Nouha Dziri, Shane Lyu, Yuling Gu, Sau…...
深入解读 MySQL EXPLAIN 与索引优化实践
MySQL 是当今最流行的关系型数据库之一,为了提升查询性能,合理使用 EXPLAIN 工具和优化索引显得尤为重要。本文将结合实际示例,探讨如何利用 EXPLAIN 分析查询执行计划,并分享索引优化的最佳实践。 一、EXPLAIN 工具简介 EXPLAIN …...
Flume——进阶(agent特性+三种结构:串联,多路复用,聚合)
目录 agent特性ChannelSelector描述: SinkProcessor描述: 串联架构结构图解定义与描述配置示例Flume1(监测端node1)Flume3(接收端node3)启动方式 复制和多路复用结构图解定义描述配置示例node1node2node3启…...
ragflow连ollama时出现的Bug
ragflow和ollama连接后,已经添加了两个模型但是ragflow仍然一直warn:Please add both embedding model and LLM in Settings > Model providers firstly.这里可能是我一开始拉取的镜像容器太小,容不下当前添加的模型,导…...
基于centos7.7编译Redis6.0
背景: OS:CentOs 7.7 Redis: 6.0.6 编译构建报错如下: In file included from server.c:30:0: server.h:1044:5: error: expected specifier-qualifier-list before ‘_Atomic’_Atomic unsigned int lruclock; /* Clock for LRU eviction …...
uni-app项目无法在Android Studio模拟器上运行
目录 1 问题描述2 尝试解决3 引发原因4 解决方法4.1 换用 MuMu 模拟器 5 结语 1 问题描述 在使用 uni-app 开发 Pad 端 App 时,初始化项目后打算先运行一下确保初始化正常。打开 Android Studio 模拟器后,然后在 HbuilderX 中选择使用 App 标准基座 运…...
第一部分:Linux系统(基础及命令)
Linux操作系统的实操性非常强,纯操作,不适用于日常的办公使用 1.初始Linux 1.1 操作系统概述 1.1.1 了解OS的作用 OS:是计算机软件的一种,主要负责:作为用户和计算机硬件之间的桥梁,调度和管理计算机硬…...
No module named ‘_ssl‘ No module named ‘_ctypes‘
如果你使用的是基于 yum 的 Linux 发行版(例如 CentOS、RHEL、Fedora),安装 libc6-dev 的方式稍有不同。在这些系统中,通常对应的包是 glibc-devel。 No module named ‘_ctypes’ 使用 yum 安装 glibc-devel 更新系统的软件包列…...
【QT】编写第一个 QT 程序 对象树 Qt 编程事项 内存泄露问题
目录 1. 编写第一个 QT 程序 1.1 使用 标签 实现 🐇 图形化界面实现 🐇 纯代码形式实现 1.2 使用 按钮 实现 🐋 图形化界面实现 🐋 纯代码形式实现 1.3 使用 编辑框 实现 🥝 图形化界面实现 ᾕ…...
VTK编程指南<六>:VTK可视化管线与渲染详解
1、VTK渲染引擎 回顾前几章节的RenderCylinder示例 可以找到以下的类: vtkProp; ytkAbstractMapper; vtkProperty; vtkCamera; vtkLight; vtkRenderer; vtkRenderWindow; vtkRenderWindowInteractor vtkTransform; vtkLookupTable;可以发现这些类都是与数据显示或渲染相关的。…...
基于STM32的智能计步器
引言 随着健康意识的提高,计步器逐渐成为人们日常生活中重要的健康管理工具。本文将指导你如何使用STM32微控制器制作一个智能计步器。该计步器通过加速度传感器检测步伐,并使用OLED显示屏显示步数。通过这个项目,你将学习到STM32开发的基本流…...
VB.NET 从入门到精通:开启编程进阶之路
摘要: 本文全面深入地阐述了 VB.NET 的学习路径,从基础的环境搭建与语法入门开始,逐步深入到面向对象编程、图形用户界面设计、数据访问、异常处理、多线程编程以及与其他技术的集成等核心领域,通过详细的代码示例与理论讲解&…...
射频电路屏蔽简略
电磁波的干扰是每个射频设备的自带属性,不管是内部还是外部,怎样去更好的抑制掉干扰,关系到射频设备的工作状态,而能够找到产生干扰的来源就是重中之重,电磁波的干扰与其产生的源密不可分,而源就离不开所需…...
基础算法——搜索与图论
搜索与图论 图的存储方式2、最短路问题2.1、Dijkstra算法(朴素版)2.2、Dijkstra算法(堆优化版)2.3、Bellman-Ford算法2.4、SPFA求最短路2.5、SPFA判负环2.6、Floyd算法 图的存储方式 2、最短路问题 最短路问题可以分为单源最短路…...
redis优化编码之字符串
redis 优化编码之字符串 ### 字符串优化 字符串对象是redis内部最常用的数据类型。 所有的键是字符串对象值对象除了整数之外都是使用字符串存储lpush cache:type "redis" "tair" "memcache" "leveldb"创建如上一个链表 需要创建一…...
Python特定版本的安装/卸载/环境配置,Spyder安装教程
目录 1.Python安装 1.1 Python下载 1.2 下载特定版本 1.3 安装Python 1.4 修改安装 1.5 环境配置 1.6 卸载Python 2.Spyder安装使用 2.1 Spyder下载 2.1.1 官网下载Spyder 2.2.2 Github下载Spyder 2.2 安装 参考资料:网盘 1.Python安装 1.1 Python下载…...
全局搜索正则表达式(grep)
一.grep简介 grep 全程Globally search a Regular Expression and Print,是一种强大的文本搜索工具,它能使用特定模式匹配(包括正则表达式)搜索文本,并默认输出匹配行。Unix的grep家族包括grep和egrep 二.grep的工作…...
linux-12 关于shell(十一)ls
登录系统输入用户名和密码以后,会显示给我们一个命令提示符,就意味着我们在这里就可以输入命令了,给一个命令,这个命令必须要可执行,那问题是我的命令怎么去使用,命令格式有印象吗?在命令提示符…...
编写指针函数使向右循环移动m个位置
题目描述:有n个整数,要求你编写一个函数使其向右循环移动m个位置 请仔细阅读右侧代码,结合相关知识,在Begin-End区域内进行代码补充。 输入 输入n m表示有n个整数,移动m位 输出 输出移动后的数组 样例输入: 10 5 1 2 3…...
xvisor调试记录
Xvisor是一种开源hypervisor,旨在提供完整、轻量、移植且灵活的虚拟化解决方案,属于type-1类型的虚拟机,可以直接在裸机上启动。 启动xvisor步骤: 1、搭建riscv编译环境 首先从github上下载riscv-gnu-toolchain很费劲,建议直接从国内的源下载 git clone https://gitee…...
TensorFlow变量管理实战:如何用tf.get_variable()实现模型参数共享(附代码对比)
TensorFlow变量管理实战:如何用tf.get_variable()实现模型参数共享 在构建复杂神经网络模型时,参数共享是一个常见且关键的需求。想象一下这样的场景:你正在开发一个多任务学习系统,需要在不同任务间共享底层特征提取层的权重&am…...
OWL ADVENTURE快速上手:10分钟完成本地部署与第一个识别Demo
OWL ADVENTURE快速上手:10分钟完成本地部署与第一个识别Demo 你是不是也对那些能看懂图片、能回答图片问题的AI模型感到好奇?OWL ADVENTURE就是这样一个模型,它能理解图片里的内容,然后和你聊天。听起来很酷,但会不会…...
SeqGPT-560M金融信贷申请:申请人/收入证明/抵押物/授信额度结构化
SeqGPT-560M金融信贷申请:申请人/收入证明/抵押物/授信额度结构化 1. 项目概述 SeqGPT-560M是一个专门针对金融信贷场景深度优化的智能信息抽取系统。与通用聊天模型不同,这个系统专注于从复杂的非结构化文本中精准提取关键金融信息,特别适…...
MusePublic Art Studio惊艳效果:动态种子演化生成同主题12张连贯艺术组图
MusePublic Art Studio惊艳效果:动态种子演化生成同主题12张连贯艺术组图 1. 引言:当AI成为艺术家的画笔 想象一下,你是一位艺术家,脑海中有一个绝妙的创意主题。你想围绕这个主题创作一个系列作品,比如“赛博朋克森…...
如何从视频中智能提取PPT幻灯片:终极免费工具使用指南
如何从视频中智能提取PPT幻灯片:终极免费工具使用指南 【免费下载链接】extract-video-ppt extract the ppt in the video 项目地址: https://gitcode.com/gh_mirrors/ex/extract-video-ppt 在当今数字化教学和远程办公的时代,视频中常常包含重要…...
一键召唤AI画师!次元画室让角色设计变得如此简单
一键召唤AI画师!次元画室让角色设计变得如此简单 你是否曾经有过这样的经历?脑海中浮现出一个绝妙的角色形象,却苦于无法将它完美呈现;或者为了设计游戏角色,不得不花费重金聘请专业画师;又或者作为小说作…...
嵌入式AI模型量化实战:用int8给ResNet减重80%还不掉精度
嵌入式AI模型量化实战:用int8给ResNet减重80%还不掉精度 在边缘计算设备上部署神经网络时,工程师们常常面临一个两难选择:要么接受模型体积过大导致的内存溢出,要么忍受量化带来的精度暴跌。去年我们在智能摄像头项目中就遇到了这…...
AnotherRedisDesktopManager:让Redis管理变得简单高效的5个理由
AnotherRedisDesktopManager:让Redis管理变得简单高效的5个理由 【免费下载链接】AnotherRedisDesktopManager qishibo/AnotherRedisDesktopManager: Another Redis Desktop Manager 是一款跨平台的Redis桌面管理工具,提供图形用户界面,支持连…...
OpenClaw轻量化方案实测:nanobot镜像性能与成本对比
OpenClaw轻量化方案实测:nanobot镜像性能与成本对比 1. 为什么选择nanobot镜像 上个月我在尝试用OpenClaw搭建个人自动化助手时,遇到了一个典型的技术选择困境:是直接调用云端大模型API,还是部署本地模型?经过反复权…...
以太网MAC与PHY接口技术详解
以太网PHY、MAC及其通信接口技术解析1. 以太网接口架构概述1.1 基本组成结构以太网接口电路从硬件角度可分为两大核心组件:MAC控制器(Media Access Control):负责数据链路层的媒体访问控制PHY芯片(Physical Layer&…...
