【EMNLP2024】基于多轮课程学习的大语言模型蒸馏算法 TAPIR
近日,阿里云人工智能平台PAI与复旦大学王鹏教授团队合作,在自然语言处理顶级会议EMNLP 2024 上发表论文《Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning》。文章提出了一个名为 TAPIR 的知识蒸馏框架,TAPIR 通过多任务课程规划来蒸馏黑盒大语言模型的指令回答能力,在蒸馏和多轮迭代过程中,使用教师 LLM 做为裁判找出对于学生 LLM 来说难以回答的指令,进行难度重采样。同时,TAPIR 调整多任务配比,进行训练集中的任务多样性分布的重采样,并根据相应多任务特点自动优化教师模型的回答风格。
背景
大语言模型在回答开放领域通用任务的指令上取得了很大地进步。指令微调是微调预训练模型,使其从文本补全模型成为强大的对话模型的关键。尽管已有研究探索了使用强大的黑盒教师模型(如GPT-4, Qwen-max)来自动蒸馏和标注指令的方法,但这些研究往往忽视了微调训练集中任务的多样性分布,以及训练集中指令难度的差异,这可能导致学生LLMs知识能力的不平衡和解决复杂任务的能力的不足。为了解决这些挑战,文章提出了一个名为TAPIR的新框架,它通过多任务课程规划来蒸馏黑盒大语言模型的指令回答能力,从而提高学生小模型的指令遵循能力。
算法流程
文章中提出的TAPIR(Task-Aware Curriculum Planning for Instruction Refinement)框架的算法流程是一个多轮次的蒸馏方法,旨在提升学生大型语言模型(LLMs)遵循指令的能力。整个流程从初始化一个预训练的学生模型开始,然后通过以下步骤进行:

-
数据集难度过滤:使用一个开源的指令数据集(如Alpaca数据集)作为基础,通过计算模型拟合难度(MFD)分数来筛选出对学生模型来说较难的指令对,过滤得到种子数据集。
-
多任务规划指令蒸馏:根据设定的任务类型配比,利用一个教师模型(如ChatGPT)扩展种子数据集,生成更多具有相似难度水平的指令-响应对,并提升推理类任务的采样概率,以更好的缓解能力冲突问题。
-
多任务回答风格增强:对于某些任务,使用特定的提示重写响应,以便从教师模型获得更精细、更详细的回答,或者是特定任务格式的回答(如思维链,代码注释),这有助于学生模型更好地理解和学习复杂任务。
-
模型多轮优化迭代:通过多轮训练,利用裁判模型得到学生模型的回答质量反馈奖励分数,采样得到新的蒸馏种子数据集。逐步增加新一轮蒸馏种子数据集中挑战性指令的比例,实现从易到难的泛化。
TAPIR框架通过这种逐步提升任务难度和均衡任务类型的策略,使学生模型能够在较少的训练数据下超越更大的模型,显示出更好的性能,并在多个基准测试中取得了显著的性能提升。

难度重采样
难度重采样旨在解决训练集中任务难度分布不均的问题。难度重采样的目标是确保学生大型语言模型在蒸馏微调过程中能够接触到难度逐渐增大的任务,从而在困难的任务中泛化。我们通过计算模型拟合难度(Model Fitting Difficulty, MFD)分数来评估每个指令对学生模型的难度。MFD分数是通过比较学生模型生成的响应与教师模型生成的响应之间的质量差异来确定的。我们使用教师模型来作为裁判打分。
根据MFD分数,筛选出对学生模型来说较难的指令对,即分差大于阈值 \delta 的指令。这些指令对将被纳入种子数据集。
任务重采样
在TAPIR框架中,任务重采样旨在解决训练集中任务分布不均的问题。其目的是提升训练集的多样性。在均衡的任务配比下为微调学生模型,以缓解微调过程中的能力冲突和灾难性遗忘问题。
首先,我们训练了一个指令任务分类模型(Deberta v3)识别和分类训练集中的任务类型,给每条指令打上显示的任务标签。然后通过任务标签重采样,使数据集中的任务分布更均衡,并且增强逻辑推理和编程任务的占比。基于我们的采样概率,教师模型扩展种子数据生成了新指令问答对,这些新数据与原有数据在难度上相近。
设指令对的任务采样概率为
,则学生模型微调的自回归损失可以写作:
我们针对任务特点增强了教师模型标注的回答格式。如下所示:

多轮迭代优化
在多轮迭代的过程中,我们可以不断更新计算学生模型在新的微调数据集上的模型拟合难度来动态调整新一轮的蒸馏种子数据集难度配比。如下面的公式所示,当 设置为 1 时,整个训练语料库仅由这些“困难”样本作为种子蒸馏。通过逐渐增加 \alpha_r , 系统地提高学习任务的复杂性。同时,为了保证指令的多样性,在每一轮中通过教师模型扩展难度重采样后的数据集,并将扩展后的数据集表示为
。第 r 轮的损失函数定义如下:
在每轮之后,更新规则为:
其中 是一个预定义的常数,用来逐渐增加学习任务的难度。
实验结果
实验结果表明,使用TAPIR框架训练的学生语言模型在较少的训练数据下,其性能超过了更大的指令调整模型和其他蒸馏基线方法。具体地说,TAPIR训练的模型在AlpacaEval 2.0基准测试中取得了7.80的胜率,优于Vicuna 13B和LLaMA2-Chat 13B,即便其培训数据和参数量仅为后者的一半。此外,在MT-Bench基准测试中,该模型在角色扮演、推理、数学、编程和人文学科等子任务中,表现优于LLaMA2 7B Chat 基线模型。为验证TAPIR框架在不同规模模型上的一致性,我们在Qwen1.5-Chat系列模型上做了实验,结果显示TAPIR能有效提升模型的指令遵循能力。


TAPIR-7B模型例子如下所示。在角色扮演任务中,语言模型扮演体育解说评论员。TAPIR-7B 生动地描述了比赛的最后胜利时刻并表现出色,而 Lion-7B 只是提供了如何评论的分析,没有完全执行任务,LLaMA2-Chat则误解了指令。

参考文献
-
Li, M., Chen, L., Chen, J., He, S., Huang, H., Gu, J., & Zhou, T. Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning. ArXiv, abs/2310.11716.
-
Song, C., Zhou, Z., Yan, J., Fei, Y., Lan, Z., & Zhang, Y. Dynamics of Instruction Tuning: Each Ability of Large Language Models Has Its Own Growth Pace. ArXiv, abs/2310.19651.
-
Jiang, Y., Chan, C., Chen, M., & Wang, W. Lion: Adversarial Distillation of Proprietary Large Language Models. EMNLP 2023.
论文信息
论文名字:Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning
论文作者:岳元浩、汪诚愚、黄俊、王鹏
论文pdf链接:https://arxiv.org/pdf/2405.13448
阿里云人工智能平台PAI长期招聘研究实习生。团队专注于深度学习算法研究与应用,重点聚焦大语言模型和多模态AIGC大模型的应用算法研究和应用。简历投递和咨询:chengyu.wcy@alibaba-inc.com。
相关文章:
【EMNLP2024】基于多轮课程学习的大语言模型蒸馏算法 TAPIR
近日,阿里云人工智能平台PAI与复旦大学王鹏教授团队合作,在自然语言处理顶级会议EMNLP 2024 上发表论文《Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning》。文章提出了一个名为 TAPIR 的知…...
置信传播算法复现
本文所涉及所有资源均在 传知代码平台 可获取。 目录 一.背景及意义介绍 1. 实际应用广泛 2. 理论研究重要性...
【在Linux世界中追寻伟大的One Piece】poll代码改写
目录 1 -> poll代码改写 1 -> poll代码改写 结合select代码,将select server更改成为pollserver,不是一件困难的事情。 #pragma once#include <iostream> #include <string> #include <poll.h> #include <memory> #inc…...
C++builder中的人工智能(17):神经网络中的自我规则非单调(Mish)激活函数
在这篇文章中,我们将探讨自我规则非单调激活函数——Mish在神经网络中的应用。了解Mish函数的工作原理,将有助于您在使用C IDE构建C应用程序时更加得心应手。 目录 神经网络中的激活函数是什么?能在C中创建激活函数吗?自我规则非…...
Java 的 Scanner 类:控制台输入与文件扫描
Java 的 Scanner 类是一个非常方便的工具类,主要用于从控制台或文件中扫描输入数据。虽然它也可以用于扫描文件内容,但我们通常更喜欢它用于控制台输入,因为扫描文件可以通过文件流来完成。接下来,我们将通过几个简单的示例来讲解…...
使用纯HTML和CSS绘制圣诞树:打造网页中的冬日奇景
### HTML & CSS 实现节日圣诞树:一步步打造你的冬季主题网页 在这篇文章中,我们将使用纯HTML和CSS创建一棵节日圣诞树。通过简单的代码,您可以在网页上实现一棵带有星星、彩球装饰的圣诞树,为网站增添节日氛围。 ### 实现思…...
深度学习-图像评分实验(TensorFlow框架运用、读取处理图片、模型建构)
目录 0、实验准备 ①实验环境 ②需要下载的安装包 ③注意事项(很关键,否则后面内容看不懂) ④容易出现的问题 1、查看数据并读取数据。 2、PIL库里的Image包进行读取(.resize更改图片尺寸,并将原始数据归一化处…...
羲和数据集收集器0.9
为了进一步完善代码,增强其文字抓取能力和文件读取能力,我们做以下改进: 增强 DOCX 文档的文本提取:不仅提取段落和文本框内容,还提取表格中的文本。 增强 PDF 文档的文本提取:不仅提取页面文本和注释,还提取表格中的文本。 优化文本清理:确保文本清理更加彻底,避免不…...
哈尔滨等保测评常见误区破解:避免陷入安全盲区
在当今信息化社会,网络安全已成为各行各业不可忽视的重要议题。等级保护(简称“等保”)作为我国网络安全的基本制度,旨在通过划分不同安全保护等级,对信息系统实施分等级的安全保护。然而,在实施等保测评的…...
Python学习------第四天
Python的判断语句 一、布尔类型和比较运算符 二、 if语句的基本格式 if语句注意空格缩进!!! if else python判断语句的嵌套用法:...
【Django】配置文件 settings.py
【Django】配置文件 settings.py 和Flask框架不同,Django框架项目在创建的时会默认生成配置文件settings.py,在深入学习Django框架前,我们先简单了解settings.py文件内非注释代码, from pathlib import Path BASE_DIR Path(__f…...
量化交易系统开发-实时行情自动化交易-Okex K线数据
19年创业做过一年的量化交易但没有成功,作为交易系统的开发人员积累了一些经验,最近想重新研究交易系统,一边整理一边写出来一些思考供大家参考,也希望跟做量化的朋友有更多的交流和合作。 接下来聊聊基于Okex交易所API获取K线数…...
【基于轻量型架构的WEB开发】课程 12.5 数据回写 Java EE企业级应用开发教程 Spring+SpringMVC+MyBatis
12.5 数据回写 12.5.1 普通字符串的回写 接下来通过HttpServletResponse输出数据的案例,演示普通字符串的回写,案例具体实现步骤如下。 1 创建一个数据回写类DataController,在DataController类中定义 showDataByResponse()方法ÿ…...
apache-seata-2.1.0 AT模式使用篇(配置简单)
最近在研究seata的AT模式,先在本地搭建了一个演示demo,看看seata是如何使用的。在网上搜的demo,配置相对来说都比较多。我最终搭建的版本,配置较少,所以写篇文章分享下,希望能帮到对seata感兴趣的小伙伴。先…...
(金蝶云星空)客户端追踪SQL
快捷键 ShitfCtryAltM 点击开始、最后操作功能、然后查看报告 SQL报告...
OAK相机:纯视觉SLAM在夜晚的应用
哈喽,OAK的朋友们,大家好啊,今天这个视频主要想分享一下袁博士团队用我们的OAK相机产出的新成果 在去年过山车SLAM的演示中,袁博士团队就展示了纯视觉SLAM在完全黑暗的环境中的极高鲁棒性。 现在袁博士团队进一步挖掘了纯视觉的潜…...
发送方确认
在使用RabbitMQ的时候,可以通过消息持久化来解决因为服务器的异常而导致的消息就是,但是还有一个问题,当消息的生产者将消息发送出去之后,消息到底有没有正确地到达服务器呢?如果消息在到达服务器之前已经丢失…...
如何使用HighBuilder前端开发神器
一,前言 前端开发是网页和应用程序设计与开发中的一个重要分支,直接涉及用户界面的构建和用户与网页的交互。前端是用户在浏览器中看到的部分,负责为用户提供良好的体验。 二,前段介绍 1. 前端的组成 前端开发主要由三个核心技…...
发现了NitroShare的一个bug
NitroShare 是一个跨平台的局域网开源网络文件传输应用程序,它利用广播发现机制在本地网络中找到其他安装了 NitroShare 的设备,从而实现这些设备之间的文件和文件夹发送。 NitroShare 支持 Windows、macOS 和 Linux 操作系统。 NitroShare允许我们为…...
如何关闭 Ubuntu22.04 LTS 的更新提醒
引言 众所周知,Ubuntu 的软件更新和版本更新提醒是又多又烦,如果不小心更新到了最新的 Ubuntu 还可能面临各种各样的问题,这里提供一个解决方法 步骤 首先按照下面步骤打开 Software & Updates 然后按照下面步骤依次点击 最后关闭即可…...
conda相比python好处
Conda 作为 Python 的环境和包管理工具,相比原生 Python 生态(如 pip 虚拟环境)有许多独特优势,尤其在多项目管理、依赖处理和跨平台兼容性等方面表现更优。以下是 Conda 的核心好处: 一、一站式环境管理:…...
51c自动驾驶~合集58
我自己的原文哦~ https://blog.51cto.com/whaosoft/13967107 #CCA-Attention 全局池化局部保留,CCA-Attention为LLM长文本建模带来突破性进展 琶洲实验室、华南理工大学联合推出关键上下文感知注意力机制(CCA-Attention),…...
Spark 之 入门讲解详细版(1)
1、简介 1.1 Spark简介 Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处&…...
vscode(仍待补充)
写于2025 6.9 主包将加入vscode这个更权威的圈子 vscode的基本使用 侧边栏 vscode还能连接ssh? debug时使用的launch文件 1.task.json {"tasks": [{"type": "cppbuild","label": "C/C: gcc.exe 生成活动文件"…...
连锁超市冷库节能解决方案:如何实现超市降本增效
在连锁超市冷库运营中,高能耗、设备损耗快、人工管理低效等问题长期困扰企业。御控冷库节能解决方案通过智能控制化霜、按需化霜、实时监控、故障诊断、自动预警、远程控制开关六大核心技术,实现年省电费15%-60%,且不改动原有装备、安装快捷、…...
从零开始打造 OpenSTLinux 6.6 Yocto 系统(基于STM32CubeMX)(九)
设备树移植 和uboot设备树修改的内容同步到kernel将设备树stm32mp157d-stm32mp157daa1-mx.dts复制到内核源码目录下 源码修改及编译 修改arch/arm/boot/dts/st/Makefile,新增设备树编译 stm32mp157f-ev1-m4-examples.dtb \stm32mp157d-stm32mp157daa1-mx.dtb修改…...
新能源汽车智慧充电桩管理方案:新能源充电桩散热问题及消防安全监管方案
随着新能源汽车的快速普及,充电桩作为核心配套设施,其安全性与可靠性备受关注。然而,在高温、高负荷运行环境下,充电桩的散热问题与消防安全隐患日益凸显,成为制约行业发展的关键瓶颈。 如何通过智慧化管理手段优化散…...
Robots.txt 文件
什么是robots.txt? robots.txt 是一个位于网站根目录下的文本文件(如:https://example.com/robots.txt),它用于指导网络爬虫(如搜索引擎的蜘蛛程序)如何抓取该网站的内容。这个文件遵循 Robots…...
[Java恶补day16] 238.除自身以外数组的乘积
给你一个整数数组 nums,返回 数组 answer ,其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积 。 题目数据 保证 数组 nums之中任意元素的全部前缀元素和后缀的乘积都在 32 位 整数范围内。 请 不要使用除法,且在 O(n) 时间复杂度…...
分布式增量爬虫实现方案
之前我们在讨论的是分布式爬虫如何实现增量爬取。增量爬虫的目标是只爬取新产生或发生变化的页面,避免重复抓取,以节省资源和时间。 在分布式环境下,增量爬虫的实现需要考虑多个爬虫节点之间的协调和去重。 另一种思路:将增量判…...
