当前位置：首页 > news >正文

模型的训练专题

news 2025/7/7 15:37:46

训练目标在数学上指定了模型应该如何从训练数据中学习和获取能力。训练基础模型的当前现状涉及特定于模型的目标。我们设想，未来基础模型的训练目标将反映两个变化：从系统证据和评估中得出的原则性选择，以及跨数据源和模式提供丰富、可扩展和统一的训练信号的领域通用性。我们还讨论了重要的设计权衡，包括生成与判别式训练，输入数据表示的选择，以及涉及明确表示目标的未来训练目标的潜力。

训练目标是描述如何将模型架构和大量广泛数据转换为基础模型的数学函数。例如，GPT-3是用语言建模目标训练的，该目标奖励模型正确预测下一个单词。我们开始通过列出这些训练方法的一些目标，描述当前方法中重要的设计权衡，并概述未来道路的重要目标。

1 训练目标

在这里，我们根据这些方法和模型最近的快速进展概述了训练算法的一些关键目标。

1.1 利用广泛的数据

自监督学习算法的兴起已经释放了互联网规模数据集的力量，这些数据集很难手工注释。这种广泛的数据有多种形式，包括图像、录音和视频;机器人和传感器数据;以及文本，无论是孤立的还是与图像等其他形式配对的文本。由于这些数据缺乏外部注释，研究人员的一个主要重点是设计定制的自我监督算法，利用每种数据中的独特结构为基础模型生成训练信号。

1.2 域完整性

基础模型训练算法的一个重要目标是领域完备，在这个意义上，解决训练任务需要对领域中的下游任务广泛有用的能力。该属性对于基础模型的通用性至关重要。例如，语言建模可能需要模型在学习预测文档中的下一个单词时获得广泛的功能，如共指、情感和翻译。相比之下，像情感分类这样的监督学习任务可能会导致更窄的能力集。尽管这个特性很重要，但是什么样的任务会导致一个领域的完整能力，甚至如何评估一个模型的能力的全部广度，都不是先验的明显的。

1.3 扩展和计算效率。

训练基础模型的过程必须可靠地将数据、模型架构和计算转换为具有广泛能力的模型。为了最大限度地提高基础模型的能力，我们可以识别这个过程的瓶颈，并提出新的训练算法来消除它们。自监督算法的兴起使模型大小和计算资源成为日益突出的瓶颈，导致了一种转变，即模型的评估不仅仅是基于其能力，而是基于达到这些能力所需的计算量和类型。培训目标的效率可能会有很大的差异，这就清楚地表明，在固定的计算预算下，培训方法的设计对于强大功能的出现是多么重要。因此，培训研究人员的一个主要目标是设计具有更丰富训练信号的训练目标，从而使模型学习更快，能力更强。帮助这种发展的一个力量是能力如何随着不同类型的架构，数据大小和计算而扩展的惊人的可预测性，这是一个惊人的现象，使模型开发人员能够基于更清晰的趋势而不是更昂贵的随机搜索做出选择。

2 当前SSL方法中的设计权衡

目前用于训练基础模型的自监督学习（SSL）方法多种多样，但将它们统一起来的是，它们从未标记的数据中产生预测问题，而无需人工注释。SSL目标通过精心设计的约束，从这些数据中产生丰富的训练信号，无论是对数据本身（例如，编辑或加噪）或模型能够表示或处理数据的方式（例如，潜在瓶颈）。在某种程度上，这些约束“烘焙”了在使模型适应下游任务时所需的各种能力。在这里，我们描述了当前模型探索的三个重要设计选择，沿着它们各自的权衡结果。

2.1 我们应该在什么抽象层次上建模？

一个基本问题是基础模型的输入表示应该是什么。一种选择是在前字节级对输入进行建模。然而，这种高维度可能会导致模型专注于预测输入的语义方面，从而减慢其获得更普遍有用的能力的速率。当训练像transformer这样的模型时，这些方法也变得难以处理，其计算成本与输入大小成二次方增长。另一种选择是使用领域知识来减少模型的输入空间-这种策略包括补丁嵌入。这些方法可能会减轻生成方法面临的一些挑战，但它们可能会放弃输入中可能有用的信息。连续与离散输入的选择也有适应的权衡;需要更多的工作来捕捉这两种方法的好处。

2.2 生成模型vs判别模型

生成式训练方法在概念上是优雅而强大的-它们训练模型来学习训练输入的联合或条件分布。生成式基础模型的两个主要家族包括自回归基础模型，它们逐段生成输入，以及去噪基础模型损坏然后恢复输入。在训练过程中执行的特定生成类型决定了在适应过程中可用的交互类型，未来的模型可能会实现更丰富的交互集合。这些方法不支持基于生成的交互，但它们可以在图像、音频和视频等高维连续设置中实现基于分类或回归的任务的更有效学习。这些方法中的大多数输出向量用于输入（的一部分），这些输入被训练为对于输入的不同“视图”是相似的或用于预测输入的部分是真实的还是假的。更好地理解生成训练和区分训练之间的权衡，以及捕捉这两种方法的最佳效果，仍然是未来研究的有趣途径。

2.3 捕捉多模态关系

另一个越来越重要的研究领域是捕捉多种数据之间的关系。这意味着什么可能会根据建模者的上下文和目标而有所不同。例如，CLIP和ViLBERT都是多模态视觉语言，但它们是多模态的精确方式不同。前者将图像和文本分别编码为向量，使用户能够从单一模态中检索，评分或分类其他模态的示例。第二个在模型的早期阶段联合处理图像和文本，从而实现下游应用，如视觉问答，其中对相关图像和文本对进行推理（例如，图像和问题）。多模态基础模型仍然是一个新兴的研究领域;关于模型可以是多模态的不同方式以及更好地理解这些附加模态带来的能力，还有很多尚未探索。

3 前进的道路

最后，我们总结了基础模型训练未来的一些重要目标。

3.1 开箱即用的SSL

目前，SSL目标是高度特定于领域的：目前在自然语言处理、计算机视觉和语音处理中流行不同的方法。这有两个主要的缺点：首先，这些不同的技术使得掌握这些方法中的每一种方法为什么有效的共同线索和科学原理变得很有挑战性。其次，这种领域特异性要求为每个新领域从头开始开发新的基础模型训练方法，包括医学，科学和新的多模式设置。在任何类型的数据上有效地训练基础模型的更一般的目标将代表基础模型训练社区的重要里程碑。

3.2 获得丰富的训练信号

很明显，并非所有的训练目标都是平等的-有些目标比其他目标效率更高，在给定的计算预算下，转换为功能更强大的基础模型。有没有比目前已知的训练方法更有效的训练方法？如果是这样，我们如何找到他们？这些研究将受到多种力量的影响，包括未来软件和硬件的进步。我们也不需要将数据）和训练算法视为独立的因素：不仅数据的质量和可用性会影响训练信号，而且随着模型的改进，训练算法本身可以自适应地寻找或构建更丰富的训练示例，以加速学习。

3.3 目标导向的基础模型训练

诸如激励之类的适应方法利用了涌现的特性，这些特性几乎是训练之后的产物。我们是否可以训练基础模型，其中在复杂世界中理解和可靠地执行目标的能力是模型训练目标的一部分？对开发通用能力的关注将这一方向与通过强化学习使现有基础模型适应特定任务的目标。相反，人们可以想象当前方法的更复杂版本，这些方法可以从原始在线或离线交互，而无需人工注释或任务构建。这种方法可能使用与现有SSL算法非常相似的技术：例如，在目标导向的上下文中训练序列模型，其中它们可以通过条件作用被直接要求执行某些任务。在简单的交互环境中已经出现的复杂行为表明，基础模型的多任务、多智能体和多模态目标导向训练是未来研究的一个有趣途径。