当前位置：首页 > news >正文

人工智能模型组合学习的理论和实验实践

news 2026/5/12 18:04:41

组合学习，即掌握将基本概念结合起来构建更复杂概念的能力，对人类认知至关重要，特别是在人类语言理解和视觉感知方面。这一概念与在未观察到的情况下推广的能力紧密相关。尽管它在智能中扮演着核心角色，但缺乏系统化的理论及实验研究方法，使得分析计算模型的组合学习能力变得困难。

本文将对组合学习的各个方面进行全面的调查，包括：

认知方面：探讨认知科学和语言学中定义的组合学习任务，并将其与现有数据集联系起来。
计算模型：概述旨在解决组合学习问题的各种计算模型，包括基本神经网络模型、大型语言模型和定制架构（包括神经符号模型）。
评估范式：介绍理论和实验两种评估方法，以评估模型的组合学习能力。

1 组合学习五个主要的组合性度量标准

组合性是整体泛化能力的一个重要方面。认知科学和语言学文献已经确定了定义组合性的任务的广泛分类，这些任务可以用来评估模型的组合推理能力。人类自然语言的基础在于组合性。一个常用的任务分类，定义了五个主要的组合性度量标准：系统性(Systematicity)、生成性(Productivity)、替代性(Substitutivity)、局部性(Localism)和过度泛化(Overgeneralization)。

1.1 系统性组合 (Systematicity Composition)

系统性是评估架构性能时最常用的组合性概念之一。它被定义为系统地重新组合已知部分和规则的能力。在评估模型的组合推理能力时，将已知元素句法组合成新的或“未见过”的表达式的能力是一个重要的测试。这也被称为基于分布的组合性评估，其中定义了两个原则：一是确保原子的分布在训练集和测试集中相似，另一个是确保复合物的分布在训练集和测试集中不同。

1.1.1 任务示例

将不同的形容词和名词组合成新的名词短语，例如，将“高”和“大”组合成“高大”。
将不同的动词和名词组合成新的动词短语，例如，将“吃”和“苹果”组合成“吃苹果”。

1.1.2 数据集：CREPE, SCAN, gSCAN, PCFG SET, COGS

1.2 生成性/长度泛化 (Productivity/Length Generalization)

另一种常用的组合性测试是长度泛化或生成性，模型在比训练数据更长的表达式或序列上的性能被测试。

1.2.1 任务示例

理解并操作包含多个嵌套条件的逻辑表达式，例如，“如果A且B，则C；否则，D”。
理解并操作包含多个步骤的程序，例如，编写一个程序来计算阶乘。

1.2.2 数据集：CREPE, PCFG SET, CFQ, COGS

1.3 替代性/同义性 (Substitutivity/Synonymity)

同义性是评估能够理解并操作表达式中同义词的使用。

1.3.1 任务示例

将包含同义词的表达式翻译成其他语言，例如，将“我喜欢吃水果”翻译成“我喜欢吃苹果”。
理解并操作包含同义词的句子，例如，“我喜欢吃水果，尤其是苹果”。

1.3.2 数据集：PCFG SET

1.4 局部性 (Localism)

组合性的另一个细微差别是全局与局部组合的概念。根据组合性原则，组合运算符的局部性可以变化。复杂表达式的含义可以仅依赖于其直接部分的含义（局部组合），或依赖于上下文的全局结构。局部性可以通过分析模型赋予独立复合物的含义与当该复合物是更大表达式的一部分时的含义来测试。

1.4.1 任务示例

理解并操作包含局部和全局组合关系的句子，例如，“我喜欢吃水果，尤其是苹果”。
理解并操作包含指代关系的句子，例如，“他喜欢吃水果，尤其是苹果”。

1.4.2 数据集：PCFG SET

1.5 泛化过度 (Overgeneralization)

过度泛化，评估模型更倾向于选择例外而非规则的程度。

1.5.1 任务示例

理解并操作包含规则例外情况的句子，例如，“狗是动物，但不是所有动物都是狗”。

理解并操作包含反例的句子，例如，“苹果是水果，但不是所有水果都是苹果”。

1.5.2 数据集：PCFG SET

2 抽象任务和数据集

2.1 系统性组合

CREPE：这是一个合成数据集，用于评估模型在描述图像方面的组合学习能力。主要任务设置是，给定一张图片，模型需要从多个给定选项中识别出合适的文本标题。这种系统性挑战测试了模型是否能够在训练期间系统地生成新的组合，这些组合在训练期间未曾观察到，例如“在平底锅上的可丽饼”（Crepe on a skillet），尽管在不同的上下文中分别观察到了可丽饼和平底锅。
SCAN：这是一个导航任务数据集，用于评估模型在理解自然语言指令方面的组合学习能力。模型需要根据指令在二维网格世界中导航。
gSCAN：这是一个基于SCAN的地面数据集，用于评估模型在理解自然语言指令方面的组合学习能力。模型需要根据指令在二维网格世界中导航，并理解指令中的新颖组合。
PCFG SET：这是一个基于概率上下文无关语法的数据集，用于评估模型在翻译语法表达式方面的组合学习能力。模型需要将语法表达式翻译成表示其意义的序列。
COGS：这是一个语义解析数据集，用于评估模型在理解英语句子方面的组合学习能力。模型需要确定输入句子的形式意义表示。

2.2 生产力/长度泛化

CREPE：除了系统性任务，CREPE还包含生产力任务，用于评估模型处理长序列的能力。
PCFG SET：PCFG SET包含多个子数据集，其中一些子数据集用于评估模型处理长序列的能力。
CFQ：这是一个基于知识图谱的自然语言问答数据集，用于评估模型在理解自然语言问题方面的组合学习能力。CFQ包含多个子数据集，其中一些子数据集用于评估模型处理长序列的能力。
COGS：COGS包含多个子数据集，其中一些子数据集用于评估模型处理长序列的能力。

2.3 其他泛化标准

PCFG SET：唯一一个评估其他三个额外标准的基准。PCFG SET还包含其他三个子数据集，分别用于评估模型的可替换性、局部性和泛化过度能力。

3 组合学习模型

3.1 经典神经网络模型

对不同的神经模型进行了组合学习任务的测试，评估了长短期记忆网络（LSTM）、卷积神经网络（CNN）和变换器（Transformers）在序列到序列语言处理任务上的表现，这些任务是PCFG SET任务。平均来看，变换器（Transformers）在这些任务上的表现优于其他两种模型，但在两种经典神经模型中，卷积模型比LSTM表现得更好。

3.2 基于Transformer架构模型

大型语言模型的组合能力目前是一个有争议的话题。它们已经在本质上是组合在一般任务上进行了评估，例如算术、逻辑和动态规划。如GPT系列变换器通过将问题简化为线性子图匹配来解决这些任务，而没有发展出真正的组合推理能力。

变换器在组合任务上表现的具体架构因素， 1)位置编码的类型，2)使用复制解码器，3)模型大小，4)权重共享，5)使用中间表示进行预测-在几个不同的数据集和基准上。所采用的任务包括加法、加法负数、反转、复制、笛卡尔积、交集、SCAN长度和SCAN加跳、PCFG生成性和系统性、COGS和CFQ-mcd1。

结论如下：

相对位置编码通常有帮助，但使用嵌入是必要的，仅仅使用相对位置偏见是不够的。
SCAN和CFQ这样的任务没有受到位置嵌入的影响。
复制或PCFG这样的任务从复制解码器中受益，因为它可以学习一种像学习输入的某个位置一样的对称性。
就模型大小而言，发现对于算法任务，大型模型并没有帮助。
对于PCFG，大型模型优于它们的小型变体。

3.3 神经符号架构模型

在对智能系统建模的尖端研究中，神经符号建模是一个日益增长的趋势。随着对通用人工智能模型的需求不断增长，需要高度组合的模型，这些模型可以根据以前训练的更简单任务进行推理，以完成新颖和复杂的任务。

一种方法是使用自然语言解释来生成正式规范，这些规范明确地以所需更简单步骤的形式列出组合任务。然后，将正式规范传递给适当的引擎来解决问题。遵循这种方法的著名视觉理解模型是VisProg。VisProg是一个模块化的神经符号模型，可以在给定自然语言指令的情况下，仅依赖于大型语言模型的上下文学习，解决各种组合视觉推理任务。它生成Python模块程序以获得解决方案。这种方法为模型如何推导出解决方案提供了可解释的推理。这些模块程序使用VisProg支持的内置模块，例如现成的神经计算机视觉模型、图像预处理模块或Python子程序，并在没有特定任务训练的情况下解决复杂任务。

另一个方法是从未加语言解释中生成问题的正式逻辑规范，并将逻辑形式传递给逻辑推理引擎。这项工作使用像GPT-3或GPT-3.5 Turbo这样的大型语言模型，通过将复杂组合任务分解为基于推理链的更小步骤，为解决复杂组合任务提供“指南”。类似于此，许多最近的工作集中在可以使用的不同的提示策略上，这些策略可以通过模块化方法解决复杂组合任务。

4 理论发现

4.1 经典神经网络模型

循环神经网络 (RNN): RNN 模型在组合泛化方面表现出一定的能力，能够生成具有特定嵌套深度的自然语言句子。然而，RNN 的泛化能力受到其内存和计算复杂度的限制。
卷积神经网络 (CNN): CNN 模型在组合泛化方面也展现出潜力，能够处理视觉任务中的组合结构。然而，CNN 的组合泛化能力仍需进一步研究和提升。

4.2 基于Transformer架构模型

精度限制: Transformer 模型在处理长输入序列时存在精度限制，这限制了其在解决高度复杂的组合任务方面的能力。
注意力机制: 硬注意力机制导致 Transformer 忽略大部分输入信息，而软注意力机制难以处理长输入序列。这些局限性限制了 Transformer 在组合泛化方面的表现。
潜在突破: 通过引入中间表示、改进位置编码、使用复制解码器等技术，可以提升 Transformer 模型的组合泛化能力。

4.3 大型语言模型 (LLM)

涌现能力: LLM 在组合泛化方面展现出涌现能力，能够在特定任务上表现出超越其参数规模的性能。然而，这种涌现能力的存在性和本质仍存在争议。
数据污染: LLM 的训练数据规模庞大，存在数据污染问题，这影响了其在组合泛化方面的评估。
认知动机: LLM 在组合泛化方面的能力与人类认知存在差异，需要进一步研究和改进。

5 未来方向

已经有大量研究从认知角度探讨了人类的组合学习能力。语言学和形式语言研究人员自从语言具有固有的组合结构以来就对组合性概念进行了形式化。然而，从人工智能和机器学习的角度来看，想法是从认知和语言学中借鉴的，计算任务和模型的设计集中在组合性的少数几个方面。

设计更具组合泛化能力的神经网络架构，例如神经模块网络、Pushdown Layers 等。
开发新的学习算法，例如基于认知科学原理的学习算法，以提升 AI 模型的组合泛化能力。
建立更完善的评估体系，以准确评估 AI 模型的组合泛化能力。
探索神经符号模型和神经组合计算在组合泛化方面的潜力。