当前位置：首页 > news >正文

如何不修改模型参数来强化大语言模型 (LLM) 能力？

news 2026/5/28 7:44:09

前言

如果你对这篇文章感兴趣，可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」，查看完整博客分类与对应链接。

大语言模型 (Large Language Model, LLM, e.g. ChatGPT) 的参数量少则几十亿，多则上千亿，对其的训练往往需要大量的算力、智力以及财力支撑。基于此，许多低成本提高 LLM 能力的方法也相应被提出，其中包括模型微调 (e.g., LoRA) 以及一些无须改变模型参数的方法。本文主要关注后者，对下述几种常见的方法进行大致介绍：

提示语设计 (Prompt Engineering)
上下文学习 (In-Context Learning)
思维链 (Chain of Thought, CoT)
- Self-Consistency with CoT / Self-Refine
- Tree of Thought (ToT)
LLM 调用工具 (Tools)
- WebGPT / Toolformer / ToolLLM
- Retrieval-Augmented Generation (RAG)
多模型合作

Prompt Engineering

Prompt（提示语）即给大语言模型的「指令」或「问题」，来引导模型输出合适的内容。

大语言模型与传统机器学习模型的最大区别在于，其具有一定意义上的 “通用能力”，即可以在不改变模型参数的前提下，完成各种各样的任务，例如文本分类 / 机器翻译 / 问答系统 / 文本摘要 / 情感分析等等。而在过去，不同的任务通常需要特定的模型来处理，例如机器翻译和情感分析，就无法只通过一个模型来处理。

由于语言模型的能力从 “专用” 转向了 “通用”，为了使模型更好地识别到对话中所需要完成的具体任务，Prompt Engineering（提示语设计）应运而生，即根据任务需求设计合适的提示语，以获得更精确且更高质量的回答。在使用大语言模型时，通过调整输入的 Prompt，可以极大地影响模型生成的内容，进而强化模型的能力。

提示词通常可以包含以下几个要素：

指令：想要模型执行的特定任务；
上下文：包含外部信息或额外的上下文信息，引导模型更好地响应；
问题描述：输入的具体问题；
回答格式：指定输出的类型或格式。

通常来说，指令 / 问题描述越清晰，上下文包含的有关信息越充分，模型越有可能输出高质量的回答。

此处举一个例子（1/2/3 行分别对应指令/问题/输出格式）：

在这里插入图片描述

为不同的任务设计针对性的 Prompt，可以在不改变模型参数的情况下，强化模型回答的质量。关于 Prompt Engineering 的更多内容可以参考：提示工程指南、ChatGPT Prompt 整理。

In-Context Learning

In-Context Learning（上下文学习），指模型通过输入的上下文信息（通常是示例、对话历史、文本片段等）来推断任务或模式，并依次生成响应，而无需额外的模型训练。In-Context Learning 也可以视作是 Prompt Engineering 的一种形式，尽管后者更侧重于设计特定任务的提示语。

大语言模型的 “通用能力” 不仅体现在其可以做很多不同的任务，还体现在其可以根据 Prompt 中给出的上下文信息，在不改变参数的情况下进行 “学习”。

例如下述这个任务（生成式 AI 导论 2024 - 第 3 讲）：

新闻分成以下类别：这些类别的定义可能与一般的定义不同：
- 政治：报道有关国家经济的消息，例如企业、投资、金融、股市。
- 社会：报道社会上发生的事件，例如灾难、天气、犯罪、人情趣味。
- 财经：报道国内的政治消息，例如政府部门、政策、选举、政策。
- 生活消费：报道与生活相关的小事，例如购物、气象、交通、医疗保健。
- 影视娱乐：报道有关娱乐圈的消息，例如艺人、节目、婚丧。
- 体育：报道与体育运动相关的消息，例如比赛、职业运动、运动明星。
- 国际：报道海外发生的事件，例如战争、大选、外交谈判、贸易。我会给你一篇新闻，请告诉我该新闻属于哪一类，只给我类别就好。

然后给出的具体新闻如下：

“AI题材持续引领，芯片股今年以来股价暴涨近50%，周二（13日）收于721.28美元，市值达到1.78万亿美元，正式超过全球电商巨头亚马逊的市值1.75万亿美元，成为排名第4大的美国公司。”

这则新闻实际上属于财经类，但由于我们上面颠倒了新闻类别的定义，因此我们希望模型输出的是「政治」。经过测试，ChatGPT-4o 输出的仍然是「财经」，但 ChatGPT-o1 的输出则为「政治」。

在这里插入图片描述
可以看到大语言模型根据输入的上下文实现了某种意义的 “学习”，类似于先前预训练模型上实现的 “zero-shot learning” 与 “few-shot learning” 的效果：

zero-shot learning：模型能够在没有见过某些任务的情况下，实现正确的预测（例如上面的例子）；
few-shot learning：模型能够在只有极少数标注样本的情况下，在新任务上做出正确的预测。
- ps：不过此处有一些不同，以往预训练模型实现的少样本学习，通常需要微调模型参数，但 LLM 可以仅通过修改 Prompt 实现，不需要修改模型参数。

基于大语言模型表现出的 In-Context Learning 的性质，也有许多人尝试用 LLM 做表格型任务，即将任务的少量标注样本通过 Prompt 的形式喂给模型，使模型能够基于这些样本实现对这个任务的正确预测。

例如下面这个简单的例子（From ChatGPT）：

任务：填写下表中缺失的值。示例：| 产品名称 | 价格 | 销售数量 | 总销售额 |
|---------|-----|---------|---------|
| 苹果     | 1.2 | 50      | 60      |
| 香蕉     | 0.8 | 30      | 24      |
| 橙子     | 1.0 | 40      | 40      |
| 葡萄     | 2.0 | 20      | 40      |现在，使用相同的逻辑填写下表：| 产品名称 | 价格 | 销售数量 | 总销售额 |
|---------|-----|---------|---------|
| 苹果     | 1.6 | 30      | ?       |
| 香蕉     | 1.8 | 50      | ?       |
| 橙子     | 2.0 | 20      | ?       |
| 葡萄     | 4.0 | 10      | ?       |

ChatGPT 可以识别出「总销售额 = 价格 * 销售数量」的关系，并输出正确的结果：

在这里插入图片描述

Chain of Thought (CoT)

思维链 (CoT) 即让模型通过一系列中间步骤来思考问题，而不是直接给出最终答案。通过将推理过程分解成可理解的步骤，可以使模型避免常见的错误推断，并在复杂任务上提供更精准的答案。

如下图所示，通过引导模型给出答案的思考过程，模型在具体任务上取得了更好的结果 (NeurIPS22 - CoT)：

在这里插入图片描述

基于 CoT 的工作，后续有许多进一步强化 CoT 效果的工作，接下来将对其中的一些主要内容进行介绍。

Self-Consistency with CoT

LLM 生成文本的方式是预测 next token，即 Decoder 不断根据已生成的内容，输出下一个字符。

Decoder 的实际功能是预测字符表中，每个字符作为下一个输出字符的概率，因此一种常见的输出策略就是 Greedy decode，每次输出概率最高的那个字符。

Self-Consistent CoT 就是在 CoT 的基础上，对模型的输出策略进行修改。具体操作如下：

首先构造引导模型按步骤思考的 CoT prompt；
随后将 Greedy decode 更换为按 next token 的概率采样选择下一个输出字符，来生成一组不同的回答；
最后选取一致性最高的答案（出现次数最多的答案）作为最终的输出结果。

下图为具体工作流程 (ICLR23 - Self-Consistency with CoT)：
在这里插入图片描述

Self-Refine

此外，也可以在 CoT 的每一个步骤中，让语言模型对生成的答案进行自我纠错，进一步地提升答案的准确性。此处先介绍模型自我纠错的方式，其与 CoT 的结合放在下一小节的 Tree of Thought 中进行介绍。

模型自我纠错的具体操作如下：

首先将问题 $x$ 输入给模型，得到模型的输出 $\mathbf{y}_0$ ；
然后让模型判断 $\mathbf{y}_0$ 作为 $x$ 问题的回答是否合适，得到模型的反馈 $\text{fb}_0$ ；
再将 $x,\mathbf{y}_0,\text{fb}_0$ 都输入给模型，得到模型改进后的回答 $\mathbf{y}_1$ ；
整个过程可以不断迭代，直至触发停止条件。

下述为一个具体例子 (NeurIPS23 - Self-Refine)：

在这里插入图片描述
整体的算法如下所示（只需要提供生成回答 $p_{\text{gen}}$ 、提供反馈 $p_{\text{fb}}$ 、改进回答 $p_{\text{refine}}$ 的 Prompt，再不断迭代即可）：

在这里插入图片描述

Tree of Thought (ToT)

上述方法的特点分别为：(1) 按步骤进行思考；(2) 多次生成回答并选取一致性最高的答案；(3) 让模型检查自己的答案。将这三个特点进行融合，可以得到 Tree of Thought 方法，其与先前方法的区别可参考下述流程图 (NeurIPS23 - ToT)：

在这里插入图片描述

Tree of Thought 的具体操作如下：

首先采用了 CoT 的方式，模型是一步一步思考的（即回答生成过程是一层一层往下）；
其次采用了 CoT-SC 的方式，每一步会生成多个候选回答（即每一个 Thought 下面有多个子节点）；
最后采用了类似 Self-Refine 的方式，对每一步的 Thought 进行评估，如果评估的结果不好，则不再继续深入，类似于搜索剪枝的操作（即标红的 Thought 没有继续往下搜）。

下述为一个 24 点（判断给出的四个数字是否可以通过加减乘除得到 24）的具体例子，其中标红的 Thought State 节点即评估结果不好被剪枝：

在这里插入图片描述

LLM + Tools

LLM 还可以通过调用一些外部工具（APIs），在不修改模型参数的同时提高模型性能。常见的外部工具有：搜索引擎、代码编译器、文生图 AI 等等。

WebGPT

WebGPT 是 OpenAI 在 21 年提出的一种 GPT 调用搜索引擎的方式，其调用工具的方法为预测 next command，类似于预测 next token 的思想。

具体来说，模型首先会判断是否要借助搜索引擎，如果借助则会执行 Search <query> 的命令，得到最初的搜索结果，随后根据之前获取的结果判断应该执行下述哪一个 command：

在这里插入图片描述
例如可能会触发 Clicked on link (点击某个链接)、Quote (收藏某段内容)、Back (返回前一个页面) 等操作，如果最终触发了 End: Answer，则会根据之前收藏的所有页面内容，生成最终的回答。

由于 Command 是重新定义的，因此模型在 GPT-3 的基础上，根据人类标注的调用搜索引擎的数据 + 强化学习再次进行了训练，具体细节可参考原论文。

Toolformer

随后 23 年提出的 Toolformer 在 WebGPT 上更进一步，不仅可以调用搜索引擎，还可以调用计算器、翻译器等各类工具。下述为 Toolformer 调用的工具 (APIs) 示例：

在这里插入图片描述

其思想依然是类似于 next token 预测，即如果输出了调用某些工具的触发词，则会调用相应的工具，并根据工具输出的结果继续生成后续文字。例如当模型生成 [QA(“Which country is Pittsburgh in?”)] 这样的内容时，会自动调用 QA 这个工具，得到 United States 这个输出后，将其嵌入到原本的生成内容中。

在模型训练过程中，Toolformer 利用了其他 LLM，例如 GPT-3 来生成训练数据。下述为论文中给出的用其他 LLM 来生成调用 QA 这个工具的训练数据的 Prompt：

在这里插入图片描述

为了进一步提高这种方式生成的数据质量，Toolformer 会对这些数据进行验证，即判断根据上述生成数据的内容，「调用 API 的输出」对比「不调用 API 的输出」，前者是否更接近正确答案。如果调用 API 后的结果更准确，则保留这条数据。

ToolLLM

更进一步地，ToolLLM 从 RapidAPI Hub 中收集了 16464 个现实世界的 RESTul APIs，并使用 ChatGPT 为这些 APIs 构建了指令微调的数据集。基于这些数据集进行微调，ToolLLM 实现了对这些 APIs 的管理与调用。RapidAPI 的层级结构，以及为这些 APIs 构建数据集的示例如下所示：

在这里插入图片描述

ToolLLM 整体分为 Data Construction、Train 以及 Inference 三部分，如下所示：

在这里插入图片描述

首先是数据集的构建：先从 RapidAPI 中搜集大量 APIs，再使用 ChatGPT 为这些 API 构建指令微调的数据集。随后类似于 Toolformer 的想法，再使用 ChatGPT 选取一些高质量的指令，即采用一种类似深度搜索树的方式（即下图中的 DFSDT，与 Tree of Thought 的想法类似），搜索 API 的调用路径，保留能成功找到路径的指令，如下图所示：

在这里插入图片描述

随后基于这些指令，可以通过监督学习 (Supervised Fine-tuning, SFT) 在 LLaMA 的基础上得到 ToolLLaMA；再基于 API 的文档，训练一个 API Retriever，用于后续判断指令与哪些 API 比较相关。

最后在模型推理时，先根据用户给出的指令，利用 API Retriever 获取相关的 APIs，然后再通过上述 DFSDT 的方式，查搜并评估不同的 API 调用路径，直至输出最终的答案。

Retrieval-Augmented Generation (RAG)

RAG 的核心思想为「检索技术 + LLM 提示语」，即根据用户的 Query 从垂域数据库中搜索出相关的内容，并使用合适的 Prompt 将这些相关内容与用户原始 Query 合并在一起，使得 LLM 回答地更加准确。

为了快速从垂域数据库中获取相关的内容，需要提前做好以下两步：

利用已有的一些 Embedding 模型（例如 ChatGPT-Embedding、Sentence Transformers 等）将知识库的文档转成向量形式；
利用当前向量数据库的一些技术（例如 Faiss、NMSLIB），构建这些向量形式的向量索引，以支持后续根据用户的 Query 快速查询相关内容。

一个初步的 RAG 框架如下所示，更多 RAG 相关内容以及进阶方法，可以参考：知乎 - 大模型 RAG、LLM - RAG 研究

在这里插入图片描述

多模型合作

多个模型一起合作，也是一种强化大语言模型能力的方式，类似于集成学习 (Ensemble Learning) 的想法。

FrugalGPT：让合适的模型做合适的事情

FrugalGPT 主要关注于如何降低 LLM 推理时的开销，其中提出了 LLM cascade 的方法，其核心思想为：(1) 简单的问题交给弱一些的模型（开销更小），困难的问题再交给强的模型；(2) 不同模型的能力可能可以互补。

下述图片表示了不同 LLM 在不同 Benchmark 上的表现，体现了模型能力之间的互补。图中的每一个格子表示对应行 LLM 答错但对应列 LLM 答对的比例，例如图 (a) 的第四行第三列表示：有 4% 的数据，GPT-4 回答错误但 GPT-3 回答正确。

在这里插入图片描述

LLM cascade 的具体做法是训练一个评分器 Scorer，其可以对一组输入和一组答案进行打分。随后将 LLM 根据开销串成级联的形式，如果开销较小的 LLM 得到的答案评分已经超过该 LLM 的预设阈值，则可以不再 query 开销更大的 LLM，整体流程类似如下形式：

在这里插入图片描述

LLM 的级联顺序以及对应的评分阈值，通过求解下述优化式得到（采用混合整数规划求解）：
$\begin{aligned} \max _{\boldsymbol{L}, \boldsymbol{\tau}} & \mathbb{E} {\left[r\left(a, f_{L_z}(q)\right)\right] } \\ \text { s.t. } & \mathbb{E}\left[ \sum_{i=1}^z \tilde{c}_{L_i, 2}\left\|f_{L_i}(q)\right\|+\tilde{c}_{L_i, 1}\|q\|+\tilde{c}_{L_i, 0}\right] \leq b, \\ & \quad z=\arg \min _i g\left(q, f_{L_i}(q)\right) \geq \boldsymbol{\tau}_i. \end{aligned}$

上述式子中，下标 $z$ 表示最终选择的 LLM，因此最大化 $\mathbb{E} {\left[r\left(a, f_{L_z}(q)\right)\right] }$ 即最大化最终选择的 LLM 在问题 $q$ 上的输出与真实答案 $a$ 的相似度。另外，第二个约束展示了 $z$ 是如何选取的，即使得评分器 $g$ 输出评分超过 LLM 阈值 $\boldsymbol{\tau}_i$ 的第一个 LLM。第一个约束则表示整体的开销不能超过 Budget $b$ ，其中 $\tilde{c}$ 分别对应 LLM 输出 token 开销、输入 token 开销以及固定开销。

论文最后展示了上述三个数据集上 FrugalGPT 对比 Best individual LLM 的表现：

在这里插入图片描述

模型合作：让模型彼此讨论

也可以让模型之间互相讨论，即将 LLM A 的回答输入给 LLM B，让其参考后再进行输出。

例如采用下述的 Prompt（From arXiv 2023），让模型之间互相讨论：

在这里插入图片描述
如果 Prompt 里暗示模型之前其他模型的意见仅作为参考，则需要更长的讨论轮次才能最终达成一致。例如上述图片中 Debate Length 为 Long 的 Prompt。

以下为一些实验结果，可以看到互相讨论能够增强模型的能力：

在这里插入图片描述

参考资料

Prompt Engineering Guide
Hung-yi Lee: 生成式 AI 导论 2024 - 课程网站
Hung-yi Lee: 生成式 AI 导论 2024 - 第 3 讲至第 5 讲
Hung-yi Lee: 能够使用工具的 AI - New Bing, WebGPT, Toolformer
Hung-yi Lee：生成式 AI 2023 - FrugalGPT（上）、（下）
知乎：大模型 RAG（检索增强生成）含高级方法
NeurIPS 2022 - Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
ICLR 2023 - Self-Consistency Improves Chain of Thought Reasoning in Language Models
NeurIPS 2023 - Self-Refine: Iterative Refinement with Self-Feedback
NeurIPS 2023 - Tree of Thoughts: Deliberate Problem Solving with Large Language Models
arXiv 2021 - WebGPT: Browser-assisted question-answering with human feedback
NeurIPS 2023 - Toolformer: Language Models Can Teach Themselves to Use Tools
arXiv 2023 - FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance
arXiv 2023 - Improving Factuality and Reasoning in Language Models through Multiagent Debate
ICLR 2024 - ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

前言

Prompt Engineering

In-Context Learning

Chain of Thought (CoT)

Self-Consistency with CoT

Self-Refine

Tree of Thought (ToT)

LLM + Tools

WebGPT

Toolformer

ToolLLM

Retrieval-Augmented Generation (RAG)

多模型合作

FrugalGPT：让合适的模型做合适的事情

模型合作：让模型彼此讨论

参考资料

相关文章：