当前位置：首页 > news >正文

大语言模型损失函数详解

news 2026/4/10 14:03:03

我们可以把语言模型分为两类：

自动回归式语言模型：自动回归式语言模型在本质上是单向的，也就是说，它只沿着一个方向阅读句子。正向（从左到右）预测；反向（从右到左）预测。
自动编码式语言模型：自动编码式语言模型同时利用了正向预测和反向预测的优势。在进行预测时，它会同时从两个方向阅读句子，所以自动编码式语言模型是双向的。

本文将结合具体模型和论文，探讨这两种模型的损失函数。

一、自动编码式语言模型

提到自动编码式语言模型，那最经典的非BERT莫属了。

1.1 BERT

BERT（Bidirectional Encoder Representations from Transformers）是一种基于Transformer架构的自然语言处理模型。它由Google于2018年提出，以解决语境相关性和双向理解的问题。BERT采用双向训练方式，能够同时考虑文本左右两侧的上下文信息，有效捕获语境含义。

BERT的损失函数由两部分组成，第一部分是来自 Mask-LM 的单词级别分类任务，另一部分是句子级别的分类任务。通过这两个任务的联合学习，可以使得 BERT 学习到的表征既有 token 级别信息，同时也包含了句子级别的语义信息。

在第一部分的损失函数中，如果被 mask 的词集合为 M（即计算BERT的MLM loss时会忽略没被mask的token），因为它是一个词典大小 |V| 上的多分类问题，那么具体说来有：

$L_1\left(\theta, \theta_1\right)=-\sum_{i=1}^M \log p\left(m=m_i \mid \theta, \theta_1\right), m_i \in[1,2, \ldots,|V|]$

在句子预测任务中，也是一个分类问题的损失函数：

$L_2\left(\theta, \theta_2\right)=-\sum_{j=1}^N \log p\left(n=n_i \mid \theta, \theta_2\right), n_i \in[\text { IsNext, NotNext }]$

这两个损失函数也很容易理解：

多分类问题，类别的数量等于词表的大小，第 $i$ 个词被正确预测的概率越大，相应的损失越小
二分类问题，第 $j$ 个句子的类别被正确预测的概率越大，相应的损失越小

因此，两个任务联合学习的损失函数是：

$L\left(\theta, \theta_1, \theta_2\right)=-\sum_{i=1}^M \log p\left(m=m_i \mid \theta, \theta_1\right)-\sum_{j=1}^N \log p\left(n=n_i \mid \theta, \theta_2\right)$

二、自动回归式语言模型

BERT一度引领了NLP领域。但是随着OpenAI-GPT系列模型的爆火，自回归式模型被更为广泛的采用。本章详细解析GLM大模型、LoRA微调方法、Prefix tuning这三篇论文中的损失函数。以期找到这些损失函数的共性。

2.1 GLM系列大模型

清华大学提出的GLM大模型预训练框架采用了自回归的空白填充方法，在自然语言理解、无条件生成、有条件生成等NLP任务上取得了显著成果。其中，GLM-130B是最大的模型，拥有1300亿参数，支持中英文双语，旨在训练出开源开放的高精度千亿中英双语语言模型。该模型采用了量化技术，可在4块3090（24G）或8块2080Ti（11G）上推理。

输入向量为 $\mathbf{x}=\left[x_1, \cdots, x_n\right]$ ，抽样出文本段 $\left\{\boldsymbol{s}_1, \cdots, \boldsymbol{s}_m\right\}$ ，每个文本段 $s_{i}$ 都代表了一系列连续的token吗，可以写做 $\left[s_{i, 1}, \cdots, s_{i, l_i}\right]$ ，每个文本段 $s_{i}$ 都用[MASK]代表，从而形成了 $x_{corrupt}$ 。 $m$ 表示抽样文本段的数量， $l_{i}$ 表示每个抽样文本段的长度。预训练目标可以用下式表示：

$\max _\theta \mathbb{E}_{\boldsymbol{z} \sim Z_m}\left[\sum_{i=1}^m \log p_\theta\left(\boldsymbol{s}_{z_i} \mid \boldsymbol{x}_{\text {corrupt }}, \boldsymbol{s}_{\boldsymbol{z}_{<i}}\right)\right]$

需要对所有的抽样文本段进行随机打乱， $Z_{m}$ 是 $\left\{\boldsymbol{s}_1, \cdots, \boldsymbol{s}_m\right\}$ 被打乱后，所有可能性的集合， $s_{z<i}$ 又可以写作 $\left[\boldsymbol{s}_{z_1}, \cdots, \boldsymbol{s}_{z_{i-1}}\right]$ 。在预测缺失的文本段 $s_{z_{i}}$ 时（每个 $z_{i}$ 都包含多个单词，所以需要用集合S表示， $z_{i}$ 作为下标），模型可以访问到被破坏的文本 $x_{corrupt}$ ，以及 $s_{z_{i}}$ 前面所有的抽样文本段。

那每个 $s_{z_{i}}$ 中token的预测概率应该如何表示呢？如下：

$\begin{aligned} & p_\theta\left(\boldsymbol{s}_i \mid \boldsymbol{x}_{\text {corrupt }}, \boldsymbol{s}_{\boldsymbol{z}_{<i}}\right) \\ = & \prod_{j=1}^{l_i} p\left(s_{i, j} \mid \boldsymbol{x}_{\text {corrupt }}, \boldsymbol{s}_{\boldsymbol{z}_{<i}}, \boldsymbol{s}_{i,<j}\right) \end{aligned}$

很简单，把所有token的概率乘起来就可以了。

需要注意的是，这边要弄清楚 $s_{z_{i}}$ 和 $s_{i}$ 的区别：

$s_{i}$ 代表第 $i$ 个文本段
由于 $\left\{\boldsymbol{s}_1, \cdots, \boldsymbol{s}_m\right\}$ 有很多种打乱方式， $s_{z_{i}}$ 表示其中某一个打乱方式的第 $i$ 个抽样文本段。

2.2 LoRA

以上是针对GLM这系列特殊的模型。那么对于一般的自回归式模型，有没有更普遍的一种表达方式呢？我们以LoRA这篇文章为例。

每一个下游任务都能用内容-目标对来表示： $\mathcal{Z}=\left\{\left(x_i, y_i\right)\right\}_{i=1, . ., N}$ ， $x_{i}$ 和 $y_{i}$ 都是token序列。例如在自然语言->sql语句任务中， $x_{i}$ 是自然语言查询， $y_{i}$ 是其相应的SQL命令。对于概括任务而言， $x_{i}$ 是文章的内容， $y_{i}$ 是其相应的概述内容。预训练的自回归语言模型可以用 $P_{\Phi}(y \mid x)$ 来表示。那么微调就是要找到一组参数 $\phi$ ，使得下式最大：

$\max _{\Phi} \sum_{(x, y) \in \mathcal{Z}} \sum_{t=1}^{|y|} \log \left(P_{\Phi}\left(y_t \mid x, y_{<t}\right)\right)$

即用 $t$ 前的所有样本来预测第 $t$ 个样本。

三、参考文献

[1] Devlin J , Chang M W , Lee K ,et al.BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. 2018.

[2] Du Z , Qian Y , Liu X ,et al.GLM: General Language Model Pretraining with Autoregressive Blank Infilling[J]. 2021.DOI:10.48550/arXiv.2103.10360.

[3] Zeng, Aohan, et al. "Glm-130b: An open bilingual pre-trained model." arXiv preprint arXiv:2210.02414 (2022).

[4] Hu E J , Shen Y , Wallis P ,et al.LoRA: Low-Rank Adaptation of Large Language Models[J]. 2021.DOI:10.48550/arXiv.2106.09685.

大语言模型损失函数详解

一、自动编码式语言模型

1.1 BERT

二、自动回归式语言模型

2.1 GLM系列大模型

2.2 LoRA

三、参考文献

相关文章：

大语言模型损失函数详解

Spring Boot 3 集成 Knife4j

BetaFlight模块设计之三十六：SoftSerial

PC访问华为昇腾开发板的摸索过程

C++学习之路（六）C++ 实现简单的工具箱系统命令行应用 - 示例代码拆分讲解

redis运维(十四) hash缓存案例

Rust UI开发（三）：iced如何打开图片（对话框）并在窗口显示图片？

网络爬虫（Python：Requests、Beautiful Soup笔记）

【Kotlin】内联函数

Unity技美35——再URP管线环境下，配置post后期效果插件（post processing）

Redis：持久化RDB和AOF

基于python协同过滤推荐算法的音乐推荐与管理系统

【极客技术】真假GPT-4？微调 Llama 2 以替代 GPT-3.5/4 已然可行！

STK Components 二次开发-创建地面站

数据结构与算法（三）贪心算法（Java）

057-第三代软件开发-文件监视器

二十七、微服务案例

(C++)string类的模拟实现

处理数据中的缺失值--删除缺少值的行

Kotlin学习——kt里的集合，Map的各种方法之String篇

化工园区智能一体化巡检平台

intv_ai_mk11行业落地案例：教育内容总结、电商文案生成、开发需求转代码

3分钟搞定Jellyfin中文元数据：MetaShark插件全攻略

CSS如何控制全屏显示的元素样式

如何在5分钟内为Unity游戏实现实时翻译：XUnity.AutoTranslator完整实战指南

如何通过SMUDebugTool精细调校AMD Ryzen处理器性能

氙灯VS LED太阳光模拟器：对比与选型

千问3.5-2B开源镜像部署教程：4.3GB权重免下载，24GB显存稳定运行

Ostrakon-VL-8B入门必看：Python安装与环境变量配置避坑指南

文脉定序系统Docker容器化部署与ComfyUI工作流集成