当前位置：首页 > news >正文

大语言模型系列-word2vec

news 2026/5/23 2:42:33

文章目录

前言
一、word2vec的网络结构和流程
- 1.Skip-Gram模型
- 2.CBOW模型
二、word2vec的训练机制
- 1. Hierarchical softmax
- 2. Negative Sampling
总结

前言

在前文大语言模型系列-总述已经提到传统NLP的一般流程：

创建语料库 => 数据预处理 => 分词向量化 => 特征选择 => 建模（RNN、LSTM等）

传统的分词向量化的手段是进行简单编码（如one-hot），存在如下缺点：

如果词库过大， one-hot编码生成的向量会造成维度灾难
one-hot编码生成的向量是稀疏的，它们之间的距离相等，无法捕捉单词之间的语义关系。
one-hot编码是固定的，无法在训练过程中进行调整。

因此，出现了词嵌入（word embedding）的概念，通过word embedding模型生成的向量是密集的，具有相似含义的单词在向量空间中距离较近，可以捕捉单词之间的语义关系。并且Word Embedding模型的权重可以在训练过程中进行调整，以便更好地捕捉词汇之间的语义关系。

word2vec就是一种经典的词嵌入（word embedding）模型，由Tomas Mikolov等人在2013年提出，它通过学习将单词映射到连续向量空间中的表示，以捕捉单词之间的语义关系。

提示：以下是本篇文章正文内容，下面内容可供参考

一、word2vec的网络结构和流程

Word2Vec是轻量级的神经网络，其模型仅仅包括输入层、隐藏层和输出层，根据学习思路的不同，分为两种训练方式：Skip-Gram和CBOW（Continuous Bag of Words）。其中，Skip-gram是已知当前词的情况下预测上下文的表示，CBOW则是在已知上下文的情况下预测当前词的表示。通过这种表示学习，学得映射矩阵，将原始离散数据空间映射到新的连续向量空间（实际上起到了降维的作用）。

将单词使用one-hot编码
输入网络进行训练，获得参数矩阵 $W_{V×N}$
输入层的每个单词one-hot编码x（V-dim）与矩阵W相乘，即 $\cdot W_{V×N}$ ，得到其word embedding（N-dim）

1.Skip-Gram模型

在这里插入图片描述

2.CBOW模型

在这里插入图片描述

二、word2vec的训练机制

假设语料库中有V个不同的单词，hidden layer取128，则word2vec两个权值矩阵维度都是[V,128]，我们使用的语料库往往十分庞大，这也会导致权值矩阵的庞大，即神经网络的参数规模的庞大，在使用SGD对庞大的神经网络进行学习时，将是十分缓慢的。

word2vec提出两种加快训练速度的方式，一种是Hierarchical softmax，另一种是Negative Sampling。

1. Hierarchical softmax

和传统的神经网络输出不同的是，word2vec的hierarchical softmax结构是把输出层改成了一颗哈夫曼树，其中图中白色的叶子节点表示词汇表中所有的V个词，黑色节点表示非叶子节点，每一个叶子节点也就是每一个单词,都对应唯一的一条从root节点出发的路径。我们的目的是使的 $w=w_0$ 这条路径的概率最大，即: $P(w=w_0|w_I)$ 最大，假设最后输出的条件概率是 $P(w=w_0|w_2)$ 最大，那么只需要去更新从根结点到 $w_2$ 这一个叶子结点的路径上面节点的向量即可，而不需要更新所有的词的出现概率，这样大大的缩小了模型训练更新的时间。

在这里插入图片描述

ps：

给定N个权值作为N个叶子结点，构造一棵二叉树，若该树的带权路径长度达到最小，称这样的二叉树为最优二叉树，也称为哈夫曼树(Huffman Tree)。哈夫曼树是带权路径长度最短的树，权值较大的结点离根较近。
我们知道在输入softmax之前，可以简单认为神经网络输出的大体含义为每个单词的频率，可以将其视为权值，然后通过哈夫曼树编码。这样在训练时，如果我们要计算Leaf2（观看）的概率，只需计算从Root到Leaf2路径上的节点的概率即可，而不需要考虑其他叶子节点，从而大大降低计算复杂度。

Hierarchical softmax的优点如下：

1）从利用softmax计算概率值改为利用Huffman树计算概率值，计算复杂度从O(V)变成了O(logV)
2）由于使用霍夫曼树是高频的词靠近树根，这样高频词需要更少的时间会被找到（贪心优化思想）

2. Negative Sampling

我们已经知道，对于每个训练样本，word2vec都需要计算并更新所有词汇表中的词的权重。这在大规模的词汇表上会变得非常昂贵，尤其是当词汇表非常大时。

Hierarchical softmax通过哈夫曼树，使得对于每个训练样本，只需要更新路径节点权重即可，大大减少了参数量和计算成本。Negative Sampling则通过只更新与当前训练样本相关的一小部分词的权重，以此来降低计算成本。具体步骤如下：

对于输入的中心词 $w_c$ ，设置窗口大小m，该窗口大小内的词为正样本（即 $w_{c-m},...,w_{c+m}$ ，不包括 $w_c$ ）
按照一定的概率分布 $P(\tilde w)$ 从词典中抽取K个负样本 $\tilde w_1, \tilde w_2,..., \tilde w_k$ ，那么{ $w_c,\tilde w_k$ }为负样本，其中k=1,2,…,K
则给定中心词 $w_c$ ，预测 $w_j$ （ $j \in [c - m, c + m]$ ）由如下事件集构成： $w_c$ 和 $w_j$ 共同出现，以及 $w_c$ 不和 $\tilde w_k$ 共同出现

Negative Sampling的优点如下：

1）将多分类问题转换成K+1个二分类问题，从而减少计算量，计算复杂度由O(V)变成了O(K)，加快了训练速度。
2）保证模型训练效果，因为目标词只跟相近的词有关，没有必要使用全部的单词作为负例来更新它们的权重。

总结

和之前的方法相比，word2vec能够考虑上下文并获得低维的词向量表示，但word2vec无法解决多义词问题，没有语境信息，原因是word embedding是静态的（词和向量是一对一的关系），并且词嵌入和实际任务模型分开，使得整个训练过程不是端到端的。
在这里插入图片描述

文章目录

前言

一、word2vec的网络结构和流程

1.Skip-Gram模型

2.CBOW模型

二、word2vec的训练机制

1. Hierarchical softmax

2. Negative Sampling

总结

相关文章：