当前位置：首页 > news >正文

论文笔记--GloVe: Global Vectors for Word Representation

news 2026/2/10 4:40:16

论文笔记--GloVe: Global Vectors for Word Representation

1. 文章简介
2. 文章概括
3 文章重点技术
- 3.1 两种常用的单词向量训练方法
- 3.2 GloVe
- 3.3 模型的复杂度
4. 文章亮点
5. 原文传送门
6. References

1. 文章简介

标题：GloVe: Global Vectors for Word Representation
作者：Jeffrey Pennington, Richard Socher, Christopher D. Manning
日期：2014
期刊：EMNLP

2. 文章概括

文章提出了一种新的单词表示的训练方法：Glove。该方法结合了基于统计方法和基于上下文窗口方法的优势，在多个下游任务上超越了当下SOTA方法的表现。

3 文章重点技术

3.1 两种常用的单词向量训练方法

现有的两类常用的单词向量训练方法为

基于矩阵分解的方法，如LSA会首先计算一个term-document矩阵，每一列表示每个文档中各个单词的出现频率，然后进行奇异值分解；HAL则会首先计算一个term-term共现矩阵。但此类方法会被频繁出现的the, and等单词影响，计算相似度的时候该类对语义影响很小的单词会占较大的比重。
基于上下文窗口的方法，如Word2Vec[1]。此类方法没有用到语料中的统计信息，可能无法捕捉到数据中的重复现象。

3.2 GloVe

为了解决上述两种方法存在的问题，文章提出了一种Global Vectors(GloVe)单词嵌入方法，可以直接捕获语料中的统计信息。
首先，我们计算单词共现矩阵 $X$ ，其中 $X_ij$ 表示单词 $j$ 出现在单词 $i$ 的上下文的次数。令 $X_i = \sum_k X_{ik}$ 表示任意单词出现在单词 $i$ 上下文的总次数，则 $P_{ij} = \frac {X_ij}{X_i}$ 表示单词 $j$ 出现在单词 $i$ 的上下文的概率。
为了得到每个单词的嵌入 $w_i$ ，文章首先需要假设一种嵌入 $w_i, w_j$ 和共现矩阵之间的关系式。为此，文章给出一个示例：如下表所示，假设考虑单词i=“ice”，j=“steam”，则k="solid"时，由于"solid"和"ice"相关性更高，所以 $P_{ik}/P_{jk}$ 应该大一点，下表中实验结果为8.9；如果k=“gas”，和"steam"的相关性更高，从而 $P_{ik}/P_{jk}$ 应该小一点，下表中实验结果为 $8.5 \times 10^{-2}$ ；如果k="water"和二者均相关或k="fashion"和二者均不相关，则 $P_{ik}/P_{jk}$ 应该接近1，如下表中的 $1.36$ 和 $0.96$ 。
cooccur
为此，文章选择通过单词 $i, j$ 之间的概率比值来进行建模： $F(w_i, w_j, \tilde{w}_k) = \frac {P_{ik}}{P_{jk}}$ ，其中 $w_i, w_j, \tilde{w}_k$ 分别表示 $i, j, k$ 的词向量， $\tilde{w}$ 也是待学习的参数，和 $w$ 本质上没有区别，只是通过不同的初始化得到的，用于区分探针单词( $k$ )和共现单词，类似transformer中的Q，K含义。考虑到单词空间一般是线性的，我们用 $w_i - w_j$ 表示向量之间的差异： $F(w_i- w_j, \tilde{w}_k) = \frac {P_{ik}}{P_{jk}}$ ，又因为上式左边的输入为两个向量，右边为标量，故我们考虑用向量的点积： $F((w_i -w_j)^T\tilde{w}_k) = \frac {P_{ik}}{P_{jk}}$ 。由于单词的共现矩阵中，单词和上下文单词是任意指定的，我们可以自由交换当前单词和上下文单词，从而我们要保证交换 $\leftrightarrow \tilde{w}$ 和 $\leftrightarrow X^T$ 后上式仍然成立，故我们首先需要 $F$ 为一个同态映射： $F((w_i -w_j)^T\tilde{w}_k) = \frac {F(w_i^T\tilde{w}_k)}{F(w_j^T\tilde{w}_k)}$ ，从而有 $F(w_i^T\tilde{w}_k) = P_{ik} = \frac {X_{ik}}{X_i}$ 。由于上式的解为 $F=\exp$ ，从而 $\exp (w_i^T \tilde{w}_k) = P_{ik} = \frac {X_{ik}}{X_i}\\\implies w_i^T \tilde{w}_k = \log P_{ik} = \log \left(\frac {X_{ik}}{X_i}\right) = \log(X_{ik}) - \log (X_i)$ ；其次考虑到上式的 $log (X_i)$ 与 $k$ 无关，故可以写作偏差 $b_i$ ，再增加 $\tilde{w}_k$ 的偏差 $\tilde{b}_k$ ，我们得到 $w_i^T \tilde{w}_k + b_i + \tilde{b}_k = \log(x_{ik})$ 满足上述对称要求。在此基础上增加权重函数 $f(X_{ij})$ 可以保证共现太频繁的元素不会被过分的重视，且稀有的共现元素也不会被过分重视。这就要求 $f$ 满足非递减且有明确上界，如下函数满足条件： $\begin{cases}(x/x_{max})^{\alpha} \quad &if \ x < x_{max},\\1, \quad &otherwise \end{cases}$ 。函数曲线如下图所示

3.3 模型的复杂度

文章证明，当 $\alpha = 1.25$ 时交过较好，此时模型的复杂度为 $\mathcal{O}(|\mathcal{C}|)$ ，其中 $\mathcal{C}$ 表示语料库。相比于其他基于上下文窗口的方法复杂度 $\mathcal{O}(V^2)$ 更低。

4. 文章亮点

文章提出了基于将上下文窗口和共现矩阵结合的词向量嵌入方法GloVe，数值实验表明，GloVe在单词相似度、单词类比和NER等任务上相比于其他SOTA方法有明显提升。

5. 原文传送门

[GloVe: Global Vectors for Word Representation](GloVe: Global Vectors for Word Representation)

6. References

[1] 论文笔记–Efficient Estimation of Word Representations in Vector Space

论文笔记--GloVe: Global Vectors for Word Representation

论文笔记--GloVe: Global Vectors for Word Representation 1. 文章简介2. 文章概括3 文章重点技术3.1 两种常用的单词向量训练方法3.2 GloVe3.3 模型的复杂度 4. 文章亮点5. 原文传送门6. References 1. 文章简介标题：GloVe: Global Vectors for Word Representa…...

编程日记 2023/8/1 3:42:05

day57｜● 647. 回文子串 ● 516.最长回文子序列

647. 回文子串 https://leetcode.cn/problems/palindromic-substrings/solution/by-lfool-2mvg/ Given a string s, return the number of palindromic substrings in it. A string is a palindrome when it reads the same backward as forward. A substring is a contiguous…...

编程日记 2023/8/1 3:41:05

论文笔记--GloVe: Global Vectors for Word Representation

1. 文章简介

2. 文章概括

3 文章重点技术

3.1 两种常用的单词向量训练方法

3.2 GloVe

3.3 模型的复杂度

4. 文章亮点

5. 原文传送门

6. References

相关文章：