当前位置：首页 > news >正文

D2L学习记录-10-词嵌入word2vec

news 2025/7/7 7:53:36

NLP-1-词嵌入(word2vec)

参考:

《动手学深度学习 Pytorch 第1版》第10章自然语言处理第1、2、3 和 4节 (词嵌入)

词嵌入 (`word2vec`)：

词向量：自然语言中，词是表义的基本单元。词向量是用来表示词的向量。
词嵌入 (word embedding)：将词映射为实数域向量的技术称为词嵌入。
词嵌入出现的原因：由于 one-hot 编码的词向量不能准确表达不同词之间的相似度（任何两个不同词的one-hot向量的余弦相似度都为0），为了解决这个问题而出现了词嵌入方法 word2vec。
word2vec将每个词表示为一个定长的向量，而且这些向量能够表达不同词之间的相似性。
word2vec包含两个模型：跳字模型 (skip-gram) 和连续词袋模型 (continuous bag of words, CBOW)。

skip-gram

skip-gram：基于某个词来生成它在文本序列周围的词，即以某个词为中心，与距离该中心不超过窗口大小的背景词出现的条件概率。
在 skip-gram 中，每个词被表示为两个d维向量（中心词的向量和背景词的向量），用以计算背景词出现的条件概率。
skip-gram 训练结束后，对于任意一个索引为i的词，都可得到该词为中心词和背景词的两组向量 $v_i$ 和 $u_i$ 。
在 NLP 中，一般使用 skip-gram 的中心词向量作为词的表征向量。

CBOW

CBOW 与 skip-gram 类似，但最大区别在于 CBOW 基于某个中心词在文本序列前后的背景词来生成该中心词。【简单来说：skip-gram假设基于中心词来生成背景词；CBOW假设基于背景词来生成中心词】
CBOW中，因为背景词有多个，所以将这些背景词向量取平均，再使用和skip-gram一样的方法计算条件概率。
在 NLP 中，一般使用 CBOW 的背景词向量作为词的表征向量。

`word2vec` 的整个过程实现:

1. `word2vec` 的数据集的预处理:

所用数据集是 Penn Tree Bank (PTB)，该语料库曲取自“华尔街日报”。

1.1 下载数据集:

## 导入模块
import math
import os
import random
import torch
from d2l_model import d2l_torch as d2l

## 使用 d2l 封装的方法下载 PTB 数据集
d2l.DATA_HUB["ptb"] = (d2l.DATA_URL + 'ptb.zip','319d85e578af0cdc590547f26231e4e31cdf1e42')def read_ptb():data_dir = d2l.download_extract("ptb") ## 该方法用来读取zip或者tar文件，返回的数据所在的路径with open(os.path.join(data_dir, "ptb.train.txt")) as f:raw_text = f.read()return [line.split() for line in raw_text.split("\n")] ## 返回文本中每一行句子中以空格分开的每个词所构成的列表#sentences = read_ptb()
#f'# sentences数: {len(sentences)}'

1.2 下采样:

删掉文本中某些高频词，缩短句子长度，加快训练。

def subsample(sentences, vocab):sentences = [[token for token in line if vocab[token]!=vocab.unk] for line in sentences] ## 如果 token 不是 <unk> 的话，就会被保留下来counter = d2l.count_corpus(sentences) ## 统计 token 出现的次数num_tokens = sum(counter.values())def keep(token):return (random.uniform(0,1) < math.sqrt(1e-4 / counter[token]*num_tokens)) ## 如果满足条件，则返回Truereturn ([[token for token in line if keep(token)] for line in sentences], counter)

1.3 中心词和上下文词的提取:

从 corpus 中提取所有中心词和上下文词。
随机采样[1:max_window_size]之间的证书作为上下文窗口。
对于任意一个中心词，与其不超过上下文窗口大小的词为它的上下文词。

def get_centers_and_contexts(corpus, max_window_size):centers, contexts = [], []for line in corpus:if len(line) < 2: ## 要构成“中心词-上下文词”对，每个句子至少有2个词continuecenters += line ## 所有句子中的每一个词都可作为中心词for i in range(len(line)):window_size = random.randint(1, max_window_size) ## 生成一个随机整数作为窗口大小indices = list(range(max(0, i-window_size), min(len(line), i+1+window_size))) ## 以i为中心，获取[i-window: i+window]范围内的词indices.remove(i) ## 去掉中心词i本身，剩下上下文词contexts.append([line[idx] for idx in indices])return centers, contexts

1.4 负采样:

使用负采样进行近似训练，根据定义的分布对噪声词进行采样。

class RandomGenerator:def __init__(self, sampling_weights):self.population = list(range(1, len(sampling_weights)+1))self.sampling_weights = sampling_weightsself.candidates = []self.i = 0def draw(self):if self.i == len(self.candidates):## 缓存 k 个随机采样结果，每次从里面取一个，取完后再生成新的缓存结果self.candidates = random.choices(self.population, self.sampling_weights, k=10000) ## 按照 sampling_weight 采样概率对 population 进行采样，采样k次self.i = 0self.i += 1return self.candidates[self.i-1]

## 负采样
def get_negatives(all_contexts, vocab, counter, K):sampling_weights = [counter[vocab.to_tokens(i)]**0.75 for i in range(1, len(vocab))] ## 采样权重 = token出现次数 * 0.75all_negatives, generator = [], RandomGenerator(sampling_weights)for contexts in all_contexts:negatives = []while len(negatives) < len(contexts) * K: ## K 对于一对“中心词-上下文词”，随机抽取的噪声词的个数neg = generator.draw()if neg not in contexts: ## 噪声词不能是该中心词的上下文词，其他的上下文词是可以的negatives.append(neg)all_negatives.append(negatives)return all_negatives

1.5 定义 `dataloader` 的处理方式:

class PTBDataset(torch.utils.data.Dataset):def __init__(self, centers, contexts, negatives):assert len(centers) == len(contexts) == len(negatives) ## 不成立则引发AssertionErrorself.centers = centersself.contexts = contextsself.negatives = negativesdef __getitem__(self, index):return (self.centers[index], self.contexts[index], self.negatives[index])def __len__(self):return len(self.centers)def batchify(data):max_len = max(len(c) + len(n) for _, c, n in data) ## 因为不同中心词对应的上下文、负采样的向量长度不一样，所以按照最长的进行填充centers, contexts_negatives, masks, labels = [], [], [], []for center, context, negative in data: ## 中心词、上下文、负采样cur_len = len(context) + len(negative)centers += [center]contexts_negatives += [context + negative + [0]*(max_len - cur_len)] ## 用0进行填充masks += [[1]*cur_len + [0]*(max_len - cur_len)] ## 填充部分用0标记，非填充部分用1标记 (主要用于计算损失时，填充部分不参与计算)labels += [[1]*len(context) + [0]*(max_len - len(context))] ## 标签，上下文词为1，其他（负采样部分、填充部分）为0return (torch.tensor(centers).reshape((-1,1)),\torch.tensor(contexts_negatives),\torch.tensor(masks),\torch.tensor(labels)) ## reshape((-1,1)) => .shape=(n,1)## 中心词(centers), 上下文及负采样(context_negatives), 掩码(masks)，标签(labels)

代码合并及数据集的生成:

包括上面的1.1, 1.2, 1.3, 1.4, 1.5

def load_data_ptb(batch_size, max_window_size, num_noise_words):#num_workers = d2l.get_dataloader_workers() ## 使用4个进程读取数据(但实际操作会出错)sentences = read_ptb() ## 第一步的读取数据vocab = d2l.Vocab(sentences, min_freq=10) ## 第一步中用 "<unk>" 替换低频词subsampled, counter = subsample(sentences, vocab) ## 第二步下采样，去掉某些意义不大的高频词，缩短句子长度corpus = [vocab[line] for line in subsampled] ## 第二步将下采样后的句子映射为词表中的索引all_centers, all_contexts = get_centers_and_contexts(corpus, max_window_size) ## 第三步，中心词和上下文词(上或下文词数目不超过max_window_size)all_negatives = get_negatives(all_contexts, vocab, counter, num_noise_words) ## 第四步负采样，生成噪声词dataset = PTBDataset(all_centers, all_contexts, all_negatives)data_iter = torch.utils.data.DataLoader(dataset, batch_size, shuffle=True,collate_fn=batchify, ## collate_fn 定义了小批量数据加载后需要做的处理(可见http://t.csdn.cn/4zhEj 的评论)num_workers=0)return data_iter, vocab

## 生成数据集
batch_size, max_window_size, num_noise_words = 512, 5, 5
data_iter, vocab = load_data_ptb(batch_size, max_window_size, num_noise_words)

2. 预训练 `word2vec`:

构建并训练模型。

from torch import nn

2.1 构建嵌入层:

嵌入层将词元的索引映射到其特征向量 (上面数据预处理已经得到了词元的索引)。
嵌入层的权重是一个矩阵，行数等于字典大小，列数等于向量的维数。
在嵌入层训练完成之后，权重矩阵就是所需要的。每一行都是一个词的特征向量。
该层的输入就是词元的索引，对于任何词元索引 $i$ ，其向量表示可以从嵌入层中的权重矩阵的第 $i$ 行获得。

2.2 定义 `skip-gram`:

通过 embedding 层将索引映射为特征向量。

def skip_gram(center, contexts_and_negatives, embed_v, embed_u):v = embed_v(center)u = embed_u(contexts_and_negatives)pred = torch.bmm(v, u.permute(0,2,1))return pred

2.3 定义二元交叉熵损失函数:

class SigmoidBCELoss(nn.Module):def __init__(self):super().__init__()def forward(self, inputs, target, mask=None):out = nn.functional.binary_cross_entropy_with_logits(inputs, target, weight=mask, reduce="none")return out.mean()loss = SigmoidBCELoss()

2.3 定义初始化模型参数:

## 两个嵌入层，特征向量维度为100
## 第一层计算中心词，第二层计算上下文词embed_size = 100
net = nn.Sequential(nn.Embedding(num_embeddings=len(vocab),embedding_dim=embed_size),nn.Embedding(num_embeddings=len(vocab),embedding_dim=embed_size))

2.4 训练:

## 定义训练函数
def train(net, data_iter, lr, num_epochs, device=d2l.try_gpu()):## 模型初始化def init_weights(m):if type(m) == nn.Embedding:nn.init.xavier_uniform_(m.weight) ## 函数最后有一个下划线表示该函数输出直接替换net.apply(init_weights)net = net.to(device)optimizer = torch.optim.Adam(net.parameters(), lr=lr)animator = d2l.Animator(xlabel="epoch", ylabel="loss", xlim=[1, num_epochs]) ## 训练过程中的 epoch-loss 进行可视化metric = d2l.Accumulator(2) ## 加快求和计算的速度for epoch in range(num_epochs):timer, num_batches = d2l.Timer(), len(data_iter)for i, batch in enumerate(data_iter):optimizer.zero_grad()center, conter_negative, mask, label = [data.to(device) for data in batch]pred = skip_gram(center, conter_negative, net[0], net[1])l = (loss(pred.reshape(label.shape).float(), label.float(), mask) / mask.sum(axis=1)*mask.shape[1])l.sum().backward()optimizer.step()metric.add(l.sum(), l.numel())if (i + 1) % (num_batches // 5) == 0 or i == num_batches - 1:animator.add(epoch + (i+1)/num_batches, (metric[0]/metric[1],))print(f'loss {metric[0] / metric[1]:.3f}, 'f'{metric[1] / timer.stop():.1f} tokens/sec on {str(device)}')

## 进行训练
lr, num_epochs = 0.001, 10
train(net, data_iter, lr, num_epochs)

在这里插入图片描述

loss 0.566, 223737.2 tokens/sec on mps

3. 使用预训练的`word2vec`寻找语义上相近的词:

def get_similar_tokens(query_token, k, embed):W = embed.weight.data ## 我们预训练词嵌入就是为了得到这个权重矩阵，该权重矩阵就是由每个词的特征向量构成的x = W[vocab[query_token]]## 计算余弦相似度cos = torch.mv(W,x) / torch.sqrt(torch.sum(W*W, dim=1) * torch.sum(x*x)+1e-9)topk = torch.topk(cos, k=k+1)[1].cpu().numpy().astype("int32")for i in topk[1:]:print(f'cosine sim={float(cos[i]):.3f}: {vocab.to_tokens(i)}')get_similar_tokens('chip', 3, net[0])

cosine sim=0.777: intel
cosine sim=0.714: bugs
cosine sim=0.647: computer

D2L学习记录-10-词嵌入word2vec

NLP-1-词嵌入(word2vec) 参考: 《动手学深度学习 Pytorch 第1版》第10章自然语言处理第1、2、3 和 4节 (词嵌入) 词嵌入 (word2vec)： 词向量：自然语言中，词是表义的基本单元。词向量是用来表示词的向量。词嵌入 (word embedding)&#x…...

编程日记 2023/8/3 2:08:50

海外独立站怎么搭建?7个海外独立站搭建指南

在海外搭建独立站（独立网站）有几个关键步骤，以下是一个简要的指南： 选择域名和主机： 首先，选择一个适合你网站主题的域名。确保它简洁、易记，并且与你的品牌或内容相关联。然后，…...

编程日记 2023/8/3 2:07:47

flask中实现restful-api

flask中实现restful-api 举例，我们可以创建一个用于管理任务（Task）的API。在这个例子中，我们将有以下API： GET /tasks: 获取所有任务POST /tasks: 创建一个新的任务GET /tasks/<id>: 获取一个任务的详情PUT /t…...

编程日记 2023/8/3 2:06:45

Centos7 安装man中文版手册

查找man中文安装包： yum search man-pages 安装man-pages-zh-CN.noarch: yum install -y man-pages-zh-CN.noarch...

编程日记 2023/8/3 2:05:44

untiy代码打压缩包，可设置密码

1、简单介绍： 用的是一个插件SharpZipLib，在vs的Nuget下载，也可以去github下载https://github.com/icsharpcode/SharpZipLib 用这个最主要的是因为，这个不用请求windows的文件读写权限，关于这个权限我搞了好久&#…...

编程日记 2023/8/3 2:04:38

【iOS】—— UIKit相关问题

文章目录 UIKit常用的UIKit组件懒加载的优势 CALayer和UIView区别关系 UITableViewUITableView遵循的两个delegate以及必须实现的方法上述四个必须实现方法执行顺序其他方法的执行顺序： UICollectionView和UITableView的区别UICollectionViewFlowLayout和UICollecti…...

编程日记 2023/8/3 2:03:34

Linux系统防火墙Firewalld

目录 Firewalld概述 Firewalld和iptables的区别 Firewalld网络区域区域介绍与概念 9个预定义区域 Firewalld数据处理流程 firewalld检查数据包的源地址的规则 Firewalld防火墙的配置方式常用的firewall-cmd命令选项服务管理端口管理 Firewalld概述 Firewalld防火…...

编程日记 2023/8/3 2:02:30

参考 https://blog.csdn.net/qq_45539458/article/details/129481019 https://blog.csdn.net/weixin_43314829/article/details/125573448?spm1001.2014.3001.5502 https://blog.csdn.net/m0_71548440/article/details/125894236?spm1001.2014.3001.5502 正点原子mini板 stm…...

编程日记 2023/8/3 2:01:29

K8s的详细介绍

1.编写yaml文件的方式 2.yaml里面的内容介绍 Pod实现机制：（1）共享网络（2）共享存储共享网络:通过Pause容器，把其他业务容器加入到Pause容器里面，让所有业务容器在同一个名称空间中，…...

编程日记 2023/8/3 2:00:28

JavaWeb（8）——前端综合案例2（节流和防抖）

目录一、节流和防抖概念 🚀 二、实例演示 💘 三、需要注意的 📡 一、节流和防抖概念 🚀 二、实例演示 💘 Lodash 简介 | Lodash中文文档 | Lodash中文网 (lodashjs.com) <!DOCTYPE html> <html lang&q…...

编程日记 2023/8/3 1:59:26

Spring优雅的在事务提交/回滚前后插入业务逻辑

业务背景业务那边想要统计下我们这边每天注册商户成功和失败的数量，你看看怎么给他弄下这个功能功能实现 TransactionSynchronizationManager.registerSynchronization，发现这是spring事务提供的注册回调接口的方法。在事务注解方法中&#xff0c…...

编程日记 2023/8/3 1:58:24

day48-ajax+SSM分页

AjaxSSM分页非分页版controller及html： 分页模糊查询controller： Postman测试（无网页）： 分页网页： 分页网页中添加模糊查询： 分页网页中实现添加功能： （1&am…...

编程日记 2023/8/3 1:57:23

如何在本地环境使用 CodeQL 扫描出代码中的安全漏洞？

CodeQL 是什么？ CodeQL 是用于自动执行安全检查的分析引擎。在 CodeQL 中，代码被视为数据。安全漏洞、bug 和其他错误被建模为可针对从代码中提取的数据库执行的查询。可以运行由 Github 研究人员和社区参与者编写的标准 CodeQL 查询，也可以…...

编程日记 2023/8/3 1:56:22

关于领导要求logback日志时间格式要求为“年-月-日时:分:秒,毫秒”

今天接到领导邮件要求整改系统输出日志规范，有一条要求调整输出日志时间格式为标题所述格式，例：2022-02-21 14:13:32,489 项目目前logback.xml里的配置是这样： <pattern>%d{yyyyMMdd hh:mm:ss} [%p][%c][%M][%L]-> %m%…...

编程日记 2023/8/3 1:55:20

软件测试--一些生命周期

目录 1.需求生命周期 2.开发生命周期 3.测试生命周期 4.缺陷声生命周期 1.需求生命周期需求生命周期是指在软件测试过程中，需求从提出到最终完成的整个过程。它涵盖了需求的识别、分析、定义、验证和管理等阶段。需求识别：在此阶段，项目…...

编程日记 2023/8/3 1:54:19

Mr. Cappuccino的第57杯咖啡——简单手写Mybatis大致原理

简单手写Mybatis大致原理大致原理项目结构项目代码代码测试大致原理底层基于JDK动态代理技术实现项目结构项目代码 pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns…...

编程日记 2023/8/3 1:53:18

机房环境、动力、网络、安防，帮您提高运维效率，确保机房安全

机房作为单位的核心部门，由计算机、服务器、网络设备、存储设备等关键设备组成，智能化计算机机房这个概念在各个领域中，已经占据了很重要的地位，伴随着国家大力倡导的，东数西算，数字经济、云计算、5G大数据…...

编程日记 2023/8/3 1:52:16

大数据课程E1——Flume的概述

文章作者邮箱：yugongshiye@sina.cn 地址：广东惠州 ▲ 本章节目的 ⚪ 了解Ganglia的概念； ⚪ 了解Ganglia的拓扑结构和执行流程； ⚪ 掌握Ganglia的安装操作；一、简介 1. 概述 1. Flume原本是由Cloudera公司开发的后来贡献给了Apache的一套分布式的、可…...

编程日记 2023/8/3 1:51:15

01.Redis实现发送验证码

学习目标： 提示：学习如何利用Redis来实现发送验证码功能学习产出： 1. 准备pom环境 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId><…...

编程日记 2023/8/3 1:50:13

Vue中对组件的调用

在Vue中，你可以在一个页面中调用其他组件，以实现组件的复用和组合效果。以下是在Vue中实现调用页面组件的几种常见方法之一： 1.使用Vue的组件标签： 你可以在Vue的模板中使用已注册的组件标签，以调用和渲染其他组件。首…...

编程日记 2023/8/3 1:49:12

Vue记事本应用实现教程

文章目录 1. 项目介绍2. 开发环境准备3. 设计应用界面4. 创建Vue实例和数据模型5. 实现记事本功能5.1 添加新记事项5.2 删除记事项5.3 清空所有记事 6. 添加样式7. 功能扩展：显示创建时间8. 功能扩展：记事项搜索9. 完整代码10. Vue知识点解析10.1 数据绑…...

编程新知 2025/6/15 12:05:47

React第五十七节 Router中RouterProvider使用详解及注意事项

前言在 React Router v6.4 中，RouterProvider 是一个核心组件，用于提供基于数据路由（data routers）的新型路由方案。它替代了传统的 <BrowserRouter>，支持更强大的数据加载和操作功能（如 loader 和…...

编程新知 2025/7/4 13:58:19

HashMap中的put方法执行流程（流程图）

1 put操作整体流程 HashMap 的 put 操作是其最核心的功能之一。在 JDK 1.8 及以后版本中，其主要逻辑封装在 putVal 这个内部方法中。整个过程大致如下： 初始判断与哈希计算： 首先，putVal 方法会检查当前的 table（也就…...

编程新知 2025/7/6 10:05:21

JAVA后端开发——多租户

数据隔离是多租户系统中的核心概念，确保一个租户（在这个系统中可能是一个公司或一个独立的客户）的数据对其他租户是不可见的。在 RuoYi 框架（您当前项目所使用的基础框架）中，这通常是通过在数据表中增加一个…...

编程新知 2025/6/20 18:33:23

高效线程安全的单例模式：Python 中的懒加载与自定义初始化参数

高效线程安全的单例模式：Python 中的懒加载与自定义初始化参数在软件开发中，单例模式（Singleton Pattern）是一种常见的设计模式，确保一个类仅有一个实例，并提供一个全局访问点。在多线程环境下，实现单例模式时需要注意线程安全问题，以防止多个线程同时创建实例，导致…...

编程新知 2025/6/21 15:17:11

使用Spring AI和MCP协议构建图片搜索服务

目录使用Spring AI和MCP协议构建图片搜索服务引言技术栈概览项目架构设计架构图服务端开发 1. 创建Spring Boot项目 2. 实现图片搜索工具 3. 配置传输模式 Stdio模式（本地调用） SSE模式（远程调用） 4. 注册工具提…...

编程新知 2025/7/5 15:39:29

uni-app学习笔记三十五--扩展组件的安装和使用

由于内置组件不能满足日常开发需要，uniapp官方也提供了众多的扩展组件供我们使用。由于不是内置组件，需要安装才能使用。一、安装扩展插件安装方法： 1.访问uniapp官方文档组件部分：组件使用的入门教程 | uni-app官网点击左侧…...

编程新知 2025/7/6 16:03:30

RushDB开源程序是现代应用程序和 AI 的即时数据库。建立在 Neo4j 之上

一、软件介绍文末提供程序和源码下载 RushDB 改变了您处理图形数据的方式 — 不需要 Schema，不需要复杂的查询，只需推送数据即可。二、Key Features ✨ 主要特点 Instant Setup: Be productive in seconds, not days 即时设置 ：在几秒钟…...

编程新知 2025/7/5 1:02:08

无需布线的革命：电力载波技术赋能楼宇自控系统-亚川科技

无需布线的革命：电力载波技术赋能楼宇自控系统在楼宇自动化领域，传统控制系统依赖复杂的专用通信线路，不仅施工成本高昂，后期维护和扩展也极为不便。电力载波技术（PLC）的突破性应用，彻底改变了…...

编程新知 2025/7/6 5:46:43

Git 切换到旧提交，同时保证当前修改不丢失

在 Git 中，可以通过以下几种方式切换到之前的提交，同时保留当前的修改 1. 使用 git checkout 创建临时分离头指针（推荐用于查看代码） git checkout <commit-hash>这会让你进入"分离头指针"状态，你可…...

编程新知 2025/6/21 2:51:15