当前位置：首页 > news >正文

word2vector训练代码详解

news 2025/10/30 7:07:37

1.代码实现

2.知识点

1.代码实现

#导包
import math
import torch
from torch import nn
import dltools

#加载PTB数据集  ，需要把PTB数据集的文件夹放在代码上一级目录的data文件中，不用解压
#批次大小、窗口大小、噪声词大小
batch_size, max_window_size, num_noise_words = 512, 5, 5  
#获取数据集迭代器、词汇表
data_iter, vocab = dltools.load_data_ptb(batch_size, max_window_size, num_noise_words)

#讲解嵌入层embedding的用法（此行代码无用）#嵌入层
#通过嵌入层来获取skip—gram的中心词向量和上下文词向量
embed = nn.Embedding(num_embeddings=20, embedding_dim=4)  
# num_embeddings就是词表大小
# X的shape=(batch_size, num_steps)
# --one_hot编码--->（batch_size, num_steps, num_embedding(vocab_size)）
# --点乘中心词矩阵-->(batch_size, num_steps, embed_size)

embed.weight.shape   #讲解嵌入层embedding的用法（此行代码无用）

torch.Size([20, 4])

embedding层先one_hot编码，再进行与embedding层的矩阵（num_embeddings，embedding_dim）乘法

#构造skip_gram的前向传播
def skip_gram(center, contexts_and_negatives, embed_v, embed_u):"""embed_v：表示对中心词进行embedding层embed_u：对上下文词进行embedding层 """v = embed_v(center)                 #中心词的词向量表达u = embed_u(contexts_and_negatives) #上下文词的词向量表达#用中心词来预测上下文词#u_shape = (batch_size, num_steps, embed_size)---->(batch_size, embed_size, num_steps)进行矩阵乘法pred = torch.bmm(v, u.permute(0, 2, 1))  #矩阵乘法（bmm三维乘法），不用管batch_size维度return pred

#假设数据
skip_gram(torch.ones((2, 1), dtype=torch.long), torch.ones((2, 4), dtype=torch.long), embed, embed)

tensor([[[3.1980, 3.1980, 3.1980, 3.1980]],[[3.1980, 3.1980, 3.1980, 3.1980]]], grad_fn=<BmmBackward0>)

#假设数据
skip_gram(torch.ones((2, 1), dtype=torch.long), torch.ones((2, 4), dtype=torch.long), embed, embed).shape

torch.Size([2, 1, 4])

#带掩码的二元交叉熵损失
class SigmoidBCELoss(nn.Module):def __init__(self):super().__init__()  #直接继承父类的初始化属性和方法def forward(self, inputs, target, mask=None):#nn.functional.binary_cross_entropy_with_logits表示返回的不是转化后的概率，是原始计算的数据结果#weight=mask权重将掩码带上#reduction='none'表示不将计算结果聚合，算损失时（默认聚合）out = nn.functional.binary_cross_entropy_with_logits(inputs, target, weight=mask, reduction='none')return out.mean(dim=1)  #计算结果是二维的，在索引1维度上聚合求平均
loss = SigmoidBCELoss()

[[1.1, -2.2, 3.3, -4.4]] * 2

[[1.1, -2.2, 3.3, -4.4], [1.1, -2.2, 3.3, -4.4]]

torch.tensor([[1.1, -2.2, 3.3, -4.4]] * 2).shape

torch.Size([2, 4])

#假设数据测试
pred = torch.tensor([[1.1, -2.2, 3.3, -4.4]] * 2)
label = torch.tensor([[1.0, 0.0, 0.0, 0.0], [0.0, 1.0, 0.0, 0.0]])
mask = torch.tensor([[1, 1, 1, 1], [1, 1, 0, 0]])
#mask每一行都有4个数值，所以* mask.shape[1]=4
#但是mask中的数值0表示权重，是补充步长的，不重要，需要计算有效序列的损失平均值，所以 / mask.sum(axis=1)
loss(pred, label, mask) * mask.shape[1] / mask.sum(axis=1)

tensor([0.9352, 1.8462])

#初始化模型参数，定义两个嵌入层
#一开始，embed_weights会标准正态分布的数据初始化
#两个embedding层的参数不一样，不能重复使用，需要初始化定义两个
embed_size = 100
net = nn.Sequential(nn.Embedding(num_embeddings=len(vocab), embedding_dim=embed_size),nn.Embedding(num_embeddings=len(vocab), embedding_dim=embed_size))

#定义训练过程
def train(net, data_iter, lr, num_epochs, device=dltools.try_gpu()):#修改embedding层的初始化方法，使用nn.init.xavier_uniform_初始化embed.weight权重,在NLP中不使用标准正态分布的额数据初始化权重def init_weights(m):if type(m) == nn.Embedding:nn.init.xavier_uniform_(m.weight)net.apply(init_weights)  net = net.to(device)#设置梯度下降的优化器optimizer = torch.optim.Adam(net.parameters(), lr=lr)#设置绘制可视化的动图(epoch——loss)animator = dltools.Animator(xlabel='epoch', ylabel='loss', xlim=[1, num_epochs])#设置累加metric = dltools.Accumulator(2)   #2种数据需要累加for epoch in range(num_epochs):  #遍历训练次数#设置计时器， 赋值批次数量timer, num_batches = dltools.Timer(), len(data_iter)    #data_iter是分好批次的数据集，长度就是批次数量num_batchesfor i, batch in enumerate(data_iter):   #i是索引， batch是取出的一批批数据#梯度清零optimizer.zero_grad()#接收中心词， 上下文词_噪声词， 掩码， 标记目标值 center, context_negative, mask, label = [data.to(device) for data in batch]#调用skip_gram模型预测pred = skip_gram(center, context_negative, embed_v=net[0], embed_u=net[1])#计算损失l = loss(pred.reshape(label.shape).float(), label.float(), mask) / mask.shape[1] * mask.sum(dim=1)#用loss反向传播  ,loss先sum（）聚合变成标量（合并成一个数值）， 只有标量才能反向传播l.sum().backward()#梯度更新optimizer.step()#累加metric.add(l.sum(), l.numel())   #l.sum()数值求和累加， l.numel()数量累加#   %  取余数      #  //  商向下取整#迭代到总数据量的5%的倍数时 或者 处理到最后一批数据时，执行下面操作#  i+1是因为i是从0开始遍历的if (i + 1) % (num_batches // 5) == 0 or i == num_batches - 1:  #epoch + (i+1) / num_batches当前迭代次数占整个数据集的比例animator.add(epoch + (i+1) / num_batches, (metric[0] / metric[1]))print(f'loss {metric[0] / metric[1]:.3f}', f'{metric[1] / timer.stop():.1f} tokens/sec on {str(device)}')

lr, num_epochs = 0.002, 50
train(net, data_iter, lr, num_epochs)

#如果能够找到词的近义词， 就说明训练的不错
def get_similar_tokens(query_token, k, embed):"""query_token:需要预测的词k：最高相似度的词数量embed：embedding层的哪一层"""#获取词向量权重    （词向量权重*词的one_hot编码，就是词向量）W = embed.weight.dataprint(f'W的shape：{W.shape}')x = W[vocab[query_token]]     #embedding层是按照索引查表查词对应的权重-->优点print(f'x的shape：{x.shape}')#计算余弦相似度#torch.mv两个向量的点乘cos = torch.mv(W, x) / torch.sqrt(torch.sum(W * W, dim=1) * torch.sum(x * x) + 1e-9)print(f'cos的shape：{cos.shape}')#排序选择前k个对应的索引topk = torch.topk(cos, k=k+1)[1].cpu().numpy().astype('int32')for i in topk[1:]:   #排除query_token他本身，自己与自己余弦相似度最高print(f'cosine sim={float(cos[i]):.3f}:{vocab.to_tokens(i)}')

get_similar_tokens('food', 3, net[0])

W的shape：torch.Size([6719, 100])
x的shape：torch.Size([100])
cos的shape：torch.Size([6719])
cosine sim=0.430:feed
cosine sim=0.418:precious
cosine sim=0.412:drink

2.知识点

word2vector训练代码详解

目录 1.代码实现 2.知识点 1.代码实现 #导包 import math import torch from torch import nn import dltools #加载PTB数据集 ，需要把PTB数据集的文件夹放在代码上一级目录的data文件中，不用解压 #批次大小、窗口大小、噪声词大小 batch_size, ma…...

编程日记 2024/9/30 18:46:08

Python的风格应该是怎样的？除语法外，有哪些规范？

写代码不那么pythonic风格的，多多少少都会让人有点难受。什么是pythonic呢？简而言之，这是一种写代码时遵守的规范，主打简洁、清晰、可读性高，符合PEP 8（Python代码样式指南）约定的模式。 Pyth…...

编程日记 2024/9/30 18:44:06

net core mvc 数据绑定《1》

其它的绑定跟net mvc 一样》》MVC core 、framework 一样 1 模型绑定数组类型 2 模型绑定集合类型 3 模型绑定复杂的集合类型 4 模型绑定源》》》》模型绑定使用输入数据的原生请求集合是可以工作的【request[],Querystring,request.from[]】， 但是从可读…...

编程日记 2024/9/30 18:42:04

python为姓名注音实战案例

有如下数据，需要对名字注音。数据样例：👇 一、实现过程前提条件：由于会用到pypinyin库，所以一定得提前安装。 pip install pypinyin1、详细代码： from pypinyin import pinyin, Style# 输入数据 names…...

编程日记 2024/9/30 18:40:02

MATLAB中的艺术：用爱心形状控制坐标轴

在MATLAB中，坐标轴控制是绘图和数据可视化中的一个重要方面。通过精细地管理坐标轴，我们不仅可以改善图形的视觉效果，还可以赋予图形更深的情感寓意。本文将介绍如何在MATLAB中使用坐标轴控制来绘制一个爱心形状，并探讨其背后的技…...

编程日记 2024/9/30 18:39:01

基于mybatis-plus创建springboot,添加增删改查功能，使用postman来测试接口出现的常见错误

1 当你在使用postman检测添加和更新功能时，报了一个500错误查看idea发现是： Data truncation: Out of range value for column id at row 1 通过翻译：数据截断：表单第1行的“id”列出现范围外值。一般情况下，出现这个…...

编程日记 2024/9/30 18:35:58

目录 1、Object转List对象2、Object转实体对象 1、Object转List对象 List<User> userList MtUtils.ObjectToList(objData, User.class);/*** Object对象转 List集合** param object Object对象* param clazz 需要转换的集合* param <T> 泛型类* return*/ public s…...

编程日记 2024/9/30 18:34:57

Java-并发基础

启动线程的方式只有： 1、X extends Thread;，然后X.start 2、X implements Runnable；然后交给Thread运行有争议可以可以查看 Thread源码的注释： There are two ways to create a new thread of execution.Callable的方式需要…...

编程日记 2024/9/30 18:33:56

速盾：网页游戏部署高防服务器有什么优势？

在当前互联网发展的背景下，网页游戏的市场需求不断增长，相应地带来了对高防服务器的需求。高防服务器可以为网页游戏部署提供许多优势，下面就详细介绍一下。第一，高防服务器具有强大的抗DDoS攻击能力。DDoS攻击是目前互联网上最…...

编程日记 2024/9/30 18:32:55

【从0开始自动驾驶】ros2编写自定义消息 msg文件和msg文件嵌套

【从0开始自动驾驶】ros2编写自定义消息 msg文件和msg文件嵌套详细解答和讨论请私信在工作空间内新建一个功能包在msg内创建对应的msg文件创建名为TestMsg.msg的文件创建名为TestSubMsg.msg的文件（在前一个msg文件中引用）修改CmakeList.txt修改package.…...

编程日记 2024/9/30 18:31:54

docker 部署 Seatunnel 和 Seatunnel Web

docker 部署 Seatunnel 和 Seatunnel Web 说明： 部署方式前置条件，已经在宿主机上运行成功运行文件采用挂载宿主机目录的方式部署SeaTunnel Engine 采用的是混合模式集群编写Dockerfile并打包镜像 Seatunnel FROM openjdk:8 WORKDIR /opt/seatunne…...

编程日记 2024/9/30 18:30:52

【易上手快捷开发新框架技术】nicegui标签组件lable用法庖丁解牛深度解读和示例源代码IDE运行和调试通过截图为证

传奇开心果微博文系列序言一、标签组件lable最基本用法示例1.在网页上显示出 Hello World 的标签示例2. 使用 style 参数改变标签样式示例二、标签组件lable更多用法示例1. 添加按钮动态修改标签文字2. 点击按钮动态改变标签内容、颜色、大小和粗细示例代码3. 添加开关组件动…...

编程日记 2024/9/30 18:29:51

从HarmonyOS Next导出手机照片

1）打开DevEco Studio开发工具 2）插入USB数据线，连接手机 3）在DevEco Studio开发工具，通过View -> Tool Windows -> Device File Browser打开管理工具 4）选择storage -> cloud -> 100->fi…...

编程日记 2024/9/30 18:27:49

[Docker学习笔记]Docker的原理Docker常见命令

文章目录什么是DockerDocker的优势Docker的原理Docker 的安装Docker 的 namespaces Docker的常见命令docker version:查看版本信息docker info 查看docker详细信息我们关注的信息 docker search:镜像搜索docker pull:镜像拉取到本地docker push:推送本地镜像到镜像仓库docker …...

编程日记 2024/9/30 18:26:48

【ESP 保姆级教程】小课设篇 —— 案例：20240507_esp01s+UNO的智能浇水系统

忘记过去，超越自己 ❤️ 博客主页单片机菜鸟哥，一个野生非专业硬件IOT爱好者 ❤️❤️ 本篇创建记录 2024-09-30 ❤️❤️ 本篇更新记录 2023-09-30 ❤️🎉 欢迎关注 🔎点赞 👍收藏 ⭐️留言📝🙏 此博客均由博主单独编写，不存在任何商业团队运营，如发现错误，请…...

编程日记 2024/9/30 18:25:47

如何设置MySQL分布式架构主键ID，为什么不能使用自增ID或者UUID做主键？

MySQL分布式架构主键ID的设置方法雪花算法（Snowflake） 原理：雪花算法是一种生成分布式唯一ID的算法。它由64位二进制数组成，结构如下：1位符号位（固定为0） 41位时间戳（表示从一个固…...

编程日记 2024/9/30 18:24:46

服务器虚拟化详解

服务器虚拟化详解服务器虚拟化是一种将物理服务器资源转化为虚拟服务器资源的技术，它允许在一台物理服务器上运行多个虚拟服务器，每个虚拟服务器都拥有独立的操作系统、应用程序和资源配置。这种技术极大地提高了服务器的利用率、灵活性和可扩展性&…...

编程日记 2024/9/30 18:23:45

医疗陪诊APP开发实战：从互联网医院系统源码开始

本文将从互联网医院系统源码出发，深入探讨医疗陪诊APP的开发实战。一、从互联网医院系统源码入手开发医疗陪诊APP的基础在于互联网医院系统的源码。互联网医院系统通常包括以下几个模块： 1.用户管理：用户注册、登录、信息管理等功能。 …...

编程日记 2024/9/30 18:22:43

jenkins 构建报错ERROR: Error fetching remote repo ‘origin‘

问题描述修改项目的仓库地址后，使用jenkins构建报错 Running as SYSTEM Building in workspace /var/jenkins_home/workspace/【测试】客户端/client-fonchain-main The recommended git tool is: NONE using credential 680a5841-cfa5-4d8a-bb38-977f796c26dd&g…...

编程日记 2024/9/30 18:21:43

初识C#（三）- 数组

我有17栋楼，在不同地域，都是不同价格租出去给不同的人~ 文章目录前言一、数组1.1 我有17栋楼 - 数组的声明1.2 包租公&包租婆 - 数组赋值1.3 每个月都要交租的苦逼租客 - 数组的使用二、字符串2.1 字符串的使用方法总结前言本篇笔记重点描述C#…...

编程日记 2024/9/30 18:20:41

Vim 调用外部命令学习笔记

Vim 外部命令集成完全指南文章目录 Vim 外部命令集成完全指南核心概念理解命令语法解析语法对比常用外部命令详解文本排序与去重文本筛选与搜索高级 grep 搜索技巧文本替换与编辑字符处理高级文本处理编程语言处理其他实用命令范围操作示例指定行范围处理复合命令示例实用技…...

编程新知 2025/10/18 13:49:11

基于大模型的 UI 自动化系统

基于大模型的 UI 自动化系统下面是一个完整的 Python 系统，利用大模型实现智能 UI 自动化，结合计算机视觉和自然语言处理技术，实现"看屏操作"的能力。系统架构设计 #mermaid-svg-2gn2GRvh5WCP2ktF {font-family:"trebuchet ms",verdana,arial,sans-…...

编程新知 2025/10/22 11:16:20

大型活动交通拥堵治理的视觉算法应用

大型活动下智慧交通的视觉分析应用一、背景与挑战大型活动（如演唱会、马拉松赛事、高考中考等）期间，城市交通面临瞬时人流车流激增、传统摄像头模糊、交通拥堵识别滞后等问题。以演唱会为例，暖城商圈曾因观众集中离场导致周边…...

编程新知 2025/10/29 5:29:58

YSYX学习记录（八）

C语言，练习0： 先创建一个文件夹，我用的是物理机： 安装build-essential 练习1： 我注释掉了 #include <stdio.h> 出现下面错误在你的文本编辑器中打开ex1文件，随机修改或删除一部分，之后…...

编程新知 2025/10/26 16:33:24

基于数字孪生的水厂可视化平台建设：架构与实践

分享大纲： 1、数字孪生水厂可视化平台建设背景 2、数字孪生水厂可视化平台建设架构 3、数字孪生水厂可视化平台建设成效近几年，数字孪生水厂的建设开展的如火如荼。作为提升水厂管理效率、优化资源的调度手段，基于数字孪生的水厂可视化平台的…...

编程新知 2025/8/24 3:48:04

python如何将word的doc另存为docx

将 DOCX 文件另存为 DOCX 格式（Python 实现） 在 Python 中，你可以使用 python-docx 库来操作 Word 文档。不过需要注意的是，.doc 是旧的 Word 格式，而 .docx 是新的基于 XML 的格式。python-docx 只能处理 .docx 格式…...

编程新知 2025/8/5 19:18:33

令牌桶滑动窗口-＞限流分布式信号量-＞限并发的原理 lua脚本分析介绍

文章目录前言限流限制并发的实际理解限流令牌桶代码实现结果分析令牌桶lua的模拟实现原理总结： 滑动窗口代码实现结果分析lua脚本原理解析限并发分布式信号量代码实现结果分析lua脚本实现原理双注解去实现限流并发结果分析： 实际业务去理解体会统一注…...

编程新知 2025/10/27 17:22:08

04-初识css

一、css样式引入 1.1.内部样式 <div style"width: 100px;"></div>1.2.外部样式 1.2.1.外部样式1 <style>.aa {width: 100px;} </style> <div class"aa"></div>1.2.2.外部样式2 <!-- rel内表面引入的是style样…...

编程新知 2025/10/27 21:59:42

ardupilot 开发环境eclipse 中import 缺少C++

目录文章目录目录摘要1.修复过程摘要本节主要解决ardupilot 开发环境eclipse 中import 缺少C++，无法导入ardupilot代码，会引起查看不方便的问题。如下图所示 1.修复过程 0.安装ubuntu 软件中自带的eclipse 1.打开eclipse—Help—install new software 2.在 Work with中…...

编程新知 2025/10/28 23:16:13

全志A40i android7.1 调试信息打印串口由uart0改为uart3

一，概述 1. 目的将调试信息打印串口由uart0改为uart3。 2. 版本信息 Uboot版本：2014.07； Kernel版本：Linux-3.10； 二，Uboot 1. sys_config.fex改动使能uart3(TX:PH00 RX:PH01)，并让boo…...

编程新知 2025/10/27 18:40:50

word2vector训练代码详解

1.代码实现

2.知识点

相关文章：

word2vector训练代码详解

Python的风格应该是怎样的？除语法外，有哪些规范？

net core mvc 数据绑定《1》

python为姓名注音实战案例

MATLAB中的艺术：用爱心形状控制坐标轴

基于mybatis-plus创建springboot,添加增删改查功能，使用postman来测试接口出现的常见错误

Java：Object操作

Java-并发基础

速盾：网页游戏部署高防服务器有什么优势？

【从0开始自动驾驶】ros2编写自定义消息 msg文件和msg文件嵌套

docker 部署 Seatunnel 和 Seatunnel Web

【易上手快捷开发新框架技术】nicegui标签组件lable用法庖丁解牛深度解读和示例源代码IDE运行和调试通过截图为证

从HarmonyOS Next导出手机照片

[Docker学习笔记]Docker的原理Docker常见命令

【ESP 保姆级教程】小课设篇 —— 案例：20240507_esp01s+UNO的智能浇水系统

如何设置MySQL分布式架构主键ID，为什么不能使用自增ID或者UUID做主键？

服务器虚拟化详解

医疗陪诊APP开发实战：从互联网医院系统源码开始

jenkins 构建报错ERROR: Error fetching remote repo ‘origin‘

初识C#（三）- 数组

Vim 调用外部命令学习笔记

基于大模型的 UI 自动化系统

大型活动交通拥堵治理的视觉算法应用

YSYX学习记录（八）

基于数字孪生的水厂可视化平台建设：架构与实践

python如何将word的doc另存为docx

令牌桶滑动窗口-＞限流分布式信号量-＞限并发的原理 lua脚本分析介绍

04-初识css

ardupilot 开发环境eclipse 中import 缺少C++

全志A40i android7.1 调试信息打印串口由uart0改为uart3