当前位置：首页 > news >正文

pytorch基于GloVe实现的词嵌入

news 2026/5/15 22:51:57

PyTorch 实现 GloVe（Global Vectors for Word Representation） 的完整代码，使用 中文语料 进行训练，包括 共现矩阵构建、模型定义、训练和测试。

1. GloVe 介绍

基于词的共现信息（不像 Word2Vec 使用滑动窗口预测）
适合较大规模的数据（比 Word2Vec 更稳定）
学习出的词向量能捕捉语义信息（如类比关系）

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
import jieba
from collections import Counter
from scipy.sparse import coo_matrix# ========== 1. 数据预处理 ==========
corpus = ["我们 喜欢 深度 学习","自然 语言 处理 是 有趣 的","人工智能 改变 了 世界","深度 学习 是 人工智能 的 重要 组成部分"
]# 分词
tokenized_corpus = [list(jieba.cut(sentence)) for sentence in corpus]
vocab = set(word for sentence in tokenized_corpus for word in sentence)
word2idx = {word: idx for idx, word in enumerate(vocab)}
idx2word = {idx: word for word, idx in word2idx.items()}# 计算共现矩阵
window_size = 2
co_occurrence = Counter()for sentence in tokenized_corpus:indices = [word2idx[word] for word in sentence]for center_idx in range(len(indices)):center_word = indices[center_idx]for offset in range(-window_size, window_size + 1):context_idx = center_idx + offsetif 0 <= context_idx < len(indices) and context_idx != center_idx:context_word = indices[context_idx]co_occurrence[(center_word, context_word)] += 1# 转换为稀疏矩阵
rows, cols, values = zip(*[(c[0], c[1], v) for c, v in co_occurrence.items()])
X = coo_matrix((values, (rows, cols)), shape=(len(vocab), len(vocab)))# ========== 2. 定义 GloVe 模型 ==========
class GloVe(nn.Module):def __init__(self, vocab_size, embedding_dim):super(GloVe, self).__init__()self.w_embeddings = nn.Embedding(vocab_size, embedding_dim)  # 中心词嵌入self.c_embeddings = nn.Embedding(vocab_size, embedding_dim)  # 上下文词嵌入self.w_bias = nn.Embedding(vocab_size, 1)  # 中心词偏置self.c_bias = nn.Embedding(vocab_size, 1)  # 上下文词偏置nn.init.xavier_uniform_(self.w_embeddings.weight)nn.init.xavier_uniform_(self.c_embeddings.weight)def forward(self, center, context, co_occur):w_emb = self.w_embeddings(center)c_emb = self.c_embeddings(context)w_bias = self.w_bias(center).squeeze()c_bias = self.c_bias(context).squeeze()dot_product = (w_emb * c_emb).sum(dim=1)loss = (dot_product + w_bias + c_bias - torch.log(co_occur + 1e-8)) ** 2return loss.mean()# 初始化模型
embedding_dim = 10
model = GloVe(len(vocab), embedding_dim)# ========== 3. 训练 GloVe ==========
criterion = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=0.01)
num_epochs = 100# 转换数据
co_occurrence_tensor = torch.tensor(X.data, dtype=torch.float)
pairs = list(zip(X.row, X.col, co_occurrence_tensor))for epoch in range(num_epochs):total_loss = 0np.random.shuffle(pairs)for center, context, co_occur in pairs:optimizer.zero_grad()loss = model(torch.tensor([center], dtype=torch.long),torch.tensor([context], dtype=torch.long),torch.tensor([co_occur], dtype=torch.float)  # 修正数据类型)loss.backward()optimizer.step()total_loss += loss.item()if (epoch + 1) % 10 == 0:print(f"Epoch [{epoch + 1}/{num_epochs}], Loss: {total_loss:.4f}")# ========== 4. 获取词向量 ==========
word_vectors = model.w_embeddings.weight.data.numpy()# ========== 5. 计算相似度 ==========
def most_similar(word, top_n=3):if word not in word2idx:return "单词不在词汇表中"word_vec = word_vectors[word2idx[word]].reshape(1, -1)similarities = np.dot(word_vectors, word_vec.T).squeeze()similar_idx = similarities.argsort()[::-1][1:top_n + 1]return [(idx2word[idx], similarities[idx]) for idx in similar_idx]# 测试
test_words = ["深度", "学习", "人工智能"]
for word in test_words:print(f"【{word}】的相似单词:", most_similar(word))

数据预处理

分词（使用 jieba.cut()）
构建共现矩阵（计算窗口内的单词共现频率）
使用稀疏矩阵存储（提高计算效率）

GloVe 模型

Embedding 层 训练词向量（中心词和上下文词分开）
Bias 变量 用于调整预测值
损失函数 最小化 log(共现次数) 与词向量点积的差值

计算词向量相似度

使用 cosine similarity
找出 top_n 最相似的单词

pytorch基于GloVe实现的词嵌入

PyTorch 实现 GloVe（Global Vectors for Word Representation） 的完整代码，使用中文语料进行训练，包括共现矩阵构建、模型定义、训练和测试。 1. GloVe 介绍基于词的共现信息（不像 Word2Vec 使用滑动窗口预测&…...

编程日记 2025/2/4 15:20:34

SpringCloud篇微服务架构

1. 工程架构介绍 1.1 两种工程架构模型的特征 1.1.1 单体架构上面这张图展示了单体架构（Monolithic Architecture）的基本组成和工作原理。单体架构是一种传统的软件架构模式，其中所有的功能都被打包在一个单一的、紧密耦合的应用程序中。 …...

编程日记 2025/2/4 15:15:24

背包问题和单调栈

背包问题（动态规划） 动态五步曲 dp数组及下标索引的含义递推公式dp数组如何初始化遍历顺序打印dp数组 01背包：n种物品，有一个,二维数组遍历顺序可以颠倒，（滚动数组）一维数组遍历顺序不可颠倒…...

编程日记 2025/2/4 15:13:18

Java | CompletableFuture详解

关注：CodingTechWork CompletableFuture 概述介绍 CompletableFuture是 Java 8 引入的一个非常强大的类，属于 java.util.concurrent 包。它是用于异步编程的一个工具，可以帮助我们更方便地处理并发任务。与传统的线程池或 Future 对比&…...

编程日记 2025/2/4 15:10:15

【背包问题】二维费用的背包问题

目录二维费用的背包问题详解总结： 空间优化： 1. 状态定义 2. 状态转移方程 3. 初始化 4. 遍历顺序 5. 时间复杂度例题 1，一和零 2，盈利计划二维费用的背包问题详解前面讲到的01背包中，对物品的限定条件…...

编程日记 2025/2/4 15:07:08

Golang 并发机制-5：详解syn包同步原语

并发性是现代软件开发的一个基本方面，Go（也称为Golang）为并发编程提供了一组健壮的工具。Go语言中用于管理并发性的重要包之一是“sync”包。在本文中，我们将概述“sync”包，并深入研究其最重要的同步原语之一&#xf…...

编程日记 2025/2/4 15:06:07

实验六项目二简易信号发生器的设计与实现（HEU）

声明：代码部分使用了AI工具实验六综合考核 Quartus 18.0 FPGA 5CSXFC6D6F31C6N 1. 实验项目要求利用硬件描述语言Verilog（或VHDL）、图形描述方式、IP核，结合数字系统设计方法，在Quartus开发环境下&#xff…...

编程日记 2025/2/4 15:05:06

如何用微信小程序写春联

生活没有模板，只需心灯一盏。如果笑能让你释然，那就开怀一笑；如果哭能让你减压，那就让泪水流下来。如果沉默是金，那就不用解释；如果放下能更好地前行，就别再扛着。一、引入 Vant UI 1、通过 npm 安装 npm i @vant/weapp -S --production 2、修改 app.json …...

编程日记 2025/2/4 15:02:02

LabVIEW无人机航线控制系统

介绍了一种无人机航线控制系统，该系统利用LabVIEW软件与MPU6050九轴传感器相结合，实现无人机飞行高度、速度、俯仰角和滚动角的实时监控。系统通过虚拟仪器技术，有效实现了数据的采集、处理及回放，极大提高了无人机航线的控制精度…...

编程日记 2025/2/4 15:00:00

C++哈希表深度解析：从原理到实现，全面掌握高效键值对存储

目录一、核心组件与原理 1. 哈希函数（Hash Function） 2. 冲突解决（Collision Resolution） 3. 负载因子（Load Factor）与扩容二、C实现：std::unordered_map 1. 模板参数 2. 关键操作与复…...

编程日记 2025/2/4 14:58:59

Vue.js组件开发-实现字母向上浮动

使用Vue实现字母向上浮动的效果实现步骤创建Vue项目：使用Vue CLI来创建一个新的Vue项目。定义组件结构：在组件的模板中，定义包含字母的元素。添加样式：使用CSS动画来实现字母向上浮动的效果。绑定动画类：在Vue组件…...

编程日记 2025/2/4 14:56:56

自研有限元软件与ANSYS精度对比-Bar2D2Node二维杆单元模型-四连杆实例

目录 1、四连杆工程实例以及手算求解 2、四连杆的自研有限元软件求解 2.1、选择单元类型 2.2、导入四连杆工程 2.3、节点坐标定义 2.4、单元连接关系、材料定义 2.5、约束定义 2.6、外载定义 2.7、矩阵求解 2.8、变形云图展示 2.9、节点位移 2.10、单元应力 2.11、…...

编程日记 2025/2/4 14:55:51

04树 + 堆 + 优先队列 + 图（D1_树（D11_伸展树））

目录一、基本介绍二、伸展操作 1. 左右情况的伸展 2. 左左情况的伸展 3. 右左情况的伸展 4. 右右情况的伸展三、其它操作 1. 插入 2. 删除四、代码实现一、基本介绍伸展树是一种二叉搜索树，伸展树也是一种平衡树，不过伸展树并不像AVL树那…...

编程日记 2025/2/4 14:53:49

c语言练习题【数据类型、递归、双向链表快速排序】

练习1：数据类型请写出以下几个数据的数据类型整数 a a 的地址存放a的数组 b 存放a的地址的数组 b的地址 c的地址指向 printf 函数的指针 d 存放 d的数组整数 a 的类型数据类型是 int a 的地址数据类型是 int*（指向 int 类型的指针） …...

编程日记 2025/2/4 14:52:48

SliverAppBar的功能和用法

文章目录 1 概念介绍2 使用方法3 示例代码我们在上一章回中介绍了SliverGrid组件相关的内容，本章回中将介绍SliverAppBar组件.闲话休提，让我们一起Talk Flutter吧。 1 概念介绍我们在本章回中介绍的SliverAppBar和普通的AppBar类似，它们的…...

编程日记 2025/2/4 14:46:42

五、定时器实现呼吸灯

5.1 定时器与计数器简介定时器是一种通过对内部时钟脉冲计数来测量时间间隔的模块。它的核心是一个递增或递减的寄存器（计数器值）。如果系统时钟为 1 MHz，定时器每 1 μs 计数一次。计数器是一种对外部事件（如脉冲信号&#xff…...

编程日记 2025/2/4 14:44:38

Elasticsearch的索引生命周期管理

目录说明零、参考一、ILM的基本概念二、ILM的实践步骤Elasticsearch ILM策略中的“最小年龄”是如何计算的？如何监控和调整Elasticsearch ILM策略的性能？ 1. **监控性能**使用/_cat/thread_pool API基本请求格式请求特定线程池的信息响应内容 2. **调整…...

编程日记 2025/2/4 14:43:35

【大模型理论篇】最近大火的DeepSeek-R1初探系列1

1. 背景介绍这一整个春节，被DeepSeek-R1刷屏。各种铺天盖地的新闻以及老板发的相关信息，着实感受到DeepSeek-R1在国外出圈的震撼。 DeepSeek推出了新的推理模型：DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个在没有经过监督微调…...

编程日记 2025/2/4 14:42:33

【数据结构】(4) 线性表 List

一、什么是线性表线性表就是 n 个相同类型元素的有限序列，每一个元素只有一个前驱和后继（除了第一个和最后一个元素）。数据结构中，常见的线性表有：顺序表、链表、栈、队列。二、什么是 List List 是 Java 中的线性…...

编程日记 2025/2/4 14:38:25

【C++ STL】vector容器详解：从入门到精通

【C STL】vector容器详解：从入门到精通摘要：本文深入讲解C STL中vector容器的使用方法，涵盖常用函数、代码示例及注意事项，助你快速掌握动态数组的核心操作！ 一、vector概述 vector是C标准模板库（STL&am…...

编程日记 2025/2/4 14:30:16

避开这些坑！STC8H8K64U IAP升级中FLASH分区与Keil定位的保姆级教程

STC8H8K64U IAP升级实战：FLASH分区设计与Keil定位全解析第一次接触STC8H8K64U的IAP功能时，我花了整整三天时间才搞明白为什么程序总是莫名其妙地崩溃。直到发现是FLASH分区地址计算错误导致用户程序覆盖了ISP引导区，才恍然大悟。本文将分享从…...

编程新知 2026/5/15 21:43:49

如何通过LizzieYzy围棋AI分析工具在30天内实现棋力突破：从入门到实战的完整指南

如何通过LizzieYzy围棋AI分析工具在30天内实现棋力突破：从入门到实战的完整指南【免费下载链接】lizzieyzy LizzieYzy - GUI for Game of Go 项目地址: https://gitcode.com/gh_mirrors/li/lizzieyzy 在围棋AI技术飞速发展的今天，LizzieYzy作为一…...

编程新知 2026/5/15 20:36:50

仅限档案学研究者获取：NotebookLM定制提示词库V2.3（含17个NARA/中国第一历史档案馆认证模板）

更多请点击： https://intelliparadigm.com 第一章：NotebookLM档案学研究辅助 NotebookLM 是 Google 推出的基于 LLM 的研究型笔记工具，其核心能力在于对用户上传的私有文档（如 PDF、TXT、DOCX）进行语义理解与上下文关…...

编程新知 2026/5/15 20:28:38

星链引擎：AI 驱动的全域营销决策自动化系统技术实现

一、引言在当前数字化营销时代，企业面临着前所未有的数据爆炸和决策复杂度。一个典型的全域营销场景中，企业每天需要处理来自多个平台的数百万条用户行为数据，同时还要根据市场变化、竞品动态和用户反馈，实时调整内容策略、发布策…...

编程新知 2026/5/15 19:00:50

单片机显示开发避坑：手把手教你用C语言搞定RGB888、RGB565和RGB666的颜色格式转换

单片机显示开发实战：C语言高效处理RGB888、RGB565与RGB666格式转换当你在STM32或ESP32上驱动一块LCD屏幕时，是否遇到过这样的场景：精心设计的UI界面在屏幕上显示时，颜色却变得怪异扭曲？这往往源于颜色格式的错配——你…...

编程新知 2026/5/15 18:58:45

RISC-V PLIC中断控制器详解：从原理到SiFive U54实战配置

1. 平台级中断控制器（PLIC）是什么？为什么需要它？如果你正在接触基于RISC-V架构的嵌入式系统开发，尤其是像SiFive U54这样的多核处理器，那么“PLIC”这个缩写会频繁地出现在你的视野里。它全称是Platform-Le…...

编程新知 2026/5/15 17:00:08

092、Python在芯片验证中的应用：从脚本小子到验证架构师

092、Python在芯片验证中的应用：从脚本小子到验证架构师一、那个凌晨三点的调试现场上周三凌晨三点，实验室的空调嗡嗡作响。面前的屏幕上，UVM验证环境跑了八小时，终于在随机测试第237次迭代时触发了那个诡异的时序违例。日志文件12GB，波形文件更是高达80GB。手动分析？…...

编程新知 2026/5/15 12:30:56

英特尔®oneAPI 数学内核库（oneMKL）在Windows上的高效部署与VS2022集成指南

1. 为什么选择oneMKL？从矩阵计算到AI加速的全能选手第一次接触oneMKL是在处理一个图像处理项目时，当时需要实现大规模的矩阵变换运算。用原生C写的算法跑起来像老牛拉车，直到同事推荐了英特尔的这个数学库。实测下来，同样的算法…...

编程新知 2026/5/15 12:06:16

恒宇信通收购神导科技，业绩V型反转、技术高度互补，能否开启增长新周期？

5月13日，恒宇信通（300965.SZ）在停牌筹划半个月后，携一份重磅资产重组预案强势复牌，开盘即收获20cm一字涨停，报收79.20元/股。根据预案，恒宇信通拟通过发行股份及支付现金的方式，收购…...

编程新知 2026/5/15 11:17:38

掌握Flash逆向工程：JPEXS免费反编译工具完全指南

掌握Flash逆向工程：JPEXS免费反编译工具完全指南【免费下载链接】jpexs-decompiler JPEXS Free Flash Decompiler 项目地址: https://gitcode.com/gh_mirrors/jp/jpexs-decompiler 在Flash技术逐渐淡出历史舞台的今天，无数经典的Flash动画、游戏…...

编程新知 2026/5/15 9:55:56

1. GloVe 介绍

数据预处理

GloVe 模型

计算词向量相似度

相关文章：