当前位置：首页 > news >正文

pytorch基于FastText实现词嵌入

news 2026/5/14 23:46:17

FastText 是 Facebook AI Research 提出的 改进版 Word2Vec，可以： ✅ 利用 n-grams 处理未登录词
比 Word2Vec 更快、更准确
适用于中文等形态丰富的语言

完整的 PyTorch FastText 代码（基于中文语料），包含：

数据预处理（分词 + n-grams）
模型定义
训练
测试

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
import jieba
from collections import Counter
import random# ========== 1. 数据预处理 ==========
corpus = ["我们 喜欢 深度 学习","自然 语言 处理 是 有趣 的","人工智能 改变 了 世界","深度 学习 是 人工智能 的 重要 组成部分"
]# 分词
tokenized_corpus = [list(jieba.cut(sentence)) for sentence in corpus]# 构建 n-grams
def generate_ngrams(words, n=3):ngrams = []for word in words:ngrams += [word[i:i + n] for i in range(len(word) - n + 1)]return ngrams# 生成 n-grams 词表
all_ngrams = set()
for sentence in tokenized_corpus:for word in sentence:all_ngrams.update(generate_ngrams(word))# 构建词汇表
vocab = set(word for sentence in tokenized_corpus for word in sentence) | all_ngrams
word2idx = {word: idx for idx, word in enumerate(vocab)}
idx2word = {idx: word for word, idx in word2idx.items()}# 构建训练数据（CBOW 方式）
window_size = 2
data = []for sentence in tokenized_corpus:indices = [word2idx[word] for word in sentence]for center_idx in range(len(indices)):context = []for offset in range(-window_size, window_size + 1):context_idx = center_idx + offsetif 0 <= context_idx < len(indices) and context_idx != center_idx:context.append(indices[context_idx])if context:data.append((context, indices[center_idx]))  # (上下文, 目标词)# ========== 2. 定义 FastText 模型 ==========
class FastText(nn.Module):def __init__(self, vocab_size, embedding_dim):super(FastText, self).__init__()self.embeddings = nn.Embedding(vocab_size, embedding_dim)self.linear = nn.Linear(embedding_dim, vocab_size)def forward(self, context):context_vec = self.embeddings(context).mean(dim=1)  # 平均上下文向量output = self.linear(context_vec)return output# 初始化模型
embedding_dim = 10
model = FastText(len(vocab), embedding_dim)# ========== 3. 训练 FastText ==========
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.01)
num_epochs = 100for epoch in range(num_epochs):total_loss = 0random.shuffle(data)for context, target in data:context = torch.tensor([context], dtype=torch.long)target = torch.tensor([target], dtype=torch.long)optimizer.zero_grad()output = model(context)loss = criterion(output, target)loss.backward()optimizer.step()total_loss += loss.item()if (epoch + 1) % 10 == 0:print(f"Epoch [{epoch + 1}/{num_epochs}], Loss: {total_loss:.4f}")# ========== 4. 获取词向量 ==========
word_vectors = model.embeddings.weight.data.numpy()# ========== 5. 计算相似度 ==========
def most_similar(word, top_n=3):if word not in word2idx:return "单词不在词汇表中"word_vec = word_vectors[word2idx[word]].reshape(1, -1)similarities = np.dot(word_vectors, word_vec.T).squeeze()similar_idx = similarities.argsort()[::-1][1:top_n + 1]return [(idx2word[idx], similarities[idx]) for idx in similar_idx]# 测试
test_words = ["深度", "学习", "人工智能"]
for word in test_words:print(f"【{word}】的相似单词:", most_similar(word))

1. 生成 n-grams

FastText 处理单词的 子词单元（n-grams）
例如 "学习" 会生成 ["学习", "习学", "学"]
这样即使遇到未登录词也能拆分为 n-grams 计算

2. 训练数据

使用 CBOW（上下文预测中心词）

窗口大小 = 2，即：

句子: ["深度", "学习", "是", "人工智能"]
示例: (["深度", "是"], "学习")

3. FastText 模型

词向量是 n-grams 词向量的平均值
计算公式：
这样，即使单词没见过，也能用它的 n-grams 计算词向量！

4. 计算相似度

用 cosine similarity 找出最相似的单词
FastText 比 Word2Vec 更准确，因为它能利用 n-grams 捕捉词的语义信息

特性	FastText	Word2Vec	GloVe
原理	预测中心词 + n-grams	预测中心词或上下文	统计词共现信息
未登录词处理	可处理	无法处理	无法处理
训练速度	快	快	慢
适合领域	中文、罕见词	传统 NLP	大规模数据

pytorch基于FastText实现词嵌入

FastText 是 Facebook AI Research 提出的改进版 Word2Vec，可以： ✅ 利用 n-grams 处理未登录词比 Word2Vec 更快、更准确适用于中文等形态丰富的语言完整的 PyTorch FastText 代码（基于中文语料），包含&#xff1…...

编程日记 2025/2/5 6:34:07

3D人脸建模：高精度3D人脸扫描设备快速生成真人脸部3D模型

什么是3D人脸建模? 3D人脸建模，即借助特定技术手段，获取人脸三维数据，并构建出能精准呈现人脸形状、纹理等特征的三维模型。这一技术广泛应用于计算机视觉、人机交互、虚拟现实、影视制作等多个领域，为各行业都带来了前所未有的创…...

编程日记 2025/2/5 6:33:06

4.PPT：日月潭景点介绍【18】

目录 NO1、2、3、4 NO5、6、7、8 NO9、10、11、12 表居中或者水平/垂直居中单元格内容居中或者水平/垂直居中 NO1、2、3、4 新建一个空白演示文稿，命名为“PPT.pptx”（“.pptx”为扩展名）新建幻灯片开始→版式“PPT_素材.doc…...

编程日记 2025/2/5 6:32:04

冷链监控系统

前后端源码 wx ：bright12389 冷链系统需求分析 1. 项目背景冷链系统用于监控和管理冷链物流过程中的环境参数（如温度、湿度），确保货物在运输、存储过程中的质量安全。系统需支持实时监控、历史数据分析、异常告警等功能。 2.…...

编程日记 2025/2/5 6:28:00

VSCode中代码颜色异常

检查右下角语言模式是否是HTML， 如果不是就点击更改为HTML模式即可...

编程日记 2025/2/5 6:22:55

表格标签的使用

一.表格标签 1.1表格标签的作用用来显示和展示数据，不是用来布局页面的。 1.2表格的基本语法 <table> //用于定义表格标签 <tr> // table row 用于定义表格中的行，必须嵌套在<table> </table>标签中 <td>单元格内的文…...

编程日记 2025/2/5 6:21:52

llama.cpp GGUF 模型格式 1. Specification1.1. GGUF Naming Convention (命名规则)1.1.1. Validating Above Naming Convention 1.2. File Structure 2. Standardized key-value pairs2.1. General2.1.1. Required2.1.2. General metadata2.1.3. Source metadata 2.2. LLM2.2.…...

编程日记 2025/2/5 6:18:49

嵌入式硬件篇---HAL库内外部时钟主频锁相环分频器

文章目录前言第一部分：STM32-HAL库HAL库编程优势1.抽象层2.易于上手3.代码可读性4.跨平台性5.维护和升级6.中间件支持劣势1.性能2.灵活性3.代码大小4.复杂性直接寄存器操作编程优势1.性能2.灵活性3.代码大小4.学习深度劣势1.复杂性2.可读性3.可维护性4.跨平台性…...

编程日记 2025/2/5 6:09:40

【IoCDI】_@Bean的参数传递

目录 1. 不创建参数类型的Bean 2. 创建一个与参数同类型同名的Bean 3. 创建多个与参数同类型，其中一个与参数同名的Bean 4. 创建一个与参数同类型不同名的Bean 5. 创建多个与参数同类型但不同名的Bean 对于Bean修饰的方法，也可能需要从外部传参&…...

编程日记 2025/2/5 6:08:39

[特殊字符] ChatGPT-4与4o大比拼

🔍 ChatGPT-4与ChatGPT-4o之间有何不同？让我们一探究竟！ 🚀 性能与速度方面，GPT-4-turbo以其优化设计，提供了更快的响应速度和处理性能，非常适合需要即时反馈的应用场景。相比之下，G…...

编程日记 2025/2/5 6:07:38

【模型】Bi-LSTM模型详解

1. 模型架构与计算过程 Bi-LSTM 由两个LSTM层组成，一个是正向LSTM（从前到后处理序列），另一个是反向LSTM（从后到前处理序列）。每个LSTM单元都可以通过门控机制对序列的长期依赖进行建模。 1. 遗忘门遗忘…...

编程日记 2025/2/5 6:01:30

directx12 3d开发过程中出现的报错一

报错：“&”要求左值 “& 要求左值” 这个错误通常是因为你在尝试获取一个临时对象或者右值的地址，而 & 运算符只能用于左值（即可以放在赋值语句左边的表达式，代表一个可以被引用的内存位置）。可能出现错…...

编程日记 2025/2/5 6:00:26

Ubuntu 24.04 安装 Poetry：Python 依赖管理的终极指南

Ubuntu 24.04 安装 Poetry：Python 依赖管理的终极指南 1. 更新系统包列表2. 安装 Poetry方法 1：使用官方安装脚本方法 2：使用 Pipx 安装 3. 配置环境变量4. 验证安装5. 配置 Poetry（可选）设置虚拟环境位置配置镜像源 6…...

编程日记 2025/2/5 5:59:25

读写锁: ReentrantReadWriteLock

在多线程编程场景中，对共享资源的访问控制极为关键。传统的锁机制在同一时刻只允许一个线程访问共享资源，这在读写操作频繁的场景下，会因为读操作相互不影响数据一致性，而造成不必要的性能损耗。ReentrantReadWriteLock&#xff0…...

编程日记 2025/2/5 5:58:21

上海路网道路水系铁路绿色住宅地工业用地面图层shp格式arcgis无偏移坐标2023年

标题和描述中提到的资源是关于2023年上海市地理信息数据的集合，主要包含道路、水系、铁路、绿色住宅区以及工业用地的图层数据，这些数据以Shapefile（shp）格式存储，并且是适用于ArcGIS软件的无偏移坐标系统。这个压缩包…...

编程日记 2025/2/5 5:54:16

爬虫学习笔记之Robots协议相关整理

定义 Robots协议也称作爬虫协议、机器人协议，全名为网络爬虫排除标准，用来告诉爬虫和搜索引擎哪些页面可以爬取、哪些不可以。它通常是一个叫做robots.txt的文本文件，一般放在网站的根目录下。 robots.txt文件的样例对有所爬虫均生效&#…...

编程日记 2025/2/5 5:53:13

Python小游戏29乒乓球

import pygame import sys # 初始化pygame pygame.init() # 屏幕大小 screen_width 800 screen_height 600 screen pygame.display.set_mode((screen_width, screen_height)) pygame.display.set_caption("打乒乓球") # 颜色定义 WHITE (255, 255, 255) BLACK (…...

编程日记 2025/2/5 5:50:09

220.存在重复元素③

目录一、题目二、思路三、解法四、收获一、题目给你一个整数数组 nums 和两个整数 indexDiff 和 valueDiff 。找出满足下述条件的下标对 (i, j)： i ! j, abs(i - j) < indexDiff abs(nums[i] - nums[j]) < valueDiff 如果存在，返回 true &a…...

编程日记 2025/2/5 5:49:08

使用 Go 语言调用 DeepSeek API：完整指南

引言 DeepSeek 是一个强大的 AI 模型服务平台，本文将详细介绍如何使用 Go 语言调用 DeepSeek API，实现流式输出和对话功能。 Deepseek的api因为被功击已不能用，本文以 DeepSeek：https://cloud.siliconflow.cn/i/vnCCfVaQ 为例子进…...

编程日记 2025/2/5 5:45:58

AJAX笔记原理篇

黑马程序员视频地址： AJAX-Day03-01.XMLHttpRequest_基本使用https://www.bilibili.com/video/BV1MN411y7pw?vd_source0a2d366696f87e241adc64419bf12cab&spm_id_from333.788.videopod.episodes&p33https://www.bilibili.com/video/BV1MN411y7pw?vd_sour…...

编程日记 2025/2/5 5:44:50

广州写字楼办公家具整体配套哪家性价比高？

广州写字楼聚集了大量企业，从天河CBD到白云、番禺写字楼，每个企业都需要办公家具整体配套，但面对市面上众多服务商，如何选择性价比高的一家，成为很多老板的难题——性价比不是低价，而是“品质过关、服务到位…...

编程新知 2026/5/14 23:42:40

【紧急预警】92%的AI Agent生产环境因UI层失控失败：3步检测+4种无障碍桥接方案（附微软/苹果官方Accessibility API调用基准测试数据）

更多请点击： https://intelliparadigm.com 第一章：AI Agent直接操作软件技术解析 AI Agent 直接操作桌面软件（如 Excel、Chrome、Photoshop）已突破传统 API 调用边界，转向基于视觉理解与系统级交互的混合控制范式。其…...

编程新知 2026/5/14 23:42:37

基于PI控制的双向DC-AC逆变器直流稳压与交流稳流仿真

目录手把手教你学Simulink——基于PI控制的双向DC-AC逆变器直流稳压与交流稳流仿真一、背景与挑战 1.1 为什么是“直流稳压 + 交流稳流”？ 1.2 核心痛点与控制难点二、系统架构与核心控制推导 2.1 整体架构：功率级与控制级的“左右互搏” 2.2 核心数学推导：逆变器模…...

编程新知 2026/5/14 23:35:40

高性能虚拟显示器驱动架构解析：Parsec VDD核心技术实现与优化

高性能虚拟显示器驱动架构解析：Parsec VDD核心技术实现与优化【免费下载链接】parsec-vdd ✨ Perfect virtual display for game streaming 项目地址: https://gitcode.com/gh_mirrors/pa/parsec-vdd Parsec Virtual Display Driver (VDD) 是基于Windows Id…...

编程新知 2026/5/14 22:26:37

如何在macOS上畅玩Windows游戏和应用：Whisky完整实战指南

如何在macOS上畅玩Windows游戏和应用：Whisky完整实战指南【免费下载链接】Whisky A modern Wine wrapper for macOS built with SwiftUI 项目地址: https://gitcode.com/gh_mirrors/wh/Whisky 还在为Mac电脑无法运行Windows专属软件而烦恼吗？是否…...

编程新知 2026/5/14 20:54:03

LLM Guard：构建大模型应用安全网关的实战指南

1. 项目概述：为什么我们需要一个LLM安全“防火墙”？最近在折腾大语言模型应用落地的朋友，估计都绕不开一个头疼的问题：安全。这玩意儿不像传统的Web应用，防火墙一装、WAF一配，心里就踏实了一大半。LLM应用的…...

编程新知 2026/5/14 19:44:22

免费本地视频去水印软件推荐，电脑端和手机端各有哪些好用的？2026实测整理

免费本地视频去水印软件推荐，电脑端和手机端各有哪些好用的？2026实测整理做自媒体、整理素材或者保存自己喜欢的视频时，画面上的水印往往让人头疼。想去掉，却不知道该用哪类工具；上网一搜全是收费软件或者需要把视频传…...

编程新知 2026/5/14 19:16:14

Cadence CIS库与原理图同步避坑指南：为什么更新了库，图纸上的元件属性还是旧的？

Cadence CIS库与原理图同步避坑指南：为什么更新了库，图纸上的元件属性还是旧的？ 在电子设计自动化（EDA）领域，Cadence的Component Information System（CIS）被广泛用于管理元件库与原理…...

编程新知 2026/5/14 18:36:16

我很笨--学习PG Vector--我开始研究HNSW的减少内存占用--要不你也试试！！系列 5）

❝开头还是介绍一下群，如果感兴趣PolarDB ,MongoDB ,MySQL ,PostgreSQL ,Redis, OceanBase, Sql Server等有问题，有需求都可以加群群内有各大数据库行业大咖，可以解决你的问题。加群请联系 liuaustin3 ，（共3400人左右 …...

编程新知 2026/5/14 18:06:13

Temu 侵权风控升级：凌风一键检测，提前规避封店与 TRO 巨额风险

2026 年 Temu 平台知识产权管控持续收紧，侵权已成为导致卖家店铺关停、资金冻结的头号风险。根据平台最新规则，首次侵权下架商品并警告，二次冻结店铺资金 7-14 天，三次及以上重复侵权永久封店且不予解封。同时，跨境 TR…...

编程新知 2026/5/14 15:25:41

1. 生成 n-grams

2. 训练数据

3. FastText 模型

4. 计算相似度

相关文章：