当前位置: 首页 > article >正文

python实现skip-gram(跳词)示例

文章目录示例什么是跳词?一句话就是用中心词去预测它周围的词。它是 Word2Vec 里最常用的一种训练方式。示例1、安装依赖pip install matplotlib# 其他torch等依赖早就安装了2、创建python文件skip_gram_demo.py代码importtorchimporttorch.nnasnnimporttorch.optimasoptimimportmatplotlib.pyplotaspltfromcollectionsimportCounter# # 1. 数据准备与预处理# # 一个简单的微型语料库corpus deep learning is powerful machine learning is a subset of artificial intelligence deep learning models are inspired by the brain natural language processing uses deep learning # 文本清洗与分词wordscorpus.lower().split()# 构建词汇表 (Word - Index)vocablist(set(words))word_to_idx{w:ifori,winenumerate(vocab)}idx_to_word{i:wfori,winenumerate(vocab)}vocab_sizelen(vocab)print(f词汇表大小:{vocab_size})print(f词汇表:{vocab})# 生成训练数据 (Skip-gram: 输入中心词 - 输出上下文词)defcreate_dataloader(words,word_to_idx,window_size2):inputs[]targets[]foriinrange(1,len(words)-1):center_wordwords[i]center_idxword_to_idx[center_word]# 获取上下文窗口# 比如 window_size2则取前后各2个词forjinrange(i-window_size,iwindow_size1):ifj!iand0jlen(words):context_wordwords[j]context_idxword_to_idx[context_word]inputs.append(center_idx)targets.append(context_idx)returntorch.tensor(inputs,dtypetorch.long),torch.tensor(targets,dtypetorch.long)inputs,targetscreate_dataloader(words,word_to_idx,window_size2)# # 2. 定义 Skip-gram 模型# classSkipGramModel(nn.Module):def__init__(self,vocab_size,embedding_dim):super(SkipGramModel,self).__init__()# 中心词嵌入层 (W)self.w_innn.Embedding(vocab_size,embedding_dim)# 上下文词嵌入层 (W)self.w_outnn.Embedding(vocab_size,embedding_dim)# 初始化权重nn.init.xavier_uniform_(self.w_in.weight)nn.init.xavier_uniform_(self.w_out.weight)defforward(self,x):# x: (batch_size,)# 获取中心词的向量embedsself.w_in(x)# (batch_size, embedding_dim)returnembedsdefloss(self,x,y):# x: 中心词索引, y: 上下文词索引# 1. 获取中心词向量v_centerself.w_in(x)# (batch_size, dim)# 2. 获取上下文词向量v_contextself.w_out(y)# (batch_size, dim)# 3. 计算点积 (相似度)# 这里的逻辑是点积越大概率越大scoretorch.sum(torch.mul(v_center,v_context),dim1)# (batch_size,)# 4. 使用负对数似然损失 (简化版未包含负采样)# 实际大规模训练中通常配合 Negative Sampling 使用# 这里为了演示简单直接最大化目标词的概率loss-torch.mean(score)returnloss# # 3. 训练模型# embedding_dim10# 词向量维度learning_rate0.01epochs1000modelSkipGramModel(vocab_size,embedding_dim)optimizeroptim.SGD(model.parameters(),lrlearning_rate)print(\n开始训练...)forepochinrange(epochs):optimizer.zero_grad()# 前向传播lossmodel.loss(inputs,targets)# 反向传播loss.backward()optimizer.step()if(epoch1)%2000:print(fEpoch{epoch1}, Loss:{loss.item():.4f})# # 4. 结果可视化与测试# print(\n训练完成查看词向量相似度...)# 获取嵌入权重embeddingsmodel.w_in.weight.data.numpy()# 简单的余弦相似度计算defcosine_similarity(w1,w2):returnnp.dot(w1,w2)/(np.linalg.norm(w1)*np.linalg.norm(w2))# 测试几个词test_words[learning,deep,artificial,brain]importnumpyasnpforw1intest_words:ifw1inword_to_idx:vec1embeddings[word_to_idx[w1]]print(f\n与 {w1} 最相似的词:)similarities[]forw2invocab:ifw1!w2:vec2embeddings[word_to_idx[w2]]simcosine_similarity(vec1,vec2)similarities.append((w2,sim))# 排序并打印前3个similarities.sort(keylambdax:x[1],reverseTrue)forword,scoreinsimilarities[:3]:print(f{word}:{score:.4f})# 2D 可视化 (PCA 降维)fromsklearn.decompositionimportPCA pcaPCA(n_components2)reduced_embedspca.fit_transform(embeddings)plt.figure(figsize(10,8))fori,wordinenumerate(vocab):plt.scatter(reduced_embeds[i,0],reduced_embeds[i,1])plt.annotate(word,(reduced_embeds[i,0],reduced_embeds[i,1]))plt.title(Word Embeddings Visualization (PCA))plt.xlabel(PC1)plt.ylabel(PC2)plt.grid(True)plt.show()输出结果词汇表大小:20词汇表:[artificial,inspired,brain,natural,is,are,learning,by,machine,powerful,processing,language,a,intelligence,uses,subset,deep,models,the,of]开始训练...Epoch200,Loss:-0.0312Epoch400,Loss:-0.0661Epoch600,Loss:-0.1041Epoch800,Loss:-0.1467Epoch1000,Loss:-0.1957训练完成查看词向量相似度...与learning最相似的词:inspired:0.6657are:0.4793is:0.4745与deep最相似的词:machine:0.6026intelligence:0.5229processing:0.4629与artificial最相似的词:is:0.5218by:0.5195the:0.5013与brain最相似的词:subset:0.2076powerful:0.1457language:0.0755解读给了一堆杂乱的文字它居然将这些词分出了远近关系。成功了。

相关文章:

python实现skip-gram(跳词)示例

文章目录示例什么是跳词? 一句话,就是用中心词,去预测它周围的词。它是 Word2Vec 里最常用的一种训练方式。 示例 1、安装依赖 pip install matplotlib # 其他torch等依赖早就安装了2、创建python文件skip_gram_demo.py,代码:…...

项目介绍 MATLAB实现基于概率路图法(PRM)进行无人机三维路径规划的详细项目实例(含模型描述及部分示例代码) 专栏近期有大量优惠 还请多多点一下关注 加油 谢谢 你的鼓励是我前行的动力 谢谢支持

MATLAB实现基于概率路图法(PRM)进行无人机三维路径规划的详细项目实例 更多详细内容可直接联系博主本人 或者访问对应标题的完整博客或者文档下载页面(含完整的程序,GUI设计和代码详解) 随着无人机技术的快速发展&…...

项目介绍 MATLAB实现基于栅格地图法(Grid Map)进行无人机三维路径规划的详细项目实例(含模型描述及部分示例代码) 专栏近期有大量优惠 还请多多点一下关注 加油 谢谢 你的鼓励是我前行的动力

MATLAB实现基于栅格地图法(Grid Map)进行无人机三维路径规划的详细项目实例 更多详细内容可直接联系博主本人 或者访问对应标题的完整博客或者文档下载页面(含完整的程序,GUI设计和代码详解) 随着无人机技术的迅速…...

IntelliJ IDEA 彻底AI化!2026.1 版重磅发布,太香了

备受期待的 IntelliJ IDEA 2026.1 版本现已正式发布!本次更新带来了多项重磅功能,从 AI 智能体深度集成到主流语言框架的一流支持,全方位提升开发效率。无论您是 Java、Kotlin 开发者,还是涉及 C/C、TypeScript 的多语言项目开发者…...

解锁Visual Studio中的图标编辑:.CUR文件的编辑指南

在软件开发中,图标是用户界面设计的重要组成部分。它们不仅能增强应用程序的美观度,还能提供直观的操作指引。然而,对于那些不熟悉Visual Studio环境的开发者来说,编辑图标文件可能遇到一些障碍。本文将详细介绍如何在Visual Studio中编辑.CUR文件,以及为什么默认情况下这…...

告别重复造轮子,用快马平台一键生成OpenClaw高效工具模块

最近在做一个机器人控制项目,需要集成OpenClaw机械爪模块。传统开发方式需要从零开始写大量重复代码,效率很低。后来尝试用InsCode(快马)平台生成核心模块,效果出乎意料的好。这里分享下具体实现思路和优化点: 安全初始化模块设计…...

别再为vLLM的max_model_len报错头疼了!手把手教你用Meta-Llama-3.1-8B-Instruct跑通第一个推理

从零突破vLLM 5.0.4实战:Meta-Llama-3.1-8B-Instruct推理全流程解析 当你第一次尝试用vLLM加载Llama 3.1这样的前沿大模型时,是否曾被突如其来的max_model_len报错打得措手不及?作为专为高性能推理设计的框架,vLLM在5.0.4版本中对…...

ABAQUS模拟CFRP约束型钢再生混凝土短柱复现:‘保姆级教程‘中的材料、相互作用设置与曲线...

ABAQUS,CFRP约束型钢再生混凝土短柱论文复现 CFRP材料 相互作用的设置 曲线的调试(前期刚度以及承载力) 保姆级教程打开ABAQUS第一件事先冲杯咖啡——这玩意儿的曲线调试能让你怀疑人生。今天咱们来折腾CFRP裹着型钢再生混凝土的短柱&#xf…...

SIM4LIFE Light保姆级教程:手把手搞定第一个人体SAR值仿真(附FDTD模块避坑指南)

SIM4LIFE Light保姆级教程:手把手搞定第一个人体SAR值仿真(附FDTD模块避坑指南) 电磁场仿真在生物医学工程领域扮演着越来越重要的角色,而SIM4LIFE Light作为一款专为人体组织电磁特性研究设计的仿真软件,凭借其内置的…...

刘教链|比特币税收漏洞即将关闭,稳定币却成最大赢家

一觉醒来,BTC小幅回升至67k一线。地区冲突阴云不散,加密市场始终承压。最近美国国会又出了个新草案,叫Digital Asset PARITY Act。名字听起来很公平,追求资产平等待遇,但仔细一看,这哪里是平等,…...

seo推广如何策划

SEO推广如何策划:全面指南 在当今数字化时代,搜索引擎优化(SEO)推广已成为企业提升网站流量、增加品牌曝光的关键手段。如何有效地策划一套适合自己业务的SEO推广方案却不是件容易的事。本文将从SEO推广的基础概念、问题分析、原…...

抖音批量下载助手:三步实现全自动视频采集

抖音批量下载助手:三步实现全自动视频采集 【免费下载链接】douyinhelper 抖音批量下载助手 项目地址: https://gitcode.com/gh_mirrors/do/douyinhelper 还在为手动保存抖音视频而烦恼吗?抖音批量下载助手为你提供了一套完整的自动化解决方案&am…...

如何快速搭建你的专属Galgame社区:TouchGal一站式解决方案完整指南

如何快速搭建你的专属Galgame社区:TouchGal一站式解决方案完整指南 【免费下载链接】kun-touchgal-next TouchGAL是立足于分享快乐的一站式Galgame文化社区, 为Gal爱好者提供一片净土! 项目地址: https://gitcode.com/gh_mirrors/ku/kun-touchgal-next 你是否…...

震惊!这几款 AI 论文生成器居然能自动匹配真实参考文献,导师都惊呆了!

还在为论文参考文献瞎编、格式错乱、找不到权威文献而熬夜秃头?普通 AI 论文工具动不动就 "文献幻觉",编出一堆查无此篇的假引用,被导师一眼戳穿,直接打回重写!2026 年实测精选,这几款真正能自动…...

“证死你,证伟我”——波普尔“证伪主义”是逻辑诈骗,1+1=2才是真正的科学

“证死你,证伟我”——波普尔“证伪主义”是逻辑诈骗,112才是真正的科学摘要本文作者以技术专家立场,将波普尔证伪主义定性为“逻辑原罪”与“学术诈骗”。核心指控为六个字:“证死你”——用“不可证伪”剥夺完美理论&#xff08…...

专治写作卡点!这几款 AI 续写软件,让论文写作像呼吸一样简单

写论文最怕卡壳?大纲想破头、续写没思路、降重改到哭,还怕 AI 痕迹露馅?2026 年这几款 AI 续写软件,直击本科生、研究生核心痛点,从选题到答辩一站式搞定,让写作效率翻倍!一、PaperRed&#xff…...

破局双系统文件壁垒:WinBtrfs驱动终极应用指南

破局双系统文件壁垒:WinBtrfs驱动终极应用指南 【免费下载链接】btrfs WinBtrfs - an open-source btrfs driver for Windows 项目地址: https://gitcode.com/gh_mirrors/bt/btrfs 在Windows与Linux双系统环境中,用户常常面临跨系统文件访问的难题…...

5个高效步骤:直链技术让网盘用户实现下载速度跃升

5个高效步骤:直链技术让网盘用户实现下载速度跃升 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘…...

运维系列【仅供参考】:【Docker】容器生命周期管理:从优雅停止到高效清理的实战技巧

【Docker】容器生命周期管理:从优雅停止到高效清理的实战技巧 【Docker】容器生命周期管理:从优雅停止到高效清理的实战技巧 摘要 1. 为什么需要关注容器生命周期管理? 2. 停止容器的艺术:从温柔到强硬 2.1 优雅停止的正确姿势 2.2 何时该用强制终止 2.3 暂停与恢复的妙用 …...

SEO_为什么你的网站需要持续进行SEO优化?

SEO优化的重要性:为什么你的网站需要持续进行SEO优化 在当前竞争激烈的互联网市场中,网站的流量和用户参与度直接影响着企业的成功与否。为什么你的网站需要持续进行SEO优化呢?SEO(搜索引擎优化)不仅是提升网站在搜索…...

Comsol 单孔激光烧蚀:探索微观世界的烧蚀奥秘

comsol单孔激光烧蚀 在材料加工等众多领域,激光烧蚀技术凭借其高精度、非接触等优势备受瞩目。而 Comsol 作为一款强大的多物理场仿真软件,为我们深入研究激光烧蚀过程提供了有力工具。今天就来聊聊 Comsol 单孔激光烧蚀那些事儿。 Comsol 仿真原理 激…...

YimMenu:GTA V体验增强工具的全方位应用指南

YimMenu:GTA V体验增强工具的全方位应用指南 【免费下载链接】YimMenu YimMenu, a GTA V menu protecting against a wide ranges of the public crashes and improving the overall experience. 项目地址: https://gitcode.com/GitHub_Trending/yi/YimMenu …...

STM32F407实战:用CubeMX+FreeRTOS+SDIO+FatFs,5分钟搞定SD卡文件读写

STM32F407实战:5分钟极速实现SD卡文件系统全流程 拿到一块STM32F407开发板时,如何快速验证SD卡文件读写功能?这套组合方案或许能帮你省下大量调试时间——CubeMX生成基础框架、FreeRTOS管理任务调度、SDIO硬件接口驱动配合FatFs文件系统&…...

LabVIEW视觉项目效率翻倍:海康相机+OpenCV/NI Vision混合编程实战

LabVIEW视觉项目效率翻倍:海康相机OpenCV/NI Vision混合编程实战 在工业自动化领域,视觉检测系统的开发效率往往决定了产品上市时间。作为一名长期奋战在产线调试一线的工程师,我发现许多同行在使用LabVIEW进行视觉项目开发时,都会…...

SEO_快速见效的站内SEO优化检查清单与方法

SEO:快速见效的站内SEO优化检查清单与方法 在当今竞争激烈的互联网市场中,快速见效的站内SEO优化尤为重要。无论你是新站点的创建者,还是老站点的运营者,站内SEO优化都能帮助提升网站的搜索引擎排名,吸引更多访客。本文将带你了解…...

Mysql 06: 表与字段别名全解——让 SQL 更简洁、可读性拉满

在 MySQL 中,为表和字段取别名(Alias) 是 SQL 开发的基础必备技能,既能大幅简化 SQL 代码、避免字段名冲突,又能让查询结果更易读,是多表连接、复杂查询的核心优化技巧。本文围绕「表别名」和「字段别名」两…...

几种因网络波动导致应用与数据库操作异常的现象

文章目录环境文档用途详细信息环境 系统平台:银河麒麟 (X86_64) 版本:4.5.8 文档用途 介绍几种因网络波动导致应用与数据库操作异常的现象。 详细信息 网络超时相关 应用端常见的连接超时相关报错信息,如&#x…...

CloudFlare R2的S3兼容性有多香?一个PicGo插件搞定七牛云、阿里云OSS无缝迁移

CloudFlare R2的S3兼容性实战:用PicGo实现多平台图床无缝迁移 当七牛云突然调整存储计费策略时,我服务器上3000多张技术文档配图每月产生了近200元的额外成本。而迁移到阿里云OSS后,又遇到了国内备案的繁琐流程。直到发现CloudFlare R2的S3兼…...

G-Helper完整指南:三步掌握华硕笔记本性能优化神器

G-Helper完整指南:三步掌握华硕笔记本性能优化神器 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Strix, Scar,…...

GprMax正演模拟避坑指南:从‘空白结果’到‘清晰双曲线’,我踩过的雷都在这了

GprMax正演模拟避坑指南:从异常结果到专业级图像的实战手册 第一次看到GprMax模拟结果窗口弹出全空白图像时,我盯着屏幕足足愣了三分钟——明明参数设置合理,模型构建完整,为什么输出的雷达图像就像被擦除了一样?这种经…...