当前位置: 首页 > news >正文

【Word2Vec】Skip-gram 的直观理解(深入浅出)

01 什么是skip-gram

一句话来说就是,给定中心词,然后预测其周围的词:

在这里插入图片描述

02 模型结构

在这里插入图片描述

  1. 对于skip-gram来说,输入是一个[1 x V]维的ont-hot向量,其中V为词表大小,值为1的那一项就表示我们的中心词
  2. 经过一个[V x N]的矩阵得到一个[1 x N]的向量,这个向量就是我们需要的词的embedding表示
  3. 然后[1 x N]的向量经过一个[N x V]的矩阵得到一个[1 x V]的向量,这个向量的值就是中心词与词表中其他词的相似度,经过softmax就是中心词旁边周围词出现的概率
  4. 优化目标:经过训练[V x N][N x V]这两个矩阵,使得最后目标词与周围词的出现概率最大,而与除了周围词以外的词概率最小(负采样,这里不详细展开了)。

03 直观理解skip-gram流程

这里的每一步,对应了 02 模型结构 中的步骤。

这里我们举一个例子,一步步推导是怎么走的,这样更加直观:

以这句话为例:I love machine learning

我们随机初始化两个矩阵:

[V x N]的矩阵为:
[0.1, 0.2]
[0.3, -0.2]
[0.5, 0.4]
[-0.1, 0.3]

其中,V为4,表示词表中有4个单词,N为2表示我们想讲词向量映射为2(这个N是超参数,可以自己设定)。

注意这里为了文章简洁,使用两个相同矩阵,只是转置了一下,真实情况中一般是随机初始化的(大概率不同)。

1. 输入[1 x V]向量

假设我们的目标词是love,那么输入向量就是[0, 1, 0, 0]

2. 经过一个[V x N]的矩阵得到一个[1 x N]的向量

输入向量 x [V x N]的矩阵的直观理解就是:将词映射成embeding

以所举例子所示,向量 x 矩阵的结果就是:

I      -> [0.1, 0.2]
love   -> [0.3, -0.2]
machine-> [0.5, 0.4]
learning -> [-0.1, 0.3]

也就是将love从ont-hot向量映射为[0.3, -0.2]这个embedding。

3. [1 x N]的向量经过一个[N x V]的矩阵得到一个[1 x V]的向量

这个过程即做预测,skip-gram的预测过程就是找出跟中心词最相近的词,向量表示最简单就是看向量乘积,越高说明越相似。

比如,如果想知道love和I、machine之间的相似度:

在这里插入图片描述

4. 优化目标

使用交叉熵损失函数,目标是最小化目标词真实上下文词之间的预测误差(注意是真实上下文)。

对于该例子就是:

在这里插入图片描述

然后反向传播计算损失,不断优化两个矩阵,最后使得总损失最小,直观理解就是目标词与周围词的出现概率最大

  • 训练完成后的第一个矩阵的每一行,就对应着每个词的embedding表示;
  • 训练完成后,在做预测时:给定一个词,想知道他的上下文词是谁,就看3. 的结果[1 x V]的向量值最大的n个元素,就对应最可能的n个上下文词。

相关文章:

【Word2Vec】Skip-gram 的直观理解(深入浅出)

01 什么是skip-gram 一句话来说就是,给定中心词,然后预测其周围的词: 02 模型结构 对于skip-gram来说,输入是一个[1 x V]维的ont-hot向量,其中V为词表大小,值为1的那一项就表示我们的中心词。经过一个[V x…...

在MacOS上打造本地部署的大模型知识库(一)

一、在MacOS上安装Ollama docker run -d -p 3000:8080 --add-hosthost.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main 最后停掉Docker的ollama,就能在webui中加载llama模…...

(21)从strerror到strtok:解码C语言字符函数的“生存指南2”

❤个人主页:折枝寄北的博客 ❤专栏位置:简单入手C语言专栏 目录 前言1. 错误信息报告1.1 strerror 2. 字符操作2.1 字符分类函数2.2 字符转换函数 3. 内存操作函数3.1 memcpy3.2 memmove3.2memset3.3 memcmp 感谢您的阅读 前言 当你写下strcpy(dest, s…...

DeepSeek推出DeepEP:首个开源EP通信库,让MoE模型训练与推理起飞!

今天,DeepSeek 在继 FlashMLA 之后,推出了第二个 OpenSourceWeek 开源项目——DeepEP。 作为首个专为MoE(Mixture-of-Experts)训练与推理设计的开源 EP 通信库,DeepEP 在EP(Expert Parallelism&#xff09…...

1.2 Kaggle大白话:Eedi竞赛Transformer框架解决方案02-GPT_4o生成训练集缺失数据

目录 0. 本栏目竞赛汇总表1. 本文主旨2. AI工程架构3. 数据预处理模块3.1 配置数据路径和处理参数3.2 配置API参数3.3 配置输出路径 4. AI并行处理模块4.1 定义LLM客户端类4.2 定义数据处理函数4.3 定义JSON保存函数4.4 定义数据分片函数4.5 定义分片处理函数4.5 定义文件名排序…...

数据结构-顺序表专题

大家好!这里是摆子,今天给大家带来的是C语言数据结构开端-顺序表专题,主要介绍了数据结构和动态顺序表的实现,快来看看吧!记得一键三连哦! 1.数据结构的概念 1.1什么是数据结构? 数据结构是计…...

docker和containerd从TLS harbor拉取镜像

私有镜像仓库配置了自签名证书,https访问,好处是不需要处理免费证书和付费证书带来的证书文件变更,证书文件变更后需要重启服务,自签名证书需要将一套客户端证书存放在/etc/docker/cert.d目录下,或者/etc/containerd/c…...

kafka-关于ISR-概述

一. 什么是ISR ? Kafka 中通常每个分区都有多个副本,其中一个副本被选举为 Leader,其他副本为 Follower。ISR 是指与 Leader 副本保持同步的 Follower 副本集合。ISR 机制的核心是确保数据在多个副本之间的一致性和可靠性,同时在 …...

el-input实现金额输入

需求&#xff1a;想要实现一个输入金额的el-input&#xff0c;限制只能输入数字和一个小数点。失焦数字转千分位&#xff0c;聚焦转为数字&#xff0c;超过最大值&#xff0c;红字提示 效果图 失焦 聚焦 报错效果 // 组件limitDialog <template><el-dialog:visible.s…...

C++11智能指针

一、指针管理的困境 资源释放了&#xff0c;但指针没有置空&#xff08;野指针、指针悬挂、踩内存&#xff09; 没有释放资源&#xff0c;产生内存泄漏问题&#xff1b;重复释放资源&#xff0c;引发coredump 二、智能指针...

安装Git(小白也会装)

一、官网下载&#xff1a;Git 1.依次点击&#xff08;红框&#xff09; 不要安装在C盘了&#xff0c;要炸了&#xff01;&#xff01;&#xff01; 后面都 使用默认就好了&#xff0c;不用改&#xff0c;直接Next&#xff01; 直到这里&#xff0c;选第一个 这两种选项的区别如…...

驭势科技9周年:怀揣理想,踏浪前行

2025年的2月&#xff0c;驭势科技迎来9岁生日。位于国内外不同工作地的Uiseeker齐聚线上线下&#xff0c;共同庆祝驭势走过的璀璨九年。 驭势科技联合创始人、董事长兼CEO吴甘沙现场分享了驭势9年的奔赴之路&#xff0c;每一段故事都包含着坚持与拼搏。 左右滑动查看更多 Part.…...

一款在手机上制作电子表格

今天给大家分享一款在手机上制作电子表格的&#xff0c;免费好用的Exce1表格软件&#xff0c;让工作变得更加简单。 1 软件介绍 Exce1是一款手机制作表格的办公软件&#xff0c;您可以使用手机exce1在线制作表格、工资表、编辑xlsx和xls表格文件等&#xff0c;还可以学习使用…...

Python解决“比赛配对”问题

Python解决“比赛配对”问题 问题描述测试样例解决思路代码 问题描述 小R正在组织一个比赛&#xff0c;比赛中有 n 支队伍参赛。比赛遵循以下独特的赛制&#xff1a; 如果当前队伍数为 偶数&#xff0c;那么每支队伍都会与另一支队伍配对。总共进行 n / 2 场比赛&#xff0c;…...

【AI论文】RAD: 通过大规模基于3D图形仿真器的强化学习训练端到端驾驶策略

摘要&#xff1a;现有的端到端自动驾驶&#xff08;AD&#xff09;算法通常遵循模仿学习&#xff08;IL&#xff09;范式&#xff0c;但面临着因果混淆和开环差距等挑战。在本研究中&#xff0c;我们建立了一种基于3D图形仿真器&#xff08;3DGS&#xff09;的闭环强化学习&…...

Web开发:ORM框架之使用Freesql的导航属性

一、什么时候用导航属性 看数据库表的对应关系&#xff0c;一对多的时候用比较好&#xff0c;不用多写一个联表实体&#xff0c;而且查询高效 二、为实体配置导航属性 1.给关系是一的父表实体加上&#xff1a; [FreeSql.DataAnnotations.Navigate(nameof(子表.子表关联字段))]…...

【docker】namespace底层机制

Linux 的 Namespace 机制是实现容器化&#xff08;如 Docker、LXC 等&#xff09;的核心技术之一&#xff0c;它通过隔离系统资源&#xff08;如进程、网络、文件系统等&#xff09;为进程提供独立的运行环境。其底层机制涉及内核数据结构、系统调用和进程管理。以下是其核心实…...

【每天认识一个漏洞】url重定向

&#x1f31d;博客主页&#xff1a;菜鸟小羊 &#x1f496;专栏&#xff1a;Linux探索之旅 | 网络安全的神秘世界 | 专接本 | 每天学会一个渗透测试工具 常见应用场景 主要是业务逻辑中需要进行跳转的地方。比如登录处、注册处、访问用户信息、订单信息、加入购物车、分享、收…...

端口映射/内网穿透方式及问题解决:warning: remote port forwarding failed for listen port

文章目录 需求&#xff1a;A机器是内网机器&#xff0c;B机器是公网服务器&#xff0c;想要从公网&#xff0c;访问A机器的端口方式&#xff1a;端口映射&#xff0c;内网穿透&#xff0c;使用ssh打洞端口&#xff1a;遇到问题&#xff1a;命令执行成功&#xff0c;但是端口转发…...

Polardb开发者大会

这是第二次参加这个大会 还有不少老朋友 好多年没有这种经历了–大会讲的我不是很懂 10几年前参会&#xff0c;那时候自己不懂。后来就慢慢懂了。这些年参会都虽然还在不断学习&#xff0c;但是没觉得自己差距很大了。 这次出来很不一样&#xff0c;一堆新的技能&#xff0c;这…...

开源内容访问工具:突破网页内容限制的技术实践指南

开源内容访问工具&#xff1a;突破网页内容限制的技术实践指南 在信息爆炸的数字时代&#xff0c;专业内容与学术资源的获取常常受到付费墙的限制。本文介绍的开源内容访问工具作为一款浏览器扩展&#xff0c;通过技术手段帮助用户合规地访问受限制内容&#xff0c;重新定义信息…...

【车载嵌入式】TBOX:智能汽车的“云端神经中枢”与数据引擎

1. TBOX&#xff1a;智能汽车的“云端神经中枢”是什么&#xff1f; 想象一下你的爱车突然有了“超能力”——能自动报告故障、远程启动空调、甚至预测保养时间。这些神奇功能的背后&#xff0c;都离不开一个藏在仪表盘下方的小盒子&#xff1a;TBOX&#xff08;Telematics BOX…...

Coze插件开发实战:如何将现有API快速封装并发布到扣子商店

1. 从零开始理解Coze插件开发 第一次接触Coze插件开发时&#xff0c;我也被各种概念绕得头晕。简单来说&#xff0c;这就像给手机安装APP——扣子商店是应用市场&#xff0c;插件就是里面的各种APP。而我们要做的&#xff0c;就是把自家开发的API服务打包成这样一个"APP&q…...

计算机中级-数据库系统工程师-操作系统-设备管理

一、设备管理1. 考点核心考点&#xff1a;设备管理主要包含三个考点&#xff1a;I/O设备管理软件、Spooling技术和磁盘调度算法2. 设备管理的概述自学内容&#xff1a;包括设备的分类、设备管理的目标与任务&#xff0c;建议直接阅读教材相关内容3. I/O设备管理软件1&#xff0…...

当AI学会“动手”,架构师如何为它“刹车”?

当AI Agent开始自主执行文件读写、邮件收发、系统操作&#xff0c;你交给它的权限&#xff0c;到底是“效率工具”还是“失控炸弹”&#xff1f; 2026年开年&#xff0c;OpenClaw引爆了AI Agent领域——大模型从“会聊天”迈入“能行动”的时代。Meta安全专家的一条指令&#x…...

UDOP-large镜像实战:离线环境下CDN禁用Gradio仍可稳定访问Web界面

UDOP-large镜像实战&#xff1a;离线环境下CDN禁用Gradio仍可稳定访问Web界面 1. 引言&#xff1a;当你的网络环境“与世隔绝” 想象一下这个场景&#xff1a;你身处一个严格的内网环境&#xff0c;或者一个网络信号极不稳定的偏远地区。你需要部署一个强大的AI模型来处理手头…...

【绝密工作流】R 4.5下TCGA批量下载→准确定量→生存分析→可视化交付(全程无GUI,纯R脚本,含NCBI API密钥安全注入方案)

第一章&#xff1a;R 4.5基因测序数据分析教程概览R 4.5 版本引入了对 Bioconductor 3.19 的原生兼容性增强、更高效的稀疏矩阵处理能力&#xff0c;以及针对单细胞RNA-seq和ChIP-seq数据的底层内存优化。本教程面向具备基础R编程经验的生物信息学实践者&#xff0c;聚焦于从原…...

ArduPilot SITL不止能飞Copter:手把手教你用同一套环境玩转无人机、固定翼和无人车仿真

ArduPilot SITL全平台仿真指南&#xff1a;从无人机到无人车的无缝切换 当你第一次成功运行ArduPilot的多旋翼无人机仿真时&#xff0c;那种兴奋感可能还记忆犹新。但你知道吗&#xff1f;你刚刚搭建的这套Ubuntu 22.04环境&#xff0c;其实是一把能打开整个无人系统世界的万能…...

AI模型嵌入式测试怎么做?:从Prompt注入到LLM幻觉捕获的5类新型缺陷拦截实战

第一章&#xff1a;AI原生软件研发质量保障体系构建 2026奇点智能技术大会(https://ml-summit.org) AI原生软件不同于传统软件&#xff0c;其核心逻辑高度依赖数据分布、模型行为与推理路径的动态性&#xff0c;导致传统基于确定性断言的质量保障手段失效。构建适配AI原生特性…...

跨境电商研发团队文件外发安全管控

我有个朋友在深圳做跨境电商&#xff0c;主要卖智能家居产品到北美。上个月他跟我说了件差点让他丢大客户的事—— 他们的研发文件从来都是"谁需要找谁要"&#xff0c;邮件、微信、U盘&#xff0c;什么渠道都有。有一天&#xff0c;研发部把一批新款智能锁的固件代码…...