当前位置：首页 > news >正文

【Word2Vec】Skip-gram 的直观理解（深入浅出）

news 2026/2/8 20:35:03

01 什么是skip-gram

一句话来说就是，给定中心词，然后预测其周围的词：

在这里插入图片描述

02 模型结构

在这里插入图片描述

对于skip-gram来说，输入是一个[1 x V]维的ont-hot向量，其中V为词表大小，值为1的那一项就表示我们的中心词。
经过一个[V x N]的矩阵得到一个[1 x N]的向量，这个向量就是我们需要的词的embedding表示。
然后[1 x N]的向量经过一个[N x V]的矩阵得到一个[1 x V]的向量，这个向量的值就是中心词与词表中其他词的相似度，经过softmax就是中心词旁边周围词出现的概率。
优化目标：经过训练[V x N]和[N x V]这两个矩阵，使得最后目标词与周围词的出现概率最大，而与除了周围词以外的词概率最小（负采样，这里不详细展开了）。

03 直观理解skip-gram流程

这里的每一步，对应了 02 模型结构中的步骤。

这里我们举一个例子，一步步推导是怎么走的，这样更加直观：

以这句话为例：I love machine learning。

我们随机初始化两个矩阵：

[V x N]的矩阵为：
[0.1, 0.2]
[0.3, -0.2]
[0.5, 0.4]
[-0.1, 0.3]

其中，V为4，表示词表中有4个单词，N为2表示我们想讲词向量映射为2（这个N是超参数，可以自己设定）。

注意这里为了文章简洁，使用两个相同矩阵，只是转置了一下，真实情况中一般是随机初始化的（大概率不同）。

1. 输入[1 x V]向量

假设我们的目标词是love，那么输入向量就是[0, 1, 0, 0]。

2. 经过一个[V x N]的矩阵得到一个[1 x N]的向量

输入向量 x [V x N]的矩阵的直观理解就是：将词映射成embeding。

以所举例子所示，向量 x 矩阵的结果就是：

I      -> [0.1, 0.2]
love   -> [0.3, -0.2]
machine-> [0.5, 0.4]
learning -> [-0.1, 0.3]

也就是将love从ont-hot向量映射为[0.3, -0.2]这个embedding。

3. [1 x N]的向量经过一个[N x V]的矩阵得到一个[1 x V]的向量

这个过程即做预测，skip-gram的预测过程就是找出跟中心词最相近的词，向量表示最简单就是看向量乘积，越高说明越相似。

比如，如果想知道love和I、machine之间的相似度：

在这里插入图片描述

4. 优化目标

使用交叉熵损失函数，目标是最小化目标词与真实上下文词之间的预测误差（注意是真实上下文）。

对于该例子就是：

在这里插入图片描述

然后反向传播计算损失，不断优化两个矩阵，最后使得总损失最小，直观理解就是目标词与周围词的出现概率最大；

训练完成后的第一个矩阵的每一行，就对应着每个词的embedding表示；
训练完成后，在做预测时：给定一个词，想知道他的上下文词是谁，就看3. 的结果[1 x V]的向量值最大的n个元素，就对应最可能的n个上下文词。

【Word2Vec】Skip-gram 的直观理解（深入浅出）

01 什么是skip-gram 一句话来说就是，给定中心词，然后预测其周围的词： 02 模型结构对于skip-gram来说，输入是一个[1 x V]维的ont-hot向量，其中V为词表大小，值为1的那一项就表示我们的中心词。经过一个[V x…...

编程日记 2025/2/28 10:07:31

在MacOS上打造本地部署的大模型知识库（一）

一、在MacOS上安装Ollama docker run -d -p 3000:8080 --add-hosthost.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main 最后停掉Docker的ollama，就能在webui中加载llama模…...

编程日记 2025/2/28 10:06:29

（21）从strerror到strtok：解码C语言字符函数的“生存指南2”

❤个人主页：折枝寄北的博客 ❤专栏位置：简单入手C语言专栏目录前言1. 错误信息报告1.1 strerror 2. 字符操作2.1 字符分类函数2.2 字符转换函数 3. 内存操作函数3.1 memcpy3.2 memmove3.2memset3.3 memcmp 感谢您的阅读前言当你写下strcpy(dest, s…...

编程日记 2025/2/28 10:04:27

DeepSeek推出DeepEP：首个开源EP通信库，让MoE模型训练与推理起飞！

今天，DeepSeek 在继 FlashMLA 之后，推出了第二个 OpenSourceWeek 开源项目——DeepEP。作为首个专为MoE（Mixture-of-Experts）训练与推理设计的开源 EP 通信库，DeepEP 在EP（Expert Parallelism&#xff09…...

编程日记 2025/2/28 10:02:21

1.2 Kaggle大白话：Eedi竞赛Transformer框架解决方案02-GPT_4o生成训练集缺失数据

目录 0. 本栏目竞赛汇总表1. 本文主旨2. AI工程架构3. 数据预处理模块3.1 配置数据路径和处理参数3.2 配置API参数3.3 配置输出路径 4. AI并行处理模块4.1 定义LLM客户端类4.2 定义数据处理函数4.3 定义JSON保存函数4.4 定义数据分片函数4.5 定义分片处理函数4.5 定义文件名排序…...

编程日记 2025/2/28 9:59:14

数据结构-顺序表专题

大家好！这里是摆子，今天给大家带来的是C语言数据结构开端-顺序表专题，主要介绍了数据结构和动态顺序表的实现，快来看看吧！记得一键三连哦！ 1.数据结构的概念 1.1什么是数据结构？ 数据结构是计…...

编程日记 2025/2/28 9:54:05

docker和containerd从TLS harbor拉取镜像

私有镜像仓库配置了自签名证书，https访问，好处是不需要处理免费证书和付费证书带来的证书文件变更，证书文件变更后需要重启服务，自签名证书需要将一套客户端证书存放在/etc/docker/cert.d目录下，或者/etc/containerd/c…...

编程日记 2025/2/28 9:50:57

kafka-关于ISR-概述

一. 什么是ISR ？ Kafka 中通常每个分区都有多个副本，其中一个副本被选举为 Leader，其他副本为 Follower。ISR 是指与 Leader 副本保持同步的 Follower 副本集合。ISR 机制的核心是确保数据在多个副本之间的一致性和可靠性，同时在 …...

编程日记 2025/2/28 9:49:51

el-input实现金额输入

需求：想要实现一个输入金额的el-input，限制只能输入数字和一个小数点。失焦数字转千分位，聚焦转为数字，超过最大值，红字提示效果图失焦聚焦报错效果 // 组件limitDialog <template><el-dialog:visible.s…...

编程日记 2025/2/28 9:45:46

C++11智能指针

一、指针管理的困境资源释放了，但指针没有置空（野指针、指针悬挂、踩内存） 没有释放资源，产生内存泄漏问题；重复释放资源，引发coredump 二、智能指针...

编程日记 2025/2/28 9:44:44

安装Git（小白也会装）

一、官网下载：Git 1.依次点击（红框） 不要安装在C盘了，要炸了！！！ 后面都使用默认就好了，不用改，直接Next！ 直到这里，选第一个这两种选项的区别如…...

编程日记 2025/2/28 9:43:39

驭势科技9周年：怀揣理想，踏浪前行

2025年的2月，驭势科技迎来9岁生日。位于国内外不同工作地的Uiseeker齐聚线上线下，共同庆祝驭势走过的璀璨九年。驭势科技联合创始人、董事长兼CEO吴甘沙现场分享了驭势9年的奔赴之路，每一段故事都包含着坚持与拼搏。左右滑动查看更多 Part.…...

编程日记 2025/2/28 9:41:32

一款在手机上制作电子表格

今天给大家分享一款在手机上制作电子表格的，免费好用的Exce1表格软件，让工作变得更加简单。 1 软件介绍 Exce1是一款手机制作表格的办公软件，您可以使用手机exce1在线制作表格、工资表、编辑xlsx和xls表格文件等，还可以学习使用…...

编程日记 2025/2/28 9:35:24

Python解决“比赛配对”问题

Python解决“比赛配对”问题问题描述测试样例解决思路代码问题描述小R正在组织一个比赛，比赛中有 n 支队伍参赛。比赛遵循以下独特的赛制： 如果当前队伍数为偶数，那么每支队伍都会与另一支队伍配对。总共进行 n / 2 场比赛，…...

编程日记 2025/2/28 9:32:20

【AI论文】RAD: 通过大规模基于3D图形仿真器的强化学习训练端到端驾驶策略

摘要：现有的端到端自动驾驶（AD）算法通常遵循模仿学习（IL）范式，但面临着因果混淆和开环差距等挑战。在本研究中，我们建立了一种基于3D图形仿真器（3DGS）的闭环强化学习&…...

编程日记 2025/2/28 9:30:17

Web开发：ORM框架之使用Freesql的导航属性

一、什么时候用导航属性看数据库表的对应关系，一对多的时候用比较好，不用多写一个联表实体，而且查询高效二、为实体配置导航属性 1.给关系是一的父表实体加上： [FreeSql.DataAnnotations.Navigate(nameof(子表.子表关联字段))]…...

编程日记 2025/2/28 9:29:15

【docker】namespace底层机制

Linux 的 Namespace 机制是实现容器化（如 Docker、LXC 等）的核心技术之一，它通过隔离系统资源（如进程、网络、文件系统等）为进程提供独立的运行环境。其底层机制涉及内核数据结构、系统调用和进程管理。以下是其核心实…...

编程日记 2025/2/28 9:26:10

【每天认识一个漏洞】url重定向

🌝博客主页：菜鸟小羊 💖专栏：Linux探索之旅 | 网络安全的神秘世界 | 专接本 | 每天学会一个渗透测试工具常见应用场景主要是业务逻辑中需要进行跳转的地方。比如登录处、注册处、访问用户信息、订单信息、加入购物车、分享、收…...

编程日记 2025/2/28 9:25:09

端口映射/内网穿透方式及问题解决:warning: remote port forwarding failed for listen port

文章目录需求：A机器是内网机器，B机器是公网服务器，想要从公网，访问A机器的端口方式：端口映射，内网穿透，使用ssh打洞端口：遇到问题：命令执行成功，但是端口转发…...

编程日记 2025/2/28 9:24:07

Polardb开发者大会

这是第二次参加这个大会还有不少老朋友好多年没有这种经历了–大会讲的我不是很懂 10几年前参会，那时候自己不懂。后来就慢慢懂了。这些年参会都虽然还在不断学习，但是没觉得自己差距很大了。这次出来很不一样，一堆新的技能，这…...

编程日记 2025/2/28 9:23:05

iOS 26 携众系统重磅更新，但“苹果智能”仍与国行无缘

美国西海岸的夏天，再次被苹果点燃。一年一度的全球开发者大会 WWDC25 如期而至，这不仅是开发者的盛宴，更是全球数亿苹果用户翘首以盼的科技春晚。今年，苹果依旧为我们带来了全家桶式的系统更新，包括 iOS 26、iPadOS 26…...

编程新知 2026/2/6 10:39:49

Matlab | matlab常用命令总结

常用命令一、基础操作与环境二、矩阵与数组操作（核心）三、绘图与可视化四、编程与控制流五、符号计算 (Symbolic Math Toolbox)六、文件与数据 I/O七、常用函数类别重要提示这是一份 MATLAB 常用命令和功能的总结，涵盖了基础操作、矩阵运算、绘图、编程和文件处理等…...

编程新知 2025/8/11 1:05:59

【HTML-16】深入理解HTML中的块元素与行内元素

HTML元素根据其显示特性可以分为两大类：块元素(Block-level Elements)和行内元素(Inline Elements)。理解这两者的区别对于构建良好的网页布局至关重要。本文将全面解析这两种元素的特性、区别以及实际应用场景。 1. 块元素(Block-level Elements) 1.1 基本特性 …...

编程新知 2025/11/11 6:28:42

MySQL用户和授权

开放MySQL白名单可以通过iptables-save命令确认对应客户端ip是否可以访问MySQL服务： test: # iptables-save | grep 3306 -A mp_srv_whitelist -s 172.16.14.102/32 -p tcp -m tcp --dport 3306 -j ACCEPT -A mp_srv_whitelist -s 172.16.4.16/32 -p tcp -m tcp -…...

编程新知 2025/8/25 19:12:45

vulnyx Blogger writeup

信息收集 arp-scan nmap 获取userFlag 上web看看一个默认的页面，gobuster扫一下目录可以看到扫出的目录中得到了一个有价值的目录/wordpress，说明目标所使用的cms是wordpress，访问http://192.168.43.213/wordpress/然后查看源码能看到这…...

编程新知 2026/1/29 5:24:50

嵌入式常见 CPU 架构

架构类型架构厂商芯片厂商典型芯片特点与应用场景PICRISC (8/16 位)MicrochipMicrochipPIC16F877A、PIC18F4550简化指令集，单周期执行；低功耗、CIP 独立外设；用于家电、小电机控制、安防面板等嵌入式场景8051CISC (8 位)Intel（原始…...

编程新知 2025/6/10 21:24:01

Elastic 获得 AWS 教育 ISV 合作伙伴资质，进一步增强教育解决方案产品组合

作者：来自 Elastic Udayasimha Theepireddy (Uday), Brian Bergholm, Marianna Jonsdottir 通过搜索 AI 和云创新推动教育领域的数字化转型。我们非常高兴地宣布，Elastic 已获得 AWS 教育 ISV 合作伙伴资质。这一重要认证表明，Elastic 作为 …...

编程新知 2026/2/7 16:38:17