Token Embedding(词嵌入)和Positional Encoding(位置编码)的矩阵形状关系及转换过程
在从零开始构建一个小型字符级语言模型时,简化的实现步骤是:数据准备→模型架构设计→训练→评估与生成。模型架构设计阶段的流程如下:

图1 模型架构设计阶段的流程
包含了输入层、嵌入层、解码器层和输出层。其中在嵌入层中包括了Token Embedding(词嵌入)和Positional Encoding(位置编码),那么这两个矩阵具体是如何实现的,以及它们之间有什么关系呢?
在Transformer模型中,Token Embedding(词嵌入)和Positional Encoding(位置编码)的矩阵形状关系及转换过程如下:
本文的前置基础,Windows安装Hugging Face Transformers库,看我的文章:Windows安装Hugging Face Transformers库并实现案例训练的详细教程_ktransformers本地windows安装部署-CSDN博客
从零开始构建一个小型字符级语言模型的详细教程(基于Transformer架构)之一数据准备-CSDN博客
一、矩阵形状的对应关系
1.Token Embedding矩阵
形状: (vocab_size=50, d_model=128)
作用: 将字符索引(0~49)映射到128维语义向量空间
示例:字符'h'(索引0)→ 向量[0.2, -1.3, ..., 0.7](128维)
这里是原始文本提取出来的唯一字符编码成词汇表,再将词汇表中的字符映射到128维语义向量空间。示意图如下:

图2 将所有唯一字符转换为向量表示
2. Positional Encoding矩阵
形状: (block_size=64, d_model=128)
相关文章:
Token Embedding(词嵌入)和Positional Encoding(位置编码)的矩阵形状关系及转换过程
在从零开始构建一个小型字符级语言模型时,简化的实现步骤是:数据准备→模型架构设计→训练→评估与生成。模型架构设计阶段的流程如下: 图1 模型架构设计阶段的流程 包含了输入层、嵌入层、解码器层和输出层。其中在嵌入层中包括了Token Embedding(词嵌入)和Positional En…...
多个用户如何共用一根网线传输数据
前置知识 一、电信号 网线(如以太网线)中传输的信号主要是 电信号,它携带着数字信息。这些信号用于在计算机和其他网络设备之间传输数据。下面是一些关于网线传输信号的详细信息: 1. 电信号传输 在以太网中,数据是…...
U-Net 与深度学习的完美结合:图像分割的高效解决方案
1. 引言:U-Net背景及应用 1.1 U-Net的起源与发展 U-Net 是由 Olaf Ronneberger 和他的团队于2015年提出的卷积神经网络(CNN)架构。最初的设计目的是解决医学图像分割中的挑战,尤其是在有限的训练数据下如何实现准确的分割。 在…...
nginx ngx_http_module(9) 指令详解
nginx ngx_http_module(9) 指令详解 nginx 模块目录 nginx 全指令目录 一、目录 1.1 模块简介 ngx_http_uwsgi_module:uWSGI支持模块,允许Nginx与uWSGI服务器进行通信。uWSGI是一种应用服务器协议,广泛用于Python Web应用的部署。通过该…...
【从0做项目】Java搜索引擎(4)——性能优化~烧脑~~~
本篇文章将对项目搜索引擎(1)~(3)进行性能优化,包括测试,优化思路,优化前后对比 目录 一:文件读取 二:实现多线程制作索引 1:代码分析 2:代码…...
【HarmonyOS Next】鸿蒙应用进程和线程详解
【HarmonyOS Next】鸿蒙应用进程和线程详解 一、前言 进程的定义: 进程是系统进行资源分配的基本单位,是操作系统结构的基础。 在鸿蒙系统中,一个应用下会有三类进程: (1) 主进程, (2) ExtensionAbility进程ÿ…...
【前端ES】ECMAScript 2023 (ES14) 引入了多个新特性,简单介绍几个不为人知但却好用的方法
Array.prototype.toSorted() 返回一个新的已排序数组副本,不改变原数组。 let arr [5, 4, 2, 3, 1]; console.log(arr.toSorted()); // [1, 2, 3, 4, 5]Array.prototype.with() 允许根据索引修改数组中的单个元素,并返回新数组。 const arr ["…...
【EndNote】WPS 导入EndNote 21
写在前面:有没有人有激活码,跪求! EndNote,在文献管理和文献引用方面很好用。写文章的时候,使用EndNote引入需要的文献会很方便。我目前用的WPS,想把EndNote的CWYW(Cite While You Write&#…...
网上购物|基于SprinBoot+vue的网上购物系统(源码+数据库+文档)
网上购物系统目录 基于SprinBootvue的网上购物 一、前言 二、系统设计 三、系统功能设计 5.1 管理员功能实现 5.1.1 论坛管理 5.1.2 商品管理 5.1.3 商品评价管理 5.1.4 商品订单管理 5.2 用户功能实现 5.2.1 商品信息 5.2.2 确认下单 5.2.3 商品订单 5.2.4 购物…...
AI 语言模型发展史:统计方法、RNN 与 Transformer 的技术演进
引言 自然语言处理(NLP)是 AI 领域的重要分支,而语言模型(Language Model, LM)是 NLP 的核心技术。语言模型经历了从 统计方法 到 RNN(循环神经网络),再到 Transformer 的演进&…...
Pycharm中查找与替换
1、Edit -> Find -> Find 在当前文件中查找 2、Edit -> Find -> Find in Files 在所有文件中查找 3、Edit -> Find -> Replace 在当前文件中执行替换 4、Edit -> Find -> Replace in Files 在所有文件中执行替换...
有向图的强连通分量: Kosaraju算法和Tarjan算法详解
在上一篇文章中, 我们了解了图的最小生成树算法. 本节我们来学习 图的强连通分量(Strongly Connected Component, SCC) 算法. 什么是强连通分量? 在 有向图 中, 若一组节点内的任意两个节点都能通过路径互相到达(例如 A → B A \rightarrow B A→B 且 B → A B \rightarro…...
mac相关命令
显示和隐藏usr等隐藏文件文件 terminal输入: defaults write com.apple.Finder AppleShowAllFiles YESdefaults write com.apple.Finder AppleShowAllFiles NO让.bashrc每次启动shell自动生效 编辑vim ~/.bash_profile 文件, 加上 if [ -f ~/.bashrc ]; then. ~/.bashrc fi注…...
代码随想录算法训练营第六天| 242.有效的字母异位词 、349. 两个数组的交集、202. 快乐数 、1. 两数之和
242.有效的字母异位词 题目链接:242.有效的字母异位词 文档讲解:代码随想录有效的字母异位词 视频讲解:LeetCode:有效的字母异位词 状态:学会了 思路: 数组其实是简单哈希表。 哈希表用来快速判断元素是否在…...
dify实现分析-rag-关键词索引的实现
概述 在dify中有两种构建索引的方式,一种是经济型,另一种是高质量索引(通过向量数据库来实现)。其中经济型就是关键词索引,通过构建关键词索引来定位查询的文本块,而关键词索引的构建是通过Jieba这个库来完…...
【小白学HTML5】一文讲清常用单位(px、em、rem、%、vw、vh)
html5中,常用的单位有px、em、rem、%、vw、vh(不常用)、cm、m等,这里主要讲解px、em、rem、%、vw。 学习了解:主流浏览器默认的字号:font-size:16px,无论用什么单位,浏览器最终计算…...
Fastgpt学习(5)- FastGPT 私有化部署问题解决
1.☺ 问题描述: Windows系统,本地私有化部署,postgresql数据库镜像日志持续报错" data directory “/var/lib/postgresql/data” has invalid permissions ",“ DETAIL: Permissions should be urwx (0700) or urwx,gr…...
ubuntu下安装TFTP服务器
在 Ubuntu 系统下安装和配置 TFTP(Trivial File Transfer Protocol)服务器可以按照以下步骤进行: 1. 安装 TFTP 服务器软件包 TFTP 服务器通常使用 tftpd-hpa 软件包,你可以使用以下命令进行安装: sudo apt update …...
深入解析 iText 7:从 PDF 文档中提取文本和图像
在现代开发中,PDF 文件的操作是不可避免的一部分。无论是生成报告、解析文档,还是从文件中提取信息,我们常常需要处理 PDF 文件。iText 是一个非常强大的库,广泛应用于 PDF 文件的创建、修改和解析。自 iText 7 发布以来ÿ…...
Rust编程语言入门教程 (六)变量与可变性
Rust 系列 🎀Rust编程语言入门教程(一)安装Rust🚪 🎀Rust编程语言入门教程(二)hello_world🚪 🎀Rust编程语言入门教程(三) Hello Cargo…...
表格数据TTA技术:用scikit-learn提升模型稳定性
## 1. 项目概述在机器学习竞赛和实际业务场景中,表格数据(Tabular Data)的处理一直是个既基础又关键的环节。最近我在一个金融风控项目中尝试了Test-Time Augmentation(TTA)技术,意外发现模型AUC提升了1.8%…...
解放双手!用游戏手柄控制Windows电脑的终极懒人方案
解放双手!用游戏手柄控制Windows电脑的终极懒人方案 【免费下载链接】Gopher360 Gopher360 is a free zero-config app that instantly turns your Xbox 360, Xbox One, or even DualShock controller into a mouse and keyboard. Just download, run, and relax. …...
Python + Rust混合编程实战:用PyO3重构核心Order Matching模块,吞吐提升3.8倍,延迟降低67%(附GitHub可运行代码)
更多请点击: https://intelliparadigm.com 第一章:Python 金融量化高频交易引擎 Python 凭借其丰富的生态与低门槛的开发体验,已成为构建金融量化高频交易引擎的核心语言之一。在毫秒级响应、订单簿实时解析与低延迟执行等关键场景中&#x…...
AI Agent如何通过MCP协议连接杠杆预测市场:Dimes Multiply工具详解
1. 项目概述:当AI遇上杠杆预测市场最近在捣鼓AI Agent的生态工具,发现了一个挺有意思的东西:dimes-fi/multiply-mcp。简单来说,这是一个MCP服务器,能让Claude这类AI助手直接接入Dimes Multiply协议,去查询、…...
SM2证书链验证失败?SM3摘要跨平台不一致?——Python国密工程化中那3个没有文档记载的ASN.1 DER编码陷阱
更多请点击: https://intelliparadigm.com 第一章:SM2/SM3国密算法工程化落地的现实困境 在金融、政务及关键基础设施领域,SM2(椭圆曲线公钥密码算法)与SM3(密码杂凑算法)已成强制合规要求&…...
HoVer-Net:如何用AI实现病理切片中的细胞核精准分割与分类?
HoVer-Net:如何用AI实现病理切片中的细胞核精准分割与分类? 【免费下载链接】hover_net Simultaneous Nuclear Instance Segmentation and Classification in H&E Histology Images. 项目地址: https://gitcode.com/gh_mirrors/ho/hover_net …...
从‘地址荒’到‘路由瘦身’:CIDR如何成为互联网的隐形管家?
从‘地址荒’到‘路由瘦身’:CIDR如何成为互联网的隐形管家? 1993年的互联网正面临一场无声的危机。当时的路由器每秒需要处理超过5万条路由条目,全球BGP路由表以每年40%的速度膨胀。与此同时,IP地址分配效率低下导致可用地址以惊…...
LLM学术反驳技术:DRPG框架解析与应用实践
1. LLM在学术反驳场景中的技术实现路径大型语言模型在学术论文反驳场景的应用,本质上是一个多阶段的认知任务分解过程。DRPG(Decompose-Retrieve-Plan-Generate)框架的创新性在于将复杂的反驳撰写任务拆解为可管理的子任务链。这种设计源于对…...
2025届学术党必备的五大AI科研工具解析与推荐
Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 已然广泛应用于学术写作范畴的人工智能技术,给毕业论文的撰写供给了高效的辅助工…...
农业IoT设备批量失效真相:3类未声明的硬件依赖让C驱动在国产MCU上静默崩溃(附GCC编译器级修复补丁)
更多请点击: https://intelliparadigm.com 第一章:农业IoT设备批量失效的现场现象与系统级归因 在华北某智慧农场集群中,部署于温棚与大田的 327 台土壤墒情传感器、气象微站及自动灌溉控制器于连续 48 小时内集中离线,平台显示“…...
