当前位置: 首页 > news >正文

transformer学习笔记-导航

本系列专栏,主要是对transformer的基本原理做简要笔记,目前也是主要针对个人比较感兴趣的部分,包括:神经网络基本原理、词嵌入embedding、自注意力机制、多头注意力、位置编码、RoPE旋转位置编码等部分。transformer涉及的知识体系比较庞大,还有待持续深入。以下各部分的笔记,我尽可能通过图示和极简的代码DEMO说明,以加深对原理的理解。

主要内容

一、transformer学习笔记-神经网络原理
二、transformer学习笔记-词嵌入embedding原理
三、transformer学习笔记-自注意力机制(1)(原理部分)
四、transformer学习笔记-自注意力机制(2)(代码部分)
五、transformer学习笔记-位置编码











参考:

神经网络部分
深度!图解神经网络的数学原理
卷积神经网络(CNN)基础知识整理
什么是欠拟合和过拟合,以及如何避免
深度学习之神经网络的结构 Part 1 ver 2.0
深度学习之梯度下降法 Part 2 ver 0.9 beta
深度学习之反向传播算法 上/下 Part 3 ver 0.9 beta

词嵌入部分
Embedding技术的本质(图解)
没有思考过 Embedding,不足以谈 AI
https://blog.51cto.com/u_15671528/5929544
如何在7分钟内彻底搞懂word2vec
词嵌入、word2vec模型,如何将文字转化为数值
word2vec连续词袋模型CBOW详解
什么是词嵌入,Word Embedding算法

注意力部分
三种Transformer模型中的注意力机制介绍及Pytorch实现:从自注意力到因果自注意力
如何理解attention中的Q,K,V?
超详细图解Self-Attention
全方位解析Transformer模型:一文彻底掌握其架构、原理与应用精髓!
transformer中的attention为什么scaled?
从梯度最大化看Attention的Scale操作
为什么Attention计算公式中,QK的点积要除以根号d
直观解释注意力机制,Transformer的核心
白话transformer(二)_QKV矩阵
transformer的细节到底是怎么样的?Transformer 连环18问!
Attention is all you need

位置编码部分
图解Transformer系列一:Positional Encoding(位置编码)
transformer 中的 RoPE 位置编码
大模型系列:快速通俗理解Transformer旋转位置编码RoPE
RoPE原论文
十分钟读懂旋转编码(RoPE)
再论大模型位置编码及其外推性(万字长文)
【大模型理论篇】RoPE旋转位置编码底层数学原理分析

相关文章:

transformer学习笔记-导航

本系列专栏,主要是对transformer的基本原理做简要笔记,目前也是主要针对个人比较感兴趣的部分,包括:神经网络基本原理、词嵌入embedding、自注意力机制、多头注意力、位置编码、RoPE旋转位置编码等部分。transformer涉及的知识体系…...

功能篇:JAVA后端实现跨域配置

在Java后端实现跨域配置(CORS,Cross-Origin Resource Sharing)有多种方法,具体取决于你使用的框架。如果你使用的是Spring Boot或Spring MVC,可以通过以下几种方式来配置CORS。 ### 方法一:全局配置 对于所…...

防火墙内局域网特殊的Nginx基于stream模块进行四层协议转发模块的监听443 端口并将所有接收转发到目标服务器

在一些特殊场合下, 公司内部网络防火墙限制, 不能做端口映射, 此时可以使用nginx的做从四层协议转发, 只走tcp/ip协议, 而不走http方式, 可以做waf设置, 就可以做443, 或其它端口, 从而达到被直接转发到远程服务器效果 机房只映射了一个IP:22280, 而需求是这个SDK只能通过…...

【Hive】-- hive 3.1.3 伪分布式部署(单节点)

1、环境准备 1.1、版本选择 apache hive 3.1.3 apache hadoop 3.1.0 oracle jdk 1.8 mysql 8.0.15 操作系统:Mac os 10.151.2、软件下载 https://archive.apache.org/dist/hive/ https://archive.apache.org/dist/hadoop/ 1.3、解压 tar -zxvf apache-hive-4.0.0-bin.tar…...

C++ STL 队列queue详细使用教程

序言 我们平常写广搜什么&#xff0c;上来就是一句 queue<XXX> qu; 说明队列时很重要的。 STL库中的queue把队列的各种操作封装成一个类&#xff0c;非常方便&#xff0c;信奥中使用它也是很有优势的。 目录 一、队列的定义 二、创建队列对象 三、队列的初始化 四、常…...

【前端】JavaScript 中的 filter() 方法的理论与实践深度解析

博客主页&#xff1a; [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: 前端 文章目录 &#x1f4af;前言&#x1f4af;filter() 方法的概念与原理1. 什么是 filter()&#xff1f;2. 基本工作原理3. 方法特点4. 用法格式参数解析 &#x1f4af;代码案例详解示例&#xff1a;筛选有效数字并…...

【机器学习算法】——决策树之集成学习:Bagging、Adaboost、Xgboost、RandomForest、XGBoost

集成学习 **集成学习(Ensemble learning)**是机器学习中近年来的一大热门领域。其中的集成方法是用多种学习方法的组合来获取比原方法更优的结果。 使用于组合的算法是弱学习算法&#xff0c;即分类正确率仅比随机猜测略高的学习算法&#xff0c;但是组合之后的效果仍可能高于…...

JVM运行时数据区内部结构

VM内部结构 对于jvm来说他的内部结构主要分成三个部分&#xff0c;分别是类加载阶段&#xff0c;运行时数据区&#xff0c;以及垃圾回收区域&#xff0c;类加载我们放到之后来总结&#xff0c;今天先复习一下类运行区域 首先这个区域主要是分成如下几个部分 下面举个例子来解释…...

Navicat for MySQL 查主键、表字段类型、索引

针对Navicat 版本11 &#xff0c;不同版本查询方式可能不同 1、主键查询 &#xff08;重点找DDL&#xff01;&#xff01;&#xff01;&#xff09; 方法&#xff08;1&#xff09; &#xff1a;右键 - 对象信息 - 选择要查的表 - DDL - PRIMARY KEY 方法&#xff08;2&…...

如何在谷歌浏览器中实现自定义主题

在数字化时代&#xff0c;个性化设置已成为提升用户体验的重要一环。对于广泛使用的谷歌浏览器而言&#xff0c;改变默认的浏览器主题不仅能够美化界面&#xff0c;还能在一定程度上提升使用效率和愉悦感。本文将详细介绍如何在谷歌浏览器中实现自定义主题&#xff0c;包括从官…...

visual studio 2022 c++使用教程

介绍 c开发windows一般都是visual studio&#xff0c;linux一般是vscode&#xff0c;但vscode调试c不方便&#xff0c;所以很多情况都是2套代码&#xff0c;在windows上用vs开发方便&#xff0c;在转到linux。 安装 1、官网下载vs2022企业版–选择桌面开发–安装位置–安装–…...

曝光三要素

一光圈 光圈越大&#xff0c;数值越小&#xff0c;画面越亮&#xff0c;背景越模糊 光圈越小&#xff0c;数值越大&#xff0c;画面越暗&#xff0c;背景越清晰 二 快门 快门最主要的作用是控制曝光时间的长短 快门速度的单位是秒&#xff0c;一般用 1秒&#xff0c;1/8秒&am…...

01-2 :PyCharm安装配置教程(图文结合-超详细)

一、PyCharm安装 PyCharm集成开发工具&#xff08;IDE&#xff09;&#xff0c;是当下全球Python开发者&#xff0c;使用最频繁的工具软件。 绝大多数的Python程序&#xff0c;都是在PyCharm工具内完成的开发。 本篇文章基于PyCharm软件工具进行描述&#xff0c;教你如何安装…...

类OCSP靶场-Kioptrix系列-Kioptrix Level 1

一、前情提要 二、实战打靶 1. 信息收集 1.1. 主机发现 1.2. 端口扫描 1.3 目录爆破 1.4. 敏感信息 2.根据服务搜索漏洞 2.1. 搜索exp 2.2. 编译exp 2.3. 查看exp使用方法&#xff0c;并利用 3. 提权 二、第二种方法 一、前情提要 Kioptrix Level是免费靶场&#x…...

Maven插件打包发布远程Docker镜像

dockerfile-maven-plugin插件的介绍 dockerfile-maven-plugin目前这款插件非常成熟&#xff0c;它集成了Maven和Docker&#xff0c;该插件的官方文档地址如下&#xff1a; 地址&#xff1a;https://github.com/spotify/dockerfile-maven 其他说明&#xff1a; dockerfile是用…...

VisualStudio vsix插件自动加载

本文介绍如何在Visual Studio扩展中实现PackageRegistration&#xff0c;包括设置UseManagedResourcesOnly为true&#xff0c;允许背景加载&#xff0c;并针对C#、VB、F#项目提供自动装载&#xff0c;附官方文档链接。增加以下特性即可…… [PackageRegistration(UseManagedRe…...

Codesoft许可管理

在数字化时代&#xff0c;软件许可管理对于确保企业资产安全、优化成本和提高工作效率至关重要。Codesoft作为一款功能强大的标签设计软件&#xff0c;其许可管理功能同样出色。本文将为您介绍如何进行Codesoft的许可管理&#xff0c;确保您的软件投资得到最大回报。 一、了解…...

Unity3D 3D模型/动画数据压缩详解

前言 在Unity3D项目中&#xff0c;3D模型和动画数据通常占用大量内存和存储空间&#xff0c;有效的数据压缩技术对于提升游戏性能和加载速度至关重要。本文将详细介绍Unity3D中3D模型和动画数据的压缩技术&#xff0c;并提供相关的代码实现。 对惹&#xff0c;这里有一个游戏…...

ffmpeg和ffplay命令行实战手册

文章目录 视频拼接用concat视频分段拼接(ffplay 不可调用seek函数进行seek)给视频添加黑边&#xff0c;让视频填充并居中显示不同分辨率视频分段拼接&#xff0c;并且&#xff0c;设置单个视频的缩放比例和摆放位置视频画中画复杂嵌套用overlay(ffplay 可调用seek函数进行seek)…...

基于MobileNet v2模型的口罩实时检测系统实现

基于kaggle数据集训练的模型其实现结果如下&#xff1a; 代码结构如下&#xff1a; 实时口罩检测器&#xff1a; 从导航栏中的链接“实时的口罩检测器”功能&#xff0c;该系统包含一个实时检测用户是否佩戴口罩的功能。基于图片的口罩检测器&#xff1a; 从另一个导航链接“基…...

别再重装系统了!用GParted给Ubuntu 20.04根目录无损扩容(Win11+Ubuntu双系统适用)

双系统用户必备&#xff1a;Ubuntu根目录无损扩容实战指南 1. 当根目录空间告急时 作为一名长期使用Win11Ubuntu双系统的开发者&#xff0c;我深刻理解那种看着根目录空间一点点被蚕食的焦虑。特别是进行深度学习训练或大型项目编译时&#xff0c;几十GB的空间转眼间就被占满。…...

Mojo调用PyTorch模型推理却遭遇内存泄漏?——国家级实验室验证的4层内存隔离架构首次公开

第一章&#xff1a;Mojo调用PyTorch模型推理却遭遇内存泄漏&#xff1f;——国家级实验室验证的4层内存隔离架构首次公开在高性能AI边缘部署场景中&#xff0c;Mojo语言通过其零开销FFI机制调用PyTorch C前端&#xff08;LibTorch&#xff09;实现低延迟推理&#xff0c;但实测…...

Exchange邮件批量删除工具有了网络版了

原有的<<Exchange邮件批量删除工具>>单机版现在已经更新为BS架构网络版&#xff0c;这样只要有网络就可以使用此系统了&#xff0c;方便随时应急。产品也启用了新名称为&#xff1a;MIRS邮件应急响应系统。此系统在几个有大型Exchange server部署的客户处使用效果很…...

LCC-HVDC系统中交流滤波器的选型实战:从理论到工程落地

LCC-HVDC系统中交流滤波器的选型实战&#xff1a;从理论到工程落地 在特高压直流输电工程中&#xff0c;交流滤波器如同电力系统的"净化器"&#xff0c;其选型直接关系到电网谐波抑制效果与系统运行经济性。某800kV换流站曾因滤波器选型不当导致年度损耗增加1200万元…...

别再为联合仿真头疼了!手把手教你用Amesim 2019和Matlab 2022b配置S-Function(Win10环境)

从零搭建Amesim与Matlab联合仿真环境&#xff1a;避坑指南与实战技巧 联合仿真技术已成为多物理场系统设计的黄金标准&#xff0c;但配置过程却让无数工程师在深夜的办公室里抓狂——编译器版本冲突、环境变量设置错误、接口编译失败&#xff0c;每一个环节都可能成为项目进度的…...

Java继承详解:从基础到实战,吃透面向对象核心特性

哈喽&#xff0c;各位Java学习者&#xff01;今天咱们深入拆解面向对象编程&#xff08;OOP&#xff09;的三大核心特性之一——继承。作为Java开发的基础重点&#xff0c;继承不仅能帮我们实现代码复用、简化开发&#xff0c;更是后续理解多态、抽象类、接口的关键前提。不管你…...

像素冒险工坊初体验:维度裂变器真实使用报告,文字创作从未如此有趣

像素冒险工坊初体验&#xff1a;维度裂变器真实使用报告&#xff0c;文字创作从未如此有趣 1. 走进像素冒险工坊 当我第一次打开像素语言维度裂变器时&#xff0c;仿佛穿越回了16-bit游戏黄金年代。这款基于MT5-Zero-Shot-Augment核心引擎构建的文本增强工具&#xff0c;彻底…...

Phi-4-mini-reasoning开发者调试手册:Chainlit后端日志定位、错误堆栈分析

Phi-4-mini-reasoning开发者调试手册&#xff1a;Chainlit后端日志定位、错误堆栈分析 1. 模型简介与部署验证 Phi-4-mini-reasoning 是一个基于合成数据构建的轻量级开源模型&#xff0c;专注于高质量、密集推理的数据&#xff0c;并进一步微调以提高更高级的数学推理能力。…...

4月底就要交论文,现在开始降AI率来得及吗?完整应急方案

4月底就要交论文&#xff0c;现在开始降AI率来得及吗&#xff1f;完整应急方案 今天是4月1日。 如果你的论文要在4月底提交&#xff0c;现在翻出来一查&#xff0c;AI率50%&#xff0c;或者知网标红一片——你可能已经开始冒冷汗了。 先别慌。来得及&#xff0c;但要马上开始&a…...

intv_ai_mk11详细步骤:24GB单卡部署Llama模型并启用Web UI全流程

24GB单卡部署Llama模型并启用Web UI全流程指南 1. 环境准备与快速部署 在开始部署intv_ai_mk11模型前&#xff0c;我们需要确保硬件和软件环境满足基本要求。这个中等规模的Llama架构模型可以在单张24GB显存的GPU上流畅运行&#xff0c;非常适合个人开发者和小型团队使用。 …...