transformer学习笔记-导航
本系列专栏,主要是对transformer的基本原理做简要笔记,目前也是主要针对个人比较感兴趣的部分,包括:神经网络基本原理、词嵌入embedding、自注意力机制、多头注意力、位置编码、RoPE旋转位置编码等部分。transformer涉及的知识体系比较庞大,还有待持续深入。以下各部分的笔记,我尽可能通过图示和极简的代码DEMO说明,以加深对原理的理解。
主要内容
一、transformer学习笔记-神经网络原理
二、transformer学习笔记-词嵌入embedding原理
三、transformer学习笔记-自注意力机制(1)(原理部分)
四、transformer学习笔记-自注意力机制(2)(代码部分)
五、transformer学习笔记-位置编码
参考:
神经网络部分
深度!图解神经网络的数学原理
卷积神经网络(CNN)基础知识整理
什么是欠拟合和过拟合,以及如何避免
深度学习之神经网络的结构 Part 1 ver 2.0
深度学习之梯度下降法 Part 2 ver 0.9 beta
深度学习之反向传播算法 上/下 Part 3 ver 0.9 beta
词嵌入部分
Embedding技术的本质(图解)
没有思考过 Embedding,不足以谈 AI
https://blog.51cto.com/u_15671528/5929544
如何在7分钟内彻底搞懂word2vec
词嵌入、word2vec模型,如何将文字转化为数值
word2vec连续词袋模型CBOW详解
什么是词嵌入,Word Embedding算法
注意力部分
三种Transformer模型中的注意力机制介绍及Pytorch实现:从自注意力到因果自注意力
如何理解attention中的Q,K,V?
超详细图解Self-Attention
全方位解析Transformer模型:一文彻底掌握其架构、原理与应用精髓!
transformer中的attention为什么scaled?
从梯度最大化看Attention的Scale操作
为什么Attention计算公式中,QK的点积要除以根号d
直观解释注意力机制,Transformer的核心
白话transformer(二)_QKV矩阵
transformer的细节到底是怎么样的?Transformer 连环18问!
Attention is all you need
位置编码部分
图解Transformer系列一:Positional Encoding(位置编码)
transformer 中的 RoPE 位置编码
大模型系列:快速通俗理解Transformer旋转位置编码RoPE
RoPE原论文
十分钟读懂旋转编码(RoPE)
再论大模型位置编码及其外推性(万字长文)
【大模型理论篇】RoPE旋转位置编码底层数学原理分析
相关文章:
transformer学习笔记-导航
本系列专栏,主要是对transformer的基本原理做简要笔记,目前也是主要针对个人比较感兴趣的部分,包括:神经网络基本原理、词嵌入embedding、自注意力机制、多头注意力、位置编码、RoPE旋转位置编码等部分。transformer涉及的知识体系…...
功能篇:JAVA后端实现跨域配置
在Java后端实现跨域配置(CORS,Cross-Origin Resource Sharing)有多种方法,具体取决于你使用的框架。如果你使用的是Spring Boot或Spring MVC,可以通过以下几种方式来配置CORS。 ### 方法一:全局配置 对于所…...
防火墙内局域网特殊的Nginx基于stream模块进行四层协议转发模块的监听443 端口并将所有接收转发到目标服务器
在一些特殊场合下, 公司内部网络防火墙限制, 不能做端口映射, 此时可以使用nginx的做从四层协议转发, 只走tcp/ip协议, 而不走http方式, 可以做waf设置, 就可以做443, 或其它端口, 从而达到被直接转发到远程服务器效果 机房只映射了一个IP:22280, 而需求是这个SDK只能通过…...
【Hive】-- hive 3.1.3 伪分布式部署(单节点)
1、环境准备 1.1、版本选择 apache hive 3.1.3 apache hadoop 3.1.0 oracle jdk 1.8 mysql 8.0.15 操作系统:Mac os 10.151.2、软件下载 https://archive.apache.org/dist/hive/ https://archive.apache.org/dist/hadoop/ 1.3、解压 tar -zxvf apache-hive-4.0.0-bin.tar…...
C++ STL 队列queue详细使用教程
序言 我们平常写广搜什么,上来就是一句 queue<XXX> qu; 说明队列时很重要的。 STL库中的queue把队列的各种操作封装成一个类,非常方便,信奥中使用它也是很有优势的。 目录 一、队列的定义 二、创建队列对象 三、队列的初始化 四、常…...
【前端】JavaScript 中的 filter() 方法的理论与实践深度解析
博客主页: [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: 前端 文章目录 💯前言💯filter() 方法的概念与原理1. 什么是 filter()?2. 基本工作原理3. 方法特点4. 用法格式参数解析 💯代码案例详解示例:筛选有效数字并…...
【机器学习算法】——决策树之集成学习:Bagging、Adaboost、Xgboost、RandomForest、XGBoost
集成学习 **集成学习(Ensemble learning)**是机器学习中近年来的一大热门领域。其中的集成方法是用多种学习方法的组合来获取比原方法更优的结果。 使用于组合的算法是弱学习算法,即分类正确率仅比随机猜测略高的学习算法,但是组合之后的效果仍可能高于…...
JVM运行时数据区内部结构
VM内部结构 对于jvm来说他的内部结构主要分成三个部分,分别是类加载阶段,运行时数据区,以及垃圾回收区域,类加载我们放到之后来总结,今天先复习一下类运行区域 首先这个区域主要是分成如下几个部分 下面举个例子来解释…...
Navicat for MySQL 查主键、表字段类型、索引
针对Navicat 版本11 ,不同版本查询方式可能不同 1、主键查询 (重点找DDL!!!) 方法(1) :右键 - 对象信息 - 选择要查的表 - DDL - PRIMARY KEY 方法(2&…...
如何在谷歌浏览器中实现自定义主题
在数字化时代,个性化设置已成为提升用户体验的重要一环。对于广泛使用的谷歌浏览器而言,改变默认的浏览器主题不仅能够美化界面,还能在一定程度上提升使用效率和愉悦感。本文将详细介绍如何在谷歌浏览器中实现自定义主题,包括从官…...
visual studio 2022 c++使用教程
介绍 c开发windows一般都是visual studio,linux一般是vscode,但vscode调试c不方便,所以很多情况都是2套代码,在windows上用vs开发方便,在转到linux。 安装 1、官网下载vs2022企业版–选择桌面开发–安装位置–安装–…...
曝光三要素
一光圈 光圈越大,数值越小,画面越亮,背景越模糊 光圈越小,数值越大,画面越暗,背景越清晰 二 快门 快门最主要的作用是控制曝光时间的长短 快门速度的单位是秒,一般用 1秒,1/8秒&am…...
01-2 :PyCharm安装配置教程(图文结合-超详细)
一、PyCharm安装 PyCharm集成开发工具(IDE),是当下全球Python开发者,使用最频繁的工具软件。 绝大多数的Python程序,都是在PyCharm工具内完成的开发。 本篇文章基于PyCharm软件工具进行描述,教你如何安装…...
类OCSP靶场-Kioptrix系列-Kioptrix Level 1
一、前情提要 二、实战打靶 1. 信息收集 1.1. 主机发现 1.2. 端口扫描 1.3 目录爆破 1.4. 敏感信息 2.根据服务搜索漏洞 2.1. 搜索exp 2.2. 编译exp 2.3. 查看exp使用方法,并利用 3. 提权 二、第二种方法 一、前情提要 Kioptrix Level是免费靶场&#x…...
Maven插件打包发布远程Docker镜像
dockerfile-maven-plugin插件的介绍 dockerfile-maven-plugin目前这款插件非常成熟,它集成了Maven和Docker,该插件的官方文档地址如下: 地址:https://github.com/spotify/dockerfile-maven 其他说明: dockerfile是用…...
VisualStudio vsix插件自动加载
本文介绍如何在Visual Studio扩展中实现PackageRegistration,包括设置UseManagedResourcesOnly为true,允许背景加载,并针对C#、VB、F#项目提供自动装载,附官方文档链接。增加以下特性即可…… [PackageRegistration(UseManagedRe…...
Codesoft许可管理
在数字化时代,软件许可管理对于确保企业资产安全、优化成本和提高工作效率至关重要。Codesoft作为一款功能强大的标签设计软件,其许可管理功能同样出色。本文将为您介绍如何进行Codesoft的许可管理,确保您的软件投资得到最大回报。 一、了解…...
Unity3D 3D模型/动画数据压缩详解
前言 在Unity3D项目中,3D模型和动画数据通常占用大量内存和存储空间,有效的数据压缩技术对于提升游戏性能和加载速度至关重要。本文将详细介绍Unity3D中3D模型和动画数据的压缩技术,并提供相关的代码实现。 对惹,这里有一个游戏…...
ffmpeg和ffplay命令行实战手册
文章目录 视频拼接用concat视频分段拼接(ffplay 不可调用seek函数进行seek)给视频添加黑边,让视频填充并居中显示不同分辨率视频分段拼接,并且,设置单个视频的缩放比例和摆放位置视频画中画复杂嵌套用overlay(ffplay 可调用seek函数进行seek)…...
基于MobileNet v2模型的口罩实时检测系统实现
基于kaggle数据集训练的模型其实现结果如下: 代码结构如下: 实时口罩检测器: 从导航栏中的链接“实时的口罩检测器”功能,该系统包含一个实时检测用户是否佩戴口罩的功能。基于图片的口罩检测器: 从另一个导航链接“基…...
基于ES32F0101的无传感器方波控制BLDC驱动方案设计与实践
1. 项目概述:从家庭草坪维护痛点出发家里有块小草坪的朋友,估计都经历过手动修剪的“痛苦”。蹲着、弯着,用剪刀或者手动推草机,折腾半天不仅腰酸背痛,剪出来的草坪还跟狗啃似的,高高低低,毫无美…...
【习题01】喝汽水问题
题目:喝汽水,1瓶汽水1元,2个空瓶可以换一瓶汽水,给20元,可以喝多少汽水(编程实现)。 1、题目解析: 通过分析,我们可以得到以下流程图:20元钱,&…...
CANN/asc-devkit Erfc接口文档
Erfc 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。 项目地址: https://gitcode.com/cann/…...
告别手动挖洞:用Netsparker自动化扫描你的Web应用(附实战报告解读)
告别手动挖洞:用Netsparker自动化扫描你的Web应用(附实战报告解读) 在快节奏的Web开发环境中,安全测试往往成为项目后期被压缩的环节。传统手动渗透测试需要安全专家投入数十小时,而中小团队常面临资源不足的困境。Net…...
终极指南:do-mpc模型预测控制工具箱 - 5步实现工业级控制系统
终极指南:do-mpc模型预测控制工具箱 - 5步实现工业级控制系统 【免费下载链接】do-mpc Model predictive control python toolbox 项目地址: https://gitcode.com/gh_mirrors/do/do-mpc 模型预测控制(Model Predictive Control, MPC)是…...
51单片机电子秤的语音播报怎么选?JQ8400模块 vs OTP芯片,实测成本与易用性对比
51单片机电子秤语音方案实战选型:JQ8400模块与OTP芯片的深度拆解 在智能硬件开发中,语音交互功能正从锦上添花的附加项逐渐变为核心用户体验的关键组成部分。以51单片机电子秤为例,语音播报功能不仅能提升产品的无障碍使用体验,还…...
别再到处找安装包了!手把手教你从官网下载并配置Paraview 5.11.0(Windows/Linux/MacOS全平台)
科学可视化利器Paraview全平台安装指南:从官网下载到环境配置 第一次接触科学可视化工具的新手们,往往会在安装环节就遭遇重重阻碍——官网入口难寻、版本选择困难、系统兼容性问题频发。作为一款功能强大的跨平台开源工具,Paraview的安装过程…...
边缘网络:构建边缘计算的网络基础设施
边缘网络:构建边缘计算的网络基础设施 一、边缘网络概述 1.1 边缘网络的定义 边缘网络是指部署在网络边缘的网络基础设施,它将计算、存储和网络资源扩展到离用户更近的位置。边缘网络支持低延迟数据处理、实时响应和分布式计算,是边缘计算的关…...
openLCA 2.6.2 完整安装与使用指南:免费开源的生命周期评估解决方案
openLCA 2.6.2 完整安装与使用指南:免费开源的生命周期评估解决方案 【免费下载链接】olca-app Source code of openLCA 项目地址: https://gitcode.com/gh_mirrors/ol/olca-app openLCA 是一款功能强大的开源生命周期评估软件,专门用于产品从原材…...
20+终极Obsidian模板:简单快速构建你的卡片盒笔记系统
20终极Obsidian模板:简单快速构建你的卡片盒笔记系统 【免费下载链接】Obsidian-Templates A repository containing templates and scripts for #Obsidian to support the #Zettelkasten method for note-taking. 项目地址: https://gitcode.com/gh_mirrors/ob/O…...
