学渣适用版——Transformer理论和代码以及注意力机制attention的学习
参考一篇玩具级别不错的代码和案例
自注意力机制
注意力机制是为了transform打基础。
参考这个自注意力机制的讲解流程很详细,
但是学渣一般不知道 key,query,value是啥。
结合B站和GPT理解

注意力机制是一种常见的神经网络结构,用于处理序列数据或者其他类型的数据,其中的关键术语包括 key,query 和 value。
Key(键)是一个向量,用于表示输入数据中的某个特征,通常是通过矩阵乘法和非线性变换得到的结果。
Query(查询)也是一个向量,用于表示注意力机制当前所关注的部分。在每个时间步骤,注意力机制都会根据输入的
query,对输入数据进行加权处理。 Value(值)是一个向量,用于表示输入数据中的具体数值或特征。
具体地说,注意力机制的运作过程是这样的:首先,将输入数据经过线性变换得到 key,query 和 value 向量。然后,针对每个
query 向量,计算它与所有 key 向量之间的相似度得分,并将这些得分进行 softmax 处理,以得到每个 key
向量的权重。最后,将所有 key 向量根据对应的权重加权求和,得到一个加权平均的 value 向量,作为最终的输出。通过这种方式,注意力机制能够在输入数据中寻找相关的部分,并且根据当前的查询进行自适应的加权处理。这种机制被广泛应用于自然语言处理、语音识别、计算机视觉等领域。
Regenerate response
【大白话浅谈【注意力机制】】 【精准空降到 02:42】 https://www.bilibili.com/video/BV1Ff4y187nr/?p=3&share_source=copy_web&vd_source=dab83d5b330f632d6bccec4d78fd0119&t=162

transform解读
这块作者解释的 很不错!
也就是说,任意两个相距k个时间步的位置编码向量的内积都是相同的,这就相当于蕴含了两个时间步之间相对位置关系的信息。此外,每个时间步的位置编码又是唯一的,这两个很好的性质使得上面的公式作为位置编码是有理论保障的

本学渣不是很理解这里的key和value 有什么区别
划重点 key和value的区别
其实就是 键值对,用key和query计算结果,给value加权重!!!
感谢活的明白大哥,他果然活的很明白。

进阶资源推荐
知乎的哈弗论文解读:
搞懂Transformer结构,看这篇PyTorch实现就够了(上) - 忆臻的文章 - 知乎
另一个知乎文章
https://www.ylkz.life/deeplearning/p10391698/ 还有这位月来客栈写得,把原理和pytorch的源码都讲了遍,就是写得太详细了。可以参考下。
相关文章:
学渣适用版——Transformer理论和代码以及注意力机制attention的学习
参考一篇玩具级别不错的代码和案例 自注意力机制 注意力机制是为了transform打基础。 参考这个自注意力机制的讲解流程很详细, 但是学渣一般不知道 key,query,value是啥。 结合B站和GPT理解 注意力机制是一种常见的神经网络结构࿰…...
网上这么多IT的培训机构,我们该怎么选?
说实话,千万不要把这个答案放在网上来找,因为你只能得到别人觉得合适的或者机构的广告;当然个人的培训经历可以听一听的,毕竟不靠谱的机构也有,比如让你交一两万去上线上课程或者一百号来人坐一起看视频,这…...
数据结构与算法—跳表(skiplist)
目录 前言 跳表 查询时间分析 1、时间复杂度 o(logn) 2、空间复杂度O(n) 动态插入和删除 跳表动态更新 跳表与红黑树比较 跳表实现 前言 二分查找用的数组 链表可不可以实现二分查找呢? 跳表 各方面性能比较优秀的动态数据结构,可以支持快速…...
【C++】5.C/C++内存管理
1.C/C内存管理 int globalVar 1; static int staticGlobalVar 1; void Test() {static int staticVar 1;int localVar 1;int num1[10] {1, 2, 3, 4};char char2[] "abcd";char* pChar3 "abcd";int* ptr1 (int*)malloc(sizeof (int)*4);int* ptr2 …...
一文让你彻底理解关于消息队列的使用
一、消息队列概述 消息队列中间件是分布式系统中重要的组件,主要解决应用解耦,异步消息,流量削锋等问题,实现高性能,高可用,可伸缩和最终一致性架构。目前使用较多的消息队列有ActiveMQ,Rabbit…...
条件期望3
条件期望例题—连续发生的事情 连续地做二项实验, 每一次成功概率为p. 当连续k次成功时, 停止实验. 求停止实验时做的总实验次数的期望. 解: 错误解法 设NkN_kNk为停止实验时做的总实验次数, 则 E[Nk]E[E[Nk∣Nk−1]]∑jk−1∞E[Nk∣Nk−1j]\begin{split} E[N_k] & E[E…...
第四届蓝桥杯省赛 C++ B组 - 翻硬币
✍个人博客:https://blog.csdn.net/Newin2020?spm1011.2415.3001.5343 📚专栏地址:蓝桥杯题解集合 📝原题地址:翻硬币 📣专栏定位:为想参加蓝桥杯的小伙伴整理常考算法题解,祝大家都…...
linux shell 入门学习笔记14 shell脚本+数学计算
概念 把复杂的命令执行过程,通过逻辑代码,组成一个脚本文件的方式就叫做shell脚本。 shebang #! /bin/bash #! /bin/perl #! /bin/python执行脚本的方式 source my_first.sh . my_first.shbash my_first.sh ./my_first.sh变量引用 ${var} 取出变量结果 …...
ESP32设备驱动-MAX30100心率监测传感器驱动
MAX30100心率监测传感器驱动 1、MAX30100介绍 MAX30100 是一款集成脉搏血氧饱和度和心率监测传感器解决方案。 它结合了两个 LED、一个光电探测器、优化的光学器件和低噪声模拟信号处理,以检测脉搏血氧饱和度和心率信号。 MAX30100 采用 1.8V 和 3.3V 电源供电,可通过软件…...
RTD2169芯片停产|完美替代RTD2169芯片|CS5260低BOM成本替代RTD2169方案设计
RTD2169芯片停产|完美替代RTD2169芯片|CS5260低BOM成本替代RTD2169方案设计 瑞昱的RTD2169芯片目前已经停产了, 那么之前用RTD2169来设计TYPEC转VGA方案的产品,该如何生产这类产品?且RTD2169芯片价格较贵,芯片封装尺寸是QFN40&…...
urho3d数据库
只有在启用以下两个构建选项之一时,数据库子系统才会构建到Urho3D库中:Urho3D_Database_ODBC和Urho3D-Database_SQLITE。当两个选项都启用时,URHO3D_DATABASE_ODBC优先。这些构建选项决定子系统将使用哪个数据库API。ODBC DB API更适用于本地…...
141. 周期
Powered by:NEFU AB-IN Link 文章目录141. 周期题意思路代码141. 周期 题意 一个字符串的前缀是从第一个字符开始的连续若干个字符,例如 abaab 共有 5个前缀,分别是 a,ab,aba,abaa,abaab。 我们希望知道一…...
Windows下命令执行绕过技巧总结(渗透测试专用)
一、连接符1、双引号不要求双引号闭合举例:"who"a"mi" //闭合的 "who"a"mi //不闭合的2、圆括号必须在两边,不能包括中间的字符。举例:((whoami))3、^符号(转译符号)不可以在结尾&…...
mindspore的MLP模型(多层感知机)
导入模块 import hashlib import os import tarfile import zipfile import requests import numpy as np import pandas as pd import mindspore import mindspore.dataset as ds from mindspore import nn import mindspore.ops as ops import mindspore.numpy as mnp from …...
【论文极速读】VQ-VAE:一种稀疏表征学习方法
【论文极速读】VQ-VAE:一种稀疏表征学习方法 FesianXu 20221208 at Baidu Search Team 前言 最近有需求对特征进行稀疏编码,看到一篇论文VQ-VAE,简单进行笔记下。如有谬误请联系指出,本文遵循 CC 4.0 BY-SA 版权协议,…...
Flask-Blueprint
Flask-Blueprint 一、简介 概念: Blueprint 是一个存储操作方法的容器,这些操作在这个Blueprint 被注册到一个应用之后就可以被调用,Flask 可以通过Blueprint来组织URL以及处理请求 。 好处: 其本质上来说就是让程序更加松耦合…...
png图片转eps格式
下载latex工具后 在要转换的png图片文件夹路径下,打开命令行窗口,输入以下命令: bmeps -c fig图片名.png 图片名.eps...
English Learning - L2 语音作业打卡 Day2 2023.2.23 周四
English Learning - L2 语音作业打卡 Day2 2023.2.23 周四💌 发音小贴士:💌 当日目标音发音规则/技巧:🍭 Part 1【热身练习】🍭 Part2【练习内容】🍭【练习感受】🍓元音[ ɔ: ]&…...
低频量化之 可转债 配债 策略数据 - 全网独家
目录历史文章可转债配债数据待发转债(进展统计)待发转债(行业统计)待发转债(5证监会通过,PE排序)待发转债(5证监会通过,安全垫排序)待发转债(4发审…...
论文阅读_DALLE-2的unCLIP模型
论文信息 name_en: Hierarchical Text-Conditional Image Generation with CLIP Latents name_ch: 利用CLIP的层次化文本条件图像生成 paper_addr: http://arxiv.org/abs/2204.06125 doi: 10.48550/arXiv.2204.06125 date_read: 2023-02-12 date_publish: 2022-04-12 tags: [‘…...
如何让电子书阅读效率提升200%?这款开源神器彻底解决格式兼容与跨设备难题
如何让电子书阅读效率提升200%?这款开源神器彻底解决格式兼容与跨设备难题 【免费下载链接】koreader An ebook reader application supporting PDF, DjVu, EPUB, FB2 and many more formats, running on Cervantes, Kindle, Kobo, PocketBook and Android devices …...
7大监控场景+4步部署:Intel PCM性能监控全攻略
7大监控场景4步部署:Intel PCM性能监控全攻略 【免费下载链接】pcm Intel Performance Counter Monitor (Intel PCM) 项目地址: https://gitcode.com/gh_mirrors/pc/pcm Intel Performance Counter Monitor (Intel PCM) 是一款由Intel官方开发的系统性能分析…...
告别官方驱动:深入解读ES7210寄存器,打造你自己的ESP32音频采集库
告别官方驱动:深入解读ES7210寄存器,打造你自己的ESP32音频采集库 在嵌入式音频开发领域,ES7210作为一款高性能多通道麦克风ADC芯片,因其出色的信噪比和灵活的配置选项,成为ESP32平台上音频采集的热门选择。然而&#…...
Harmonyos应用实例233:数独逻辑教练 (综合与实践)
5. 数独逻辑教练 (综合与实践) 功能介绍: 提供一个 4x4 或 6x6 的入门级数独游戏,专为训练逻辑推理设计。系统随机生成题目,用户点击格子填入数字。如果填入错误,系统会给予红色高亮提示。包含“提示”功能,自动填入一个正确数字,帮助学生理解排除法和唯一性原理。 //…...
ESP32S3端口死活不识别?别急着换线,先试试这个USB驱动修复大法
ESP32S3端口识别难题:从底层原理到实战修复的全方位指南 当你满怀期待地将ESP32S3开发板连接到电脑,准备开始物联网项目的开发时,却发现设备管理器里怎么也找不到对应的COM端口——这种挫败感我深有体会。作为一款功能强大的Wi-Fi/蓝牙双模芯…...
MIKE21桥墩模拟避坑指南:从‘默认糙率倒置’到‘软启动设置’的完整配置流程
MIKE21桥墩模拟避坑指南:从糙率倒置到软启动的实战精要 当第一次打开MIKE21的桥墩模拟模块时,大多数工程师都会面临三个灵魂拷问:为什么输入的糙率值比教科书大几十倍?软启动参数究竟该设多长?桥墩断面分段数对结果影响…...
s2-pro效果展示:高语速新闻播报(220字/分钟)清晰度实测
s2-pro效果展示:高语速新闻播报(220字/分钟)清晰度实测 1. 专业语音合成新标杆 s2-pro作为Fish Audio开源的专业级语音合成模型镜像,正在重新定义文本转语音的技术标准。不同于常见的聊天式语音工具,s2-pro专注于提供…...
别只写对话了!Ren‘Py高级玩家都在用的5个隐藏技巧:转场、音效、变量与存档
别只写对话了!RenPy高级玩家都在用的5个隐藏技巧:转场、音效、变量与存档 当你已经能够用RenPy制作基础视觉小说时,是否发现自己的作品总像"电子版小说"?真正的商业级作品会通过动态转场、环境音效、分支剧情等设计让玩…...
从零开始:用Qwerty Learner提升你的打字速度和英语学习效率
从零开始:用Qwerty Learner提升你的打字速度和英语学习效率 【免费下载链接】qwerty-learner 项目地址: https://gitcode.com/GitHub_Trending/qw/qwerty-learner 还在为打字速度慢而烦恼吗?想同时提升英语词汇量和编程术语记忆吗?Qw…...
信号完整性工程师必看:S参数实战解析与常见误区(附VNA实测案例)
信号完整性工程师必看:S参数实战解析与常见误区(附VNA实测案例) 在高速数字电路设计中,信号完整性(SI)问题往往成为工程师的"隐形杀手"。随着信号速率突破10Gbps,PCB走线不再只是简单…...
