Transformer详解(5)-编码器和解码器
1、Transformer编码器
import torch
from torch import nn
import copy
from norm import Norm
from multi_head_attention import MultiHeadAttention
from feed_forward import FeedForward
from pos_encoder import PositionalEncoderdef get_clones(module, N):"""Create N identical layers.Args:module: The module (layer) to be duplicated.N: The number of copies to create.Returns:A ModuleList containing N identical copies of the module."""return nn.ModuleList([copy.deepcopy(module) for _ in range(N)])# transformer块
class EncoderLayer(nn.Module):def __init__(self, d_model=512, d_ff=2048, heads=8, dropout=0.1):super(EncoderLayer, self).__init__()self.norm_1 = Norm(d_model)self.norm_2 = Norm(d_model)self.attn = MultiHeadAttention(heads, d_model, dropout)self.ff = FeedForward(d_model, d_ff)self.dropout_1 = nn.Dropout(dropout)self.dropout_2 = nn.Dropout(dropout)def forward(self, x, mask):attn_ouput = self.attn(x, x, x, mask)attn_ouput = self.dropout_1(attn_ouput)x = x + attn_ouput # 残差连接x = self.norm_1(x) # 层归一化ff_output = self.ff(x) # 前馈层ff_output = self.dropout_2(ff_output)x = x + ff_output # 残差连接x = self.norm_2(x) # 层归一化return xclass TransformerEncoder(nn.Module):def __init__(self, vocab_size=1000, max_seq_len=50, d_model=512, d_ff=2048, N=6, heads=8, dropout=0.1):super(TransformerEncoder, self).__init__()'''vocab_size 词典大小max_seq_len 序列最大长度d_model 词嵌入大小d_ff 前馈层隐层维度N 编码器中transformer的个数heads 多头个数dropout dropout比例'''self.N = Nself.embed = nn.Embedding(vocab_size, d_model)self.pe = PositionalEncoder(max_seq_len, d_model)self.layers = get_clones(EncoderLayer(d_model, d_ff, heads, dropout), N)self.norm = Norm(d_model)def forward(self, src, mask=None):x = self.embed(src) # embeddingx = self.pe(x) # 位置编码for i in range(self.N):x = self.layers[i](x, mask)output = self.norm(x)return outputif __name__ == '__main__':# Parameterslength = 50low = 0high = 1001 # The upper bound is exclusive in torch.randint# Generate random integersrandom_tensor = torch.randint(low=low, high=high, size=(length,))vocab_size = 1000max_seq_len = 50d_model = 512d_ff = 2048heads = 8N = 2dropout = 0.1trans_encoder = TransformerEncoder(vocab_size, max_seq_len, d_model, d_ff, N, heads, dropout)output = trans_encoder(random_tensor)print(output.shape) # torch.Size([1, 50, 512])
相关文章:
Transformer详解(5)-编码器和解码器
1、Transformer编码器 import torch from torch import nn import copy from norm import Norm from multi_head_attention import MultiHeadAttention from feed_forward import FeedForward from pos_encoder import PositionalEncoderdef get_clones(module, N):"&quo…...
线程安全-3 JMM
一.谈一下JMM 1.JMM,JavaMemoryModel,Java内存模型。定义了多线程对共享内存读写操作的行为规范,通过规范多线程对共享内存的读写操作,以保证指令执行和结果的正确性。 2.JMM把内存分为两块 (1)主内存&a…...
4 CSS的 变换、过渡与动画
CSS3引入了变换、过渡和动画特性,使得网页可以呈现出丰富的视觉效果和交互体验。通过这些新特性,开发者可以创建复杂的动画效果,而不需要使用JavaScript。 4.1 变换(Transforms) 变换允许开发者对元素进行旋转、缩放…...
前端基础入门三大核心之JS篇:掌握数字魔法 ——「累加器与累乘器」的奥秘籍【含样例代码】
前端基础入门三大核心之JS篇:掌握数字魔法 ——「累加器与累乘器」的奥秘籍 🧙♂️ 基础概念:数字的魔杖与炼金术累加器(Accumulator)累乘器(Multiplier) 📚 实战演练:…...
git clone 出现的问题
问题: core源码ref新API % git clone https://github.com/xxxx.git Cloning into core... remote: Enumerating objects: 58033, done. remote: Counting objects: 100% (1393/1393), done. remote: Compressing objects: 100% (750/750), done. error: 432 bytes of body are …...
Vue2和Vue3生命周期的对比
Vue2和Vue3生命周期的对比 Vue2 和 Vue3 生命周期对照表Vue2 和 Vue3 生命周期图示 Vue2 和 Vue3 生命周期对照表 触发时机Vue2.xVue3.x组件创建时运行beforeCreate setup createdsetup 挂载在DOM时运行beforeMountonBeforeMountmountedonMounted响应数据修改时运行beforeUpdat…...
全面解析Java.lang.ClassCastException异常
全面解析Java.lang.ClassCastException异常 全面解析Java.lang.ClassCastException异常:解决方案与最佳实践 🚀📚摘要引言1. 什么是Java.lang.ClassCastException?代码示例 2. 报错原因2.1 类型不兼容2.2 泛型类型擦除2.3 接口和实…...
美团Java社招面试题真题,最新面试题
如何处理Java中的内存泄露? 1、识别泄露: 使用内存分析工具(如Eclipse Memory Analyzer Tool、VisualVM)来识别内存泄露的源头。 2、代码审查: 定期进行代码审查,关注静态集合类属性和监听器注册等常见内…...
二十八、openlayers官网示例Data Tiles解析——自定义绘制DataTile源数据
官网demo地址: https://openlayers.org/en/latest/examples/data-tiles.html 这篇示例讲解的是自定义加载DataTile源格式的数据。 先来看一下什么是DataTile,这个源是一个数组,与我们之前XYZ切片源有所不同。DataTile主要适用于需要动态生成…...
分布式事务解决方案(最终一致性【TCC解决方案】)
最终一致性分布式事务概述 强一致性分布式事务解决方案要求参与事务的各个节点的数据时刻保持一致,查询任意节点的数据都能得到最新的数据结果,这就导致在分布式场景,尤其是高并发场景下,系统的性能受到了影响。而最终一致性分布式…...
App Inventor 2 Encrypt.Security 安全性扩展:MD5哈希,SHA/AES/RSA/BASE64
这是关于App Inventor和Thunkable安全性的扩展,它提供MD5哈希,SHA1和SHA256哈希,AES加密/解密,RSA加密/解密,BASE64编码/解码方法。 权限 此扩展程序不需要任何权限。 事件 OnErrorOccured 抛出任何异常时将触发此事件…...
深入了解Linux中的环境变量
在Linux系统中,环境变量(Environment Variables)是用于配置操作系统和应用程序运行环境的一种机制。它们储存在键值对中,可以控制程序的行为、路径查找和系统配置。本文将深入探讨环境变量的基本概念、常见类型、设置和管理方法&a…...
雷军-2022.8小米创业思考-8-和用户交朋友,非粉丝经济;性价比是最大的诚意;新媒体,直播离用户更近;用真诚打动朋友,脸皮厚点!
第八章 和用户交朋友 2005年,为了进一步推动金山的互联网转型,让金山的同事更好地理解互联网的精髓,我推动了一场向谷歌学习的运动,其中一个小要求就是要能背诵“谷歌十诫”。 十诫的第一条就令人印象深刻:以用户为中…...
【Vue2.x】props技术详解
1.什么是prop? 定义:组件标签上注册的一些自定义属性作用:向子组件传递数据特点 可以传递任意数量的prop可以传递任意类型的prop 2.prop校验 为了避免乱传数据,需要进行校验 完整写法 将之前props数组的写法,改为对象…...
C语言例题46、根据公式π/4=1-1/3+1/5-1/7+1/9-1/11+…,计算π的近似值,当最后一项的绝对值小于0.000001为止
#include <stdio.h> #include <math.h>int main() {int fm 1;//分母double sign 1;//正负号double fzs 1;//分子式double sum 0;while (fabs(fzs) > 0.000001) {sum fzs;sign * -1; //变换正负号fm 2; //分母3、5、7、9...增长fzs sign / fm;//分子式…...
fpga系列 HDL: 05 阻塞赋值(=)与非阻塞赋值(<=)
在Verilog硬件描述语言(HDL)中,信号的赋值方式主要分为两种:连续赋值和过程赋值。每种赋值方式有其独特的用途和语法,并适用于不同类型的电路描述。 1. 连续赋值(Continuous Assignment,assign 和…...
大白话DC3算法
DC3算法是什么 DC3算法(也称为Skew算法)是一种高效的构建后缀数组的算法,全称为Difference Cover Modulo 3算法。 该算法于2002年被提出,论文参考: https://www.cs.cmu.edu/~guyb/paralg/papers/KarkkainenSanders0…...
力扣HOT100 - 75. 颜色分类
解题思路: 单指针,对数组进行两次遍历。 class Solution {public void sortColors(int[] nums) {int p 0;int n nums.length;for (int i 0; i < n; i) {if (nums[i] 0) {int tmp nums[i];nums[i] nums[p];nums[p] tmp;p;}}for (int i p; i …...
Vue.js - 计算属性与侦听器 【0基础向 Vue 基础学习】
文章目录 计算属性 computedcomputed 的使用方法computed 与 method 的区别计算属性完整写法 watch 侦听器(监视器)简单写法 → 简单类型数据,直接监视完整写法 → 添加额外配置项 计算属性 computed computed 的使用方法 **概念࿱…...
技术速递|使用 C# 集合表达式重构代码
作者:David Pine 排版:Alan Wang 本文是系列文章的第二篇,该系列文章涵盖了探索 C# 12功能的各种重构场景。在这篇文章中,我们将了解如何使用集合表达式重构代码,我们将学习集合初始化器、各种表达式用法、支持的集合目…...
无网环境部署:OpenClaw离线安装Qwen3-14B镜像指南
无网环境部署:OpenClaw离线安装Qwen3-14B镜像指南 1. 为什么需要离线部署方案 在金融、政务等对数据安全要求极高的领域,服务器通常运行在严格的Air-gap环境(物理隔离网络)中。去年我在某金融机构做POC时,就遇到了这…...
AdminBSB表单组件实战:从基础到高级的完整解决方案
AdminBSB表单组件实战:从基础到高级的完整解决方案 【免费下载链接】AdminBSBMaterialDesign AdminBSB - Free admin panel that is based on Bootstrap 3.x with Material Design 项目地址: https://gitcode.com/gh_mirrors/ad/AdminBSBMaterialDesign Admi…...
WebGL着色器编程完全手册:GLSL语言从入门到精通
WebGL着色器编程完全手册:GLSL语言从入门到精通 【免费下载链接】WebGL The Official Khronos WebGL Repository 项目地址: https://gitcode.com/gh_mirrors/we/WebGL WebGL着色器编程是创建惊艳3D网页应用的核心技术!💡 作为WebGL的官…...
【声纳与人工智能融合——从理论前沿到自主系统实战(进阶篇)】第十五章 条件正规化流(CNF)的AUV风险敏感路径规划
目录 15.1 未知环境下的概率占据补全 15.1.1 时空图表征声纳、惯导与海流先验的边可行性与风险 15.1.2 基于连续正规化流的未探测区域多假设采样 15.1.3 将模型不确定性耦合至条件风险价值与机会约束规划 Ch15_1_3_CNF_PathPlanner.py 15.1 未知环境下的概率占据补全 15.1…...
打破Mac局域网通信壁垒:飞秋Mac版如何实现跨平台无缝对接
打破Mac局域网通信壁垒:飞秋Mac版如何实现跨平台无缝对接 【免费下载链接】feiq 基于qt实现的mac版飞秋,遵循飞秋协议(飞鸽扩展协议),支持多项飞秋特有功能 项目地址: https://gitcode.com/gh_mirrors/fe/feiq 你是否曾经在Mac上羡慕W…...
实战指南:基于快马平台为openclaw社区开发精华帖子系统
实战指南:基于快马平台为openclaw社区开发精华帖子系统 最近在帮openclaw中文社区官方开发一个精华帖子评选与展示系统,整个过程让我深刻体会到如何用InsCode(快马)平台快速实现生产级功能。这个系统需要满足社区对优质内容筛选和展示的核心需求&#x…...
2025届学术党必备的降重复率神器实际效果
Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 于人工智能生成内容即AIGC广泛运用的背景状况之下,将AIGC率予以降低成了内容创作…...
yaml-cpp终极内存优化指南:5个提升缓存命中率的实现技巧
yaml-cpp终极内存优化指南:5个提升缓存命中率的实现技巧 【免费下载链接】yaml-cpp A YAML parser and emitter in C 项目地址: https://gitcode.com/gh_mirrors/ya/yaml-cpp yaml-cpp是一个高性能的C YAML解析器和发射器,完全遵循YAML 1.2规范。…...
5分钟构建跨语言金融数据API:AKTools如何打破Python生态壁垒
5分钟构建跨语言金融数据API:AKTools如何打破Python生态壁垒 【免费下载链接】aktools AKTools is an elegant and simple HTTP API library for AKShare, built for AKSharers! 项目地址: https://gitcode.com/gh_mirrors/ak/aktools 在量化金融和数据分析领…...
GTE-Pro企业级语义智能实战:从模型加载到热力评分可视化的完整链路
GTE-Pro企业级语义智能实战:从模型加载到热力评分可视化的完整链路 1. 引言:告别关键词匹配,拥抱语义理解 想象一下,你是一个新员工,想查一下公司怎么报销餐费。你打开公司的知识库,输入“怎么报销吃饭的…...
