当前位置：首页 > news >正文

代码 RNN原理及手写复现

news 2025/7/10 20:44:42

29、PyTorch RNN的原理及其手写复现_哔哩哔哩_bilibili

笔记连接: https://pan.baidu.com/s/1_Sm7ptEiJtTTq3vQWgOTNg?pwd=2rei 提取码: 2rei

import torch
import torch.nn as nn

bs,T=2,3  # 批大小，输入序列长度
input_size,hidden_size = 2,3 # 输入特征大小，隐含层特征大小
input = torch.randn(bs,T,input_size)  # 随机初始化一个输入特征序列
h_prev = torch.zeros(bs,hidden_size) # 初始隐含状态

# step1 调用pytorch RNN API
rnn = nn.RNN(input_size,hidden_size,batch_first=True)
rnn_output,state_finall = rnn(input,h_prev.unsqueeze(0))print(rnn_output)
print(state_finall)

# step2 手写 rnn_forward函数，实现RNN的计算原理
def rnn_forward(input,weight_ih,weight_hh,bias_ih,bias_hh,h_prev):bs,T,input_size = input.shapeh_dim = weight_ih.shape[0]h_out = torch.zeros(bs,T,h_dim) # 初始化一个输出（状态）矩阵for t in range(T):x = input[:,t,:].unsqueeze(2)  # 获取当前时刻的输入特征，bs*input_size*1w_ih_batch = weight_ih.unsqueeze(0).tile(bs,1,1) # bs * h_dim * input_sizew_hh_batch = weight_hh.unsqueeze(0).tile(bs,1,1)# bs * h_dim * h_dimw_times_x = torch.bmm(w_ih_batch,x).squeeze(-1) # bs*h_dimw_times_h = torch.bmm(w_hh_batch,h_prev.unsqueeze(2)).squeeze(-1) # bs*h_himh_prev = torch.tanh(w_times_x + bias_ih + w_times_h + bias_hh)h_out[:,t,:] = h_prevreturn h_out,h_prev.unsqueeze(0)

# 验证结果
custom_rnn_output,custom_state_finall = rnn_forward(input,rnn.weight_ih_l0,rnn.weight_hh_l0,rnn.bias_ih_l0,rnn.bias_hh_l0,h_prev)
print(custom_rnn_output)
print(custom_state_finall)

print(torch.allclose(rnn_output,custom_rnn_output))
print(torch.allclose(state_finall,custom_state_finall))

# step3 手写一个 bidirectional_rnn_forward函数，实现双向RNN的计算原理
def bidirectional_rnn_forward(input,weight_ih,weight_hh,bias_ih,bias_hh,h_prev,weight_ih_reverse,weight_hh_reverse,bias_ih_reverse,bias_hh_reverse,h_prev_reverse):bs,T,input_size = input.shapeh_dim = weight_ih.shape[0]h_out = torch.zeros(bs,T,h_dim*2) # 初始化一个输出（状态）矩阵，注意双向是两倍的特征大小forward_output = rnn_forward(input,weight_ih,weight_hh,bias_ih,bias_hh,h_prev)[0]  # forward layerbackward_output = rnn_forward(torch.flip(input,[1]),weight_ih_reverse,weight_hh_reverse,bias_ih_reverse, bias_hh_reverse,h_prev_reverse)[0] # backward layer# 将input按照时间的顺序翻转h_out[:,:,:h_dim] = forward_outputh_out[:,:,h_dim:] = torch.flip(backward_output,[1]) #需要再翻转一下 才能和forward output拼接h_n = torch.zeros(bs,2,h_dim)  # 要最后的状态连接h_n[:,0,:] = forward_output[:,-1,:]h_n[:,1,:] = backward_output[:,-1,:]h_n = h_n.transpose(0,1)return h_out,h_n# return h_out,h_out[:,-1,:].reshape((bs,2,h_dim)).transpose(0,1)# 验证一下 bidirectional_rnn_forward的正确性
bi_rnn = nn.RNN(input_size,hidden_size,batch_first=True,bidirectional=True)
h_prev = torch.zeros((2,bs,hidden_size))
bi_rnn_output,bi_state_finall = bi_rnn(input,h_prev)for k,v in bi_rnn.named_parameters():print(k,v)

custom_bi_rnn_output,custom_bi_state_finall = bidirectional_rnn_forward(input,bi_rnn.weight_ih_l0,bi_rnn.weight_hh_l0,bi_rnn.bias_ih_l0,bi_rnn.bias_hh_l0,h_prev[0],bi_rnn.weight_ih_l0_reverse,bi_rnn.weight_hh_l0_reverse,bi_rnn.bias_ih_l0_reverse,bi_rnn.bias_hh_l0_reverse,h_prev[1])

print("Pytorch API output")
print(bi_rnn_output)
print(bi_state_finall)print("\n custom bidirectional_rnn_forward function output:")
print(custom_bi_rnn_output)
print(custom_bi_state_finall)
print(torch.allclose(bi_rnn_output,custom_bi_rnn_output))
print(torch.allclose(bi_state_finall,custom_bi_state_finall))

代码 RNN原理及手写复现

29、PyTorch RNN的原理及其手写复现_哔哩哔哩_bilibili 笔记连接: https://pan.baidu.com/s/1_Sm7ptEiJtTTq3vQWgOTNg?pwd2rei 提取码: 2rei import torch import torch.nn as nn bs,T2,3 # 批大小，输入序列长度 input_size,hidden_size 2,3 # 输入特征大小&a…...

编程日记 2024/11/13 23:00:23

企业官网的在线客服，如何提高效果？

企业官网的在线客服，如何提高效果？ 作者：开源呼叫中心系统 FreeIPCC，github地址：https://github.com/lihaiya/freeipcc 提高企业官网在线客服的效果，是提升客户体验、增强客户满意度和忠诚度的关键。一个…...

编程日记 2024/11/13 22:59:22

「实战应用」如何可视化 DHTMLX Scheduler 中的资源工作量？

DHTMLX Scheduler是一个全面的 UI 组件，用于处理面向业务的 Web 应用程序中复杂的调度和任务管理需求。但是，某些场景可能需要自定义解决方案。例如，如果项目的资源（即劳动力）有限，则需要确保以更高的精度分…...

编程日记 2024/11/13 22:56:18

论文阅读《BEVFormer》

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers 目录摘要1 介绍2 相关工作2.1 基于Transformer的2D感知摘要 3D视觉感知任务对于自动驾驶系统至关重要，包括基于多相机图像的3D检测和地图分割。…...

编程日记 2024/11/13 22:54:16

sql专题之 sql的执行顺序

文章目录 sql的执行顺序sql语句的格式实际的执行顺序：虚拟表 vs 数据集虚拟表结果集总结嵌套查询在sql查询中的执行顺序前文我们了解了sql常用的语句，这次我们对于这些语句来个小思索戳这里→ sql专题之常用命令 sql的执行顺序 SQL语句的执行顺序是…...

编程日记 2024/11/13 22:53:15

Vue3 -- 基于Vue3+TS+Vite项目【项目搭建及初始化】

兼容性注意： Vite 需要 Node.js 版本 18+ 或 20+。然而，有些模板需要依赖更高的 Node 版本才能正常运行，当你的包管理器发出警告时，请注意升级你的 Node 版本。【摘抄自vite官网】这里我用的node版本是 v18.20.2 创建项目：创建项目我们可以使用npm、yarn、pnpm、bun …...

编程日记 2024/11/13 22:51:14

CTF-RE: TEA系列解密脚本

// // Created by A5rZ on 2024/10/26. //#ifndef WORK_TEA_H #define WORK_TEA_H#endif //WORK_TEA_H#include <cstdint> #include <cstdio>// 定义TEA加密算法的轮次，一般建议为32轮 #define TEA_ROUNDS 32 #define DELTA 0x9e3779b9// TEA加密函数 v…...

编程日记 2024/11/13 22:50:13

信号量和线程池

1.信号量 POSIX信号量，用与同步操作，达到无冲突的访问共享资源目的，POSIX信号量可以用于线程间同步初始化信号量 #include <semaphore.h> int sem_init(sem_t *sem, int pshared, unsigned int value); sem：指向sem_t类…...

编程日记 2024/11/13 22:49:12

【人工智能】10分钟解读-深入浅出大语言模型（LLM）——从ChatGPT到未来AI的演进

文章目录一、前言二、GPT模型的发展历程2.1 自然语言处理的局限2.2 机器学习的崛起2.3 深度学习的兴起2.3.1 神经网络的训练2.3.2 神经网络面临的挑战 2.4 Transformer的革命性突破2.4.1 Transformer的核心组成2.4.2 Transformer的优势 2.5 GPT模型的诞生与发展2.5.1 GPT的核心…...

编程日记 2024/11/13 22:47:10

「QT」几何数据类之 QPointF 浮点型点类

✨博客主页何曾参静谧的博客📌文章专栏「QT」QT5程序设计📚全部专栏「VS」Visual Studio「C/C」C/C程序设计「UG/NX」BlockUI集合「Win」Windows程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「PK」Parasolid…...

编程日记 2024/11/13 22:45:08

可能是全网第一个MySQL Workbench插件编写技巧

引言应公司要求，数据库的敏感数据在写入到数据库中要进行加密，但是在测试环境查询数据的时候要手动解密，很不方便，有的时候数据比较多，解密比较麻烦。遂研究了一下如何通过 MySQL Workbench 的插件来实现查询数据一键…...

编程日记 2024/11/13 22:44:07

D62【python 接口自动化学习】- python基础之数据库

day62 SQL 基础学习日期：20241108 学习目标：MySQL数据库-- 131 SQL基础和DDL 学习笔记： SQL的概述 SQL语言的分类 SQL的语法特征 DDL - 库管理 DDL - 表管理总结 SQL是结构化查询语言，用于操作数据库，通用于绝大…...

编程日记 2024/11/13 22:42:05

探索美赛：从准备到挑战的详细指南

前言美国大学生数学建模竞赛（MCM/ICM），简称“美赛”，是全球规模最大的数学建模竞赛之一。它鼓励参赛者通过数学建模来解决现实世界中的复杂问题，广受世界各地大学生的欢迎。本文将详细介绍美赛的全过程，从…...

编程日记 2024/11/13 22:41:04

IP地址查询——IP归属地离线库

自从网络监管部门将现实IP地址列入监管条例，IP地址的离线库变成网络企业发展业务的不可或缺的一部分，那么IP地址离线库是什么，又能够给我们带来什么呢？ 什么是IP地址离线库？ IP地址离线库是IP地址服务商将通过各种合…...

编程日记 2024/11/13 22:38:01

“倒时差”用英语怎么说？生活英语口语学习柯桥外语培训

“倒时差”用英语怎么说？ “倒时差”，这个让无数旅人闻之色变的词汇，在英语中对应的正是“Jet Lag”。"Jet" 指的是喷气式飞机，而 "lag" 指的是落后或延迟。这个短语形象地描述了当人们乘坐喷气式飞机快速穿…...

编程日记 2024/11/13 22:37:00

Linux入门攻坚——37、Linux防火墙-iptables-3

私网地址访问公网地址的问题，请求时，目标地址是公网地址，可以在公网路由器中进行路由，但是响应报文的目的地址是私网地址，此时在公网路由器上就会出现问题。公网地址访问私网地址的问题，需要先访问一个公网…...

编程日记 2024/11/13 22:32:55

微服务架构面试内容整理-安全性-Spring Security

Spring Security 是 Spring 框架中用于实现认证和授权的安全模块，它提供了全面的安全解决方案，可以帮助开发者保护 Web 应用、微服务和 API 免受常见的安全攻击。以下是 Spring Security 的主要特点、工作原理和使用场景：主要特点 1. 身份认证与授权：提供多种认证方式，…...

编程日记 2024/11/13 22:30:51

新的服务器Centos7.6 安装基础的环境配置(新服务器可直接粘贴使用配置)

常见的基础服务器配置之Centos命令正常来说都是安装一个docker基本上很多问题都可以解决了，我基本上都是通过docker去管理一些容器如：mysql、redis、mongoDB等之类的镜像，还有一些中间件如kafka。下面就安装一个 docker 和 nginx 的相关配置…...

编程日记 2024/11/13 22:28:46

深度学习：广播机制

广播机制（Broadcasting）是 PyTorch（以及其他深度学习框架如 NumPy）中的一种强大功能，它允许不同形状的张量进行逐元素操作，而不需要显式地扩展张量的维度。广播机制通过自动扩展较小的张量来匹配较大张量的…...

编程日记 2024/11/13 22:27:44

音视频入门基础：FLV专题（25）——通过FFprobe显示FLV文件每个packet的信息

音视频入门基础：FLV专题系列文章： 音视频入门基础：FLV专题（1）——FLV官方文档下载音视频入门基础：FLV专题（2）——使用FFmpeg命令生成flv文件音视频入门基础：FLV专题…...

编程日记 2024/11/13 22:26:43

微信小程序之bind和catch

这两个呢，都是绑定事件用的，具体使用有些小区别。官方文档： 事件冒泡处理不同 bind：绑定的事件会向上冒泡，即触发当前组件的事件后，还会继续触发父组件的相同事件。例如，有一个子视图绑定了b…...

编程新知 2025/7/10 2:31:05

基于FPGA的PID算法学习———实现PID比例控制算法

基于FPGA的PID算法学习前言一、PID算法分析二、PID仿真分析1. PID代码2.PI代码3.P代码4.顶层5.测试文件6.仿真波形总结前言学习内容：参考网站： PID算法控制 PID即：Proportional（比例）、Integral（积分&…...

编程新知 2025/7/10 19:38:30

vscode（仍待补充）

写于2025 6.9 主包将加入vscode这个更权威的圈子 vscode的基本使用侧边栏 vscode还能连接ssh？ debug时使用的launch文件 1.task.json {"tasks": [{"type": "cppbuild","label": "C/C: gcc.exe 生成活动文件"…...

编程新知 2025/7/9 11:18:39

UE5 学习系列（三）创建和移动物体

这篇博客是该系列的第三篇，是在之前两篇博客的基础上展开，主要介绍如何在操作界面中创建和拖动物体，这篇博客跟随的视频链接如下： B 站视频：s03-创建和移动物体如果你不打算开之前的博客并且对UE5 比较熟的话按照以…...

编程新知 2025/7/10 16:11:12

MySQL 索引底层结构揭秘：B-Tree 与 B+Tree 的区别与应用

文章目录一、背景知识：什么是 B-Tree 和 BTree？ B-Tree（平衡多路查找树） BTree（B-Tree 的变种） 二、结构对比：一张图看懂三、为什么 MySQL InnoDB 选择 BTree？ 1. 范围查询更快 2…...

编程新知 2025/7/10 17:20:16

关于easyexcel动态下拉选问题处理

前些日子突然碰到一个问题，说是客户的导入文件模版想支持部分导入内容的下拉选，于是我就找了easyexcel官网寻找解决方案，并没有找到合适的方案，没办法只能自己动手并分享出来，针对Java生成Excel下拉菜单时因选项过多导…...

编程新知 2025/7/9 16:21:16

高考志愿填报管理系统---开发介绍

高考志愿填报管理系统是一款专为教育机构、学校和教师设计的学生信息管理和志愿填报辅助平台。系统基于Django框架开发，采用现代化的Web技术，为教育工作者提供高效、安全、便捷的学生管理解决方案。 ## 📋 系统概述 ### 🎯 系统定…...

编程新知 2025/7/7 10:03:33

WEB3全栈开发——面试专业技能点P4数据库

一、mysql2 原生驱动及其连接机制概念介绍 mysql2 是 Node.js 环境中广泛使用的 MySQL 客户端库，基于 mysql 库改进而来，具有更好的性能、Promise 支持、流式查询、二进制数据处理能力等。主要特点： 支持 Promise / async-await&#xf…...

编程新知 2025/7/8 22:30:24

计算机系统结构复习-名词解释2

1.定向：在某条指令产生计算结果之前，其他指令并不真正立即需要该计算结果，如果能够将该计算结果从其产生的地方直接送到其他指令中需要它的地方，那么就可以避免停顿。 2.多级存储层次：由若干个采用不同实现技术的存储…...

编程新知 2025/7/9 22:33:19

ubuntu清理垃圾

windows和ubuntu 双系统，ubuntu 150GB，开发用，基本不装太多软件。但是磁盘基本用完。 1、查看home目录 sudo du -h -d 1 $HOME | grep -v K 上面的命令查看$HOME一级目录大小，发现 .cache 有26GB，.local 有几个GB&am…...

编程新知 2025/7/9 4:18:58

相关文章：