当前位置：首页 > news >正文

PixelSNAIL论文代码学习（2）——门控残差网络的实现

news 2025/7/8 14:56:43

文章目录

- 引言
- 正文
- - 门控残差网络介绍
  - 门控残差网络具体实现代码
  - 使用pytorch实现
- 总结

引言

阅读了pixelSNAIL,很简短，就用了几页，介绍了网络结构，介绍了试验效果就没有了，具体论文学习链接
这段时间看他的代码，还是挺痛苦的，因为我对于深度学习的框架尚且不是很熟练，而且这个作者很厉害，很多东西都是自己实现的，所以看起来十分费力，本来想逐行分析，结果发现逐行分析不现实，所以这里按照模块进行分析。
今天就专门来学习一下他门门控控残差模块如何实现。

正文

门控残差网络介绍

介绍
- 通过门来控制每一个残差模块，门通常是由sigmoid函数组成
- 作用：有效建模复杂函数，有助于缓解梯度消失和爆炸的问题
基本步骤
- 卷积操作：对输入矩阵执行卷积操作
- 非线性激活：应用非线性激活函数，激活卷积操作的输出
- 第二次卷积操作：对上一个层的输出进行二次卷积
- 门控操作：将二次卷积的输出分为a和b两个部分，并且通过sigmoid函数进行门控 $Split(c_2) \\ Gate:g = a \times sigmoid(b)$
  - 这里一般是沿着最后一个通道，将原来的矩阵拆解成a和b,然后在相乘，确保每一个矩阵有一个门控参数
- 将门控输出 $g$ 和原始输入 $x$ 相加
具体流程图如下
- x: 输入
- c1: 第一次卷积操作（Conv1）
- a1: 非线性激活函数（例如 ReLU）
- c2: 第二次卷积操作（Conv2），输出通道数是输入通道数的两倍
- split: 将c2 分为两部分 a 和 b
- a, b: 由 c2 分割得到的两部分
- sigmoid: 对b 应用 sigmoid 函数
- gated: 执行门控操作 a×sigmoid(b)
- y: 输出，由原始输入 x 和门控输出相加得到

在这里插入图片描述

这里参考一下论文中的图片，可以看到和基本的门控神经网络是近似的，只不过增加了一些辅助输入还有条件矩阵

在这里插入图片描述

门控残差网络具体实现代码

具体和上面描述的差不多，这里增加了两个额外的参数，分别是辅助输入a和条件矩阵b
注意，这里的二维卷积就是加上了简单的权重归一化的普通二维卷积。
辅助输入a
- 用途：提供额外的信息，帮助网络更好地执行任务，比如说在多模态场景或者多任务学习中，会通过a提供主输入x相关联的信息
- 操作：如果提供了a,那么在第一次卷积之后，会经过全连接层与c1相加
条件矩阵h
- 用途：主要用于条件生成任务，因为条件生成任务的网络行为会受到某些条件和上下文影响。比如，在文本生成图像中，h会是一个文本描述的嵌入
- 操作：如果提供了 h，那么 h 会被投影到一个与 c2 具有相同维度的空间中，并与 c2 相加。这是通过一个全连接层实现的，该层的权重是 hw。

def gated_resnet(x, a=None, h=None, nonlinearity=concat_elu, conv=conv2d, init=False, counters={}, ema=None, dropout_p=0., **kwargs):xs = int_shape(x)num_filters = xs[-1]# 执行第一次卷积c1 = conv(nonlinearity(x), num_filters)# 查看是否有辅助输入aif a is not None:  # add short-cut connection if auxiliary input 'a' is givenc1 += nin(nonlinearity(a), num_filters)# 执行非线性单元c1 = nonlinearity(c1)if dropout_p > 0:c1 = tf.nn.dropout(c1, keep_prob=1. - dropout_p)# 执行第二次卷积c2 = conv(c1, num_filters * 2, init_scale=0.1)# add projection of h vector if included: conditional generation# 如果有辅助输入h，那么就将h投影到c2的维度上if h is not None:with tf.variable_scope(get_name('conditional_weights', counters)):hw = get_var_maybe_avg('hw', ema, shape=[int_shape(h)[-1], 2 * num_filters], dtype=tf.float32,initializer=tf.random_normal_initializer(0, 0.05), trainable=True)if init:hw = hw.initialized_value()c2 += tf.reshape(tf.matmul(h, hw), [xs[0], 1, 1, 2 * num_filters])# Is this 3,2 or 2,3 ?a, b = tf.split(c2, 2, 3)c3 = a * tf.nn.sigmoid(b)return x + c3

使用pytorch实现

tensorflow的模型定义过程和pytorch的定义过程就是不一样，tensorflow中的conv2d只需要给出输出的channel,直接输入需要卷积的部分即可。但是使用pytorch，需要进行给定输入的 channel,然后在给出输出的filter_size,很麻烦。
除此之外，在定义模型的层的过程中，我们不能在forward中定义层，只能在init函数中定义层。

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.nn.utils import weight_normclass GatedResNet(nn.Module):def __init__(self, num_filters, nonlinearity=F.elu, dropout_p=0.0):super(GatedResNet, self).__init__()self.num_filters = num_filtersself.nonlinearity = nonlinearityself.dropout_p = dropout_p# 第一卷积层self.conv1 = nn.Conv2d(num_filters, num_filters, kernel_size=3, padding=1)
#         self.conv1 = weight_norm(self.conv1)# 第二卷积层，输出通道是 2 * num_filters，用于门控机制self.conv2 = nn.Conv2d(num_filters, 2 * num_filters, kernel_size=3, padding=1)
#         self.conv2 = weight_norm(self.conv2)# 条件权重用于 h，初始化在前向传播过程中self.hw = Nonedef forward(self, x, a=None, h=None):c1 = self.conv1(self.nonlinearity(x))# 检查是否有辅助输入 'a'if a is not None:c1 += a  # 或使用 NIN 使维度兼容c1 = self.nonlinearity(c1)if self.dropout_p > 0:c1 = F.dropout(c1, p=self.dropout_p, training=self.training)c2 = self.conv2(c1)print('the shape of c2',c2.shape)# 如果有辅助输入 h，则加入 h 的投影if h is not None:if self.hw is None:self.hw = nn.Parameter(torch.randn(h.size(1),  self.num_filters) * 0.05)print(self.hw.shape)c2 +=  (h @ self.hw).view(h.size(0), 1, 1, self.num_filters)# 将通道分为两组：'a' 和 'b'a, b = c2.chunk(2, dim=1)c3 = a * torch.sigmoid(b)return x + c3# 测试
x = torch.randn(16, 32, 32, 32)  # [批次大小，通道数，高度，宽度]
a = torch.randn(16, 32, 32, 32)  # 和 x 维度相同的辅助输入
h = torch.randn(16, 64)  # 可选的条件变量
model = GatedResNet(32)
out = model(x, a , h)

在这里插入图片描述

总结

遇到了很多问题，是因为经验不够，而且很多东西都不了解，然后改的很痛苦，而且现在完全还没有跑起来，完整的组件都没有搭建完成，这里还需要继续努力。
关于门控残差网络这里，这里学到了很多，知道了具体的运作流程，也知道他是专门针对序列数据，防止出现梯度爆炸的。以后可以多用用看。

PixelSNAIL论文代码学习（2）——门控残差网络的实现

文章目录引言正文门控残差网络介绍门控残差网络具体实现代码使用pytorch实现总结引言阅读了pixelSNAIL,很简短，就用了几页，介绍了网络结构，介绍了试验效果就没有了，具体论文学习链接这段时间看他的代码，还是挺痛…...

编程日记 2023/9/4 7:29:21

WebGPU学习（9）---使用Pipeline Overridable Constants

使用Pipeline Overridable Constants WebGPU 的着色器语言是 WGSL，但与 GLSL 和 HLSL 不同，不支持 #ifdef 等宏。为了实现各种着色器变体，迄今为止，宏一直是着色器编程中非常重要的功能。那么应该如何处理没有宏的 WGSL&#xff…...

编程日记 2023/9/4 7:28:20

javaweb入门版学生信息管理系统-增删改查+JSP+Jstl+El

dao public class StudentDao {QueryRunner queryRunner QueryRunnerUtils.getQueryRunner();//查询全部学生信息public List<Student> selectStudent(){String sql "select * from tb_student";List<Student> students null;try {students queryRunn…...

编程日记 2023/9/4 7:27:20

云原生Kubernetes:K8S概述

目录一、理论 1.云原生 2.K8S 3.k8s集群架构与组件二、总结一、理论 1.云原生 （1）概念云原生是一种基于容器、微服务和自动化运维的软件开发和部署方法。它可以使应用程序更加高效、可靠和可扩展，适用于各种不同的云平台。如果…...

编程日记 2023/9/4 7:26:17

nmap的使用

目录 nmap简介主要作用 nmap原理 namp使用 options nmap列举远程机器开放端口普通扫描扫描范围端口对几个端口探测对所有端口进行探测指定协议探测端口扫描对应协议的所有端口端口状态 nmap识别目标机器上服务的指纹服务指纹识别目标机器服务信息 …...

编程日记 2023/9/4 7:25:15

Python爬虫-某网酒店数据

前言本文是该专栏的第5篇，后面会持续分享python爬虫案例干货，记得关注。本文以某网的酒店数据为例，实现根据目标城市获取酒店数据。具体思路和方法跟着笔者直接往下看正文详细内容。（附带完整代码）正文地址：aHR0cHM6Ly93d3cuYnRoaG90ZWxzLmNvbS9saXN0L3NoYW5naGFp …...

编程日记 2023/9/4 7:24:14

了解atoi和offsetof

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录目录文章目录一、简介二、深度剖析 1.atoi 2.offsetof 三、应用场景一、简介二、深度剖析 1.atoi2.offsetof三、应用场景一、简介在C语言中，有许多…...

编程日记 2023/9/4 7:23:10

命令行编译VS工程

先输入以下命令，因为命令出错了，就会弹出帮助，如下： "C:\Program Files (x86)\Microsoft Visual Studio 11.0\Common7\IDE\devenv.exe" /help 反正就是Microsoft Visual Studio 的安装路径。帮助界面如下&#xff1a…...

编程日记 2023/9/4 7:22:07

Linux防火墙命令

开启防火墙 systemctl start firewalld关闭防火墙 systemctl stop firewalld # 暂时关闭防火墙 systemctl disable firewalld # 永久关闭防火墙(禁用开机自启) systemctl enable firewalld # 永久开启防火墙(启用开机自启)重启防火墙 systemctl restart firewalld重载规则 …...

编程日记 2023/9/4 7:21:06

大数据平台数据脱敏是什么意思？有哪些方案？

大数据平台包含了海量多样化数据，所以保障大数据平台数据安全非常重要，数据脱敏就是手段之一。今天我们就来简单聊聊大数据平台数据脱敏是什么意思？有哪些方案？ 大数据平台数据脱敏是什么意思？ 大数据平台数据脱敏简…...

编程日记 2023/9/4 7:20:03

前后端分离不存在会话，sessionid不一致问题

目录 1.使用拦截器解决跨域的示例： 2.使用redis，不使用session 前后端不分离项目我们可以通过session存储数据，但是前后端分离时不存在会话，每次请求sessionid都会改变，当值我们储存的数据不能取出来。 1.使用拦截器…...

编程日记 2023/9/4 7:19:01

Python 3+ 安装及pip配置

Python 3 安装及pip安装升级 1. 安装Python依赖2. 在Linux服务器下载3. 创建python链接4. 配置pip 服务器环境：Linux CentOS 7 内核版本3.10 Python版本：3.10.6 由于CentOS 7默认安装python2.7，使用yum可以查到最新的python3版本为3.6.8&…...

编程日记 2023/9/4 7:18:00

StarRocks入门到熟练

1、部署 1.1、注意事项需要根据业务需求设计严谨的集群架构，一般来说，需要注意以下几项： 1.1.1、FE数量及高可用 FE的Follower要求为奇数个，且并不建议部署太多，通常我们推荐部署1个或3个Follower。在三个Followe…...

编程日记 2023/9/4 7:16:58

Zabbix Api监控项值推送：zabbix_sender

用法示例： zabbix_sender [-v] -z server [-p port] [-I IP-address] [-t timeout] -s host -k key -o value其中： -z 即 --zabbix-server，Zabbix server的主机名或IP地址。如果主机由proxy监控，则应使用proxy的主机名或IP地址-…...

编程日记 2023/9/4 7:15:57

Shell脚本开发：printf和test命令的实际应用

目录 Shell printf 命令打印简单文本 Shell test 命令 1、文件测试 2、字符串比较 3、整数比较逻辑运算： Shell printf 命令当你使用Shell中的printf命令时，它可以帮助你格式化和输出文本。打印简单文本这将简单地打印字符串"Hello, …...

编程日记 2023/9/4 7:14:56

React笔记（三）类组件(1)

一、组件的概念使用组件方式进行编程，可以提高开发效率，提高组件的复用性、提高代码的可维护性和可扩展性 React定义组件的方式有两种类组件：React16.8版本之前几乎React使用都是类组件函数组件:React16.8之后，函数式组件使…...

编程日记 2023/9/4 7:13:55

Hugging Face实战-系列教程4：padding与attention_mask

🚩🚩🚩Hugging Face 实战系列总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在notebook中进行本篇文章配套的代码资源已经上传上篇内容： Hugging Face实战-系列教程3：文本2分类下篇内容： …...

编程日记 2023/9/4 7:12:54

睿趣科技：抖音开网店卖玩具怎么样

近年来，随着社交媒体平台的飞速发展，抖音作为一款短视频分享应用也迅速崭露头角。而在这个充满创业机遇的时代背景下，许多人开始探索在抖音平台上开设网店，尤其是卖玩具类商品，那么抖音开网店卖玩具究竟怎么样呢? 首先…...

编程日记 2023/9/4 7:11:52

简易虚拟培训系统-UI控件的应用4

目录 Slider组件的常用参数示例-使用Slider控制主轴示例-Slider控制溜板箱的移动本文以操作面板为例，介绍使用Slider控件控制开关和速度。 Slider组件的常用参数 Slider组件下面包含了3个子节点，都是Image组件，负责Slider的背景、填充区…...

编程日记 2023/9/4 7:10:51

#include ＜graphics.h＞ #include ＜conio.h＞ #include＜stdlib.h＞无法打开源文件解决方案

一、问题描述学习数据结构链表的过程中，在编写漫天星星闪烁的代码时，遇到了如下图所示的报错，#include <graphics.h> 、 #include <conio.h> 等无法打开源文件。并且主程序中initgraph(初始化画布)、setfillcolor（…...

编程日记 2023/9/4 7:09:50

idea大量爆红问题解决

问题描述在学习和工作中，idea是程序员不可缺少的一个工具，但是突然在有些时候就会出现大量爆红的问题，发现无法跳转，无论是关机重启或者是替换root都无法解决就是如上所展示的问题，但是程序依然可以启动。问题解决…...

编程新知 2025/7/8 12:02:51

rknn优化教程（二）

文章目录 1. 前述2. 三方库的封装2.1 xrepo中的库2.2 xrepo之外的库2.2.1 opencv2.2.2 rknnrt2.2.3 spdlog 3. rknn_engine库 1. 前述 OK，开始写第二篇的内容了。这篇博客主要能写一下： 如何给一些三方库按照xmake方式进行封装，供调用如何按…...

编程新知 2025/6/11 15:25:30

Swift 协议扩展精进之路：解决 CoreData 托管实体子类的类型不匹配问题（下）

概述在 Swift 开发语言中，各位秃头小码农们可以充分利用语法本身所带来的便利去劈荆斩棘。我们还可以恣意利用泛型、协议关联类型和协议扩展来进一步简化和优化我们复杂的代码需求。不过，在涉及到多个子类派生于基类进行多态模拟的场景下，…...

编程新知 2025/7/7 7:23:14

数据库分批入库

今天在工作中，遇到一个问题，就是分批查询的时候，由于批次过大导致出现了一些问题，一下是问题描述和解决方案： 示例： // 假设已有数据列表 dataList 和 PreparedStatement pstmt int batchSize 1000; // …...

编程新知 2025/7/7 14:25:55

大学生职业发展与就业创业指导教学评价

这里是引用作为软工2203/2204班的学生，我们非常感谢您在《大学生职业发展与就业创业指导》课程中的悉心教导。这门课程对我们即将面临实习和就业的工科学生来说至关重要，而您认真负责的教学态度，让课程的每一部分都充满了实用价值。尤其让我…...

编程新知 2025/7/5 20:06:26

使用Spring AI和MCP协议构建图片搜索服务

目录使用Spring AI和MCP协议构建图片搜索服务引言技术栈概览项目架构设计架构图服务端开发 1. 创建Spring Boot项目 2. 实现图片搜索工具 3. 配置传输模式 Stdio模式（本地调用） SSE模式（远程调用） 4. 注册工具提…...

编程新知 2025/7/8 3:27:29

基于SpringBoot在线拍卖系统的设计和实现

摘要随着社会的发展，社会的各行各业都在利用信息化时代的优势。计算机的优势和普及使得各种信息系统的开发成为必需。在线拍卖系统，主要的模块包括管理员；首页、个人中心、用户管理、商品类型管理、拍卖商品管理、历史竞拍管理、竞拍订单…...

编程新知 2025/7/6 16:08:30

HubSpot推出与ChatGPT的深度集成引发兴奋与担忧

上周三，HubSpot宣布已构建与ChatGPT的深度集成，这一消息在HubSpot用户和营销技术观察者中引发了极大的兴奋，但同时也存在一些关于数据安全的担忧。许多网络声音声称，这对SaaS应用程序和人工智能而言是一场范式转变。但向任何技…...

编程新知 2025/7/7 17:15:09

WPF八大法则：告别模态窗口卡顿

⚙️ 核心问题：阻塞式模态窗口的缺陷原始代码中ShowDialog()会阻塞UI线程，导致后续逻辑无法执行： var result modalWindow.ShowDialog(); // 线程阻塞 ProcessResult(result); // 必须等待窗口关闭根本问题&#xff1a…...

编程新知 2025/7/8 4:22:15

渗透实战PortSwigger靶场：lab13存储型DOM XSS详解

进来是需要留言的，先用做简单的 html 标签测试发现面的</h1>不见了数据包中找到了一个loadCommentsWithVulnerableEscapeHtml.js 他是把用户输入的<>进行 html 编码，输入的<>当成字符串处理回显到页面中，看来只是把用户输…...

编程新知 2025/7/8 8:51:54

文章目录

引言

正文

门控残差网络介绍

门控残差网络具体实现代码

使用pytorch实现

总结

相关文章：