当前位置: 首页 > news >正文

Squeeze-and-Excitation Networks阅读笔记一

文章目录

    • Abstract
    • 1 INTRODUCTION

Abstract

卷积算子(convolution operator)是卷积神经网络(cnn)的核心组成部分,它使网络能够通过融合每层局部接受域内的空间和通道信息来构建信息特征。广泛的先前研究已经调查了这种关系的空间组成部分,寻求通过增强整个特征层次的空间编码质量(enhancing the quality of spatial encodings throughout its feature hierarchy)来加强CNN的表示能力。在这项工作中,我们将重点放在通道关系(channel relationship)上,并提出了一种新的架构单元,我们称之为 “Squeeze-and-Excitation”(SE)块,该单元通过明确建模通道之间的相互依赖性,自适应地重新校准通道特征响应。这些块可以堆叠在一起,形成SENet架构,可在不同的数据集上极其有效地泛化。我们进一步证明,SE块在略微增加计算成本的情况下,为现有最先进的cnn带来了显著的性能改进。Squeeze-and-Excitation Networks 构成了我们2017年ILSVRC分类提交的基础,该分类提交获得了第一名,并将前5名的误差降低到2.251%,比2016年的获奖作品相对提高了25%。模型和代码可在 https://github.com/hujie-frank/SENet 上获得。



1 INTRODUCTION

在本文中,我们研究了网络设计的另一个方面——通道之间的关系。我们引入了一个新的架构单元,我们称之为挤压和激励(SE)块,其目标是通过显式地模拟其卷积特征通道之间的相互依赖性(by explicitly modelling the interdependencies between the channels of its convolutional features)来提高网络产生的表示的质量。为此,本文提出了一种机制,允许网络进行特征重校准(feature recalibration),通过这种机制,网络可以学习使用全局信息来有选择性地强调有信息量的特征,并抑制不太有用的特征。


SE 构建块的结构如图1所示。对于任意给定的将输入 X \mathbf{X} X 映射到 U \mathbf{U} U ,其中 U ∈ R H × W × C \mathbf{U} \in \mathbb{R}^{H \times W \times C} URH×W×C 的特征映射的变换 F t r \mathbf{F}_{tr} Ftr,例如卷积,我们可以构造一个相应的 SE 块来执行特征重新校准(feature recalibration)。特征 U \mathbf{U} U 首先通过 squeeze 操作进行传递,该操作通过跨其空间维度( H × W H × W H×W)聚合特征图来产生通道描述符(channel descriptor)。这个描述子的功能是产生一个通道级特征响应的全局分布的嵌入(embedding),允许来自网络的全局感受野的信息被其所有层使用。聚合之后是一个 excitation 操作,该操作采取简单的自门控(self-gating mechanism)机制的形式,将嵌入作为输入,并产生每个通道调制权重(per-channel modulation weights)的集合。这些权重被应用于特征映射 U \mathbf{U} U 以生成SE块的输出,随后可以直接馈送到网络的后续层。




通过简单地堆叠SE块的集合,可以构建一个SE网络(SENet)。此外,这些SE块还可以在网络架构的一定深度范围内作为原始块的 drop-in replacement 。虽然构建模块的模板是通用的,但它在不同深度上所扮演的角色在整个网络中是不同的。在较早的层中,它以一种与类别无关的方式激发信息特征,加强共享的低级表示(strengthening the shared low-level representations)。在后面的层中,SE块变得越来越专门化,并以高度类特定的方式响应不同的输入(第7.2节)。因此,SE块执行的特征重新校准的好处可以通过网络积累。

在网络的较早层,模型通常专注于学习并提取更为通用和基础的特征,如边缘、颜色和纹理等。这些特征是多个类别共享的,不具有很强的类别特异性。在这一阶段,SE模块以一种类别无关的方式工作,激发有信息的特征,增强这些共享的低级表示。


然而,在网络的较深层,模型开始专注于学习更具类别特异性的特征,如特定物体的部分或者更复杂的形状。这是因为对于更深层的模型来说,它需要从更为抽象和高级的角度理解输入数据,以便进行准确的分类或预测。在这一阶段,SE模块开始变得更为专门化,响应不同类别的输入,使网络有能力捕捉并处理类别特定的信息。


在这里插入图片描述


个人的简要理解以及概括就是,虽然就是卷积层中的参数是可以学习的,但是不同卷积核得到的结果重要性肯定是不一样的,所以可以通过加入通道注意力机制来提高性能。

相关文章:

Squeeze-and-Excitation Networks阅读笔记一

文章目录 Abstract1 INTRODUCTION Abstract 卷积算子(convolution operator)是卷积神经网络(cnn)的核心组成部分,它使网络能够通过融合每层局部接受域内的空间和通道信息来构建信息特征。广泛的先前研究已经调查了这种…...

LabVIEW开发3D颈动脉图像边缘检测

LabVIEW开发3D颈动脉图像边缘检测 近年来,超声图像在医学领域对疾病诊断具有重要意义。边缘检测是图像处理技术的重要组成部分。边缘包含图像信息。边缘检测的主要目的是根据强度和纹理等属性识别图像中均匀区域的边界。超声(US)图像存在视觉…...

python10.4.3

10.4.3重构 错误实例 import jsondef laoyonghu(): #获取老用户名字filenameusername.jsonwith open(filename) as f:usernamejson.load(f)return usernamedef xinyonghu(): #获取新用户名字filenameusername.jsonusernameinput("whats your name:")with ope…...

系统架构设计高级技能 · 软件架构概念、架构风格、ABSD、架构复用、DSSA(一)【系统架构设计师】

系列文章目录 系统架构设计高级技能 软件架构概念、架构风格、ABSD、架构复用、DSSA(一)【系统架构设计师】 系统架构设计高级技能 系统质量属性与架构评估(二)【系统架构设计师】 系统架构设计高级技能 软件可靠性分析与设计…...

Vue中,$forceUpdate()的使用

在Vue官方文档中指出,$forceUpdate具有强制刷新的作用。 那在vue框架中,如果data中有一个变量:age,修改他,页面会自动更新。 但如果data中的变量为数组或对象,我们直接去给某个对象或数组添加属性,页面是识…...

K8s中的Ingress

1.把端口号对外暴露,通过ip端口号进行访问 使用Service里面的NodePort实现 2.NodePort缺陷 在每个节点上都会起到端口,在访问时候通过任何节点,通过节点ip暴露端口号实现访问 意味着每个端口只能使用一次,一个端口对应一个应用…...

c++调用ffmpeg api录屏 并进行udp组播推流

代码及工程见https://download.csdn.net/download/daqinzl/88155241 开发工具&#xff1a;visual studio 2019 播放&#xff0c;采用ffmpeg工具集里的ffplay.exe, 执行命令 ffplay udp://224.1.1.1:5001 主要代码如下: #include "pch.h" #include <iostream>…...

war包方式安装linux和windows的geoserver

注意&#xff1a; 从Java 9开始&#xff0c;Oracle已经不再单独提供JRE&#xff08;Java Runtime Environment&#xff09;了&#xff0c;而是直接将JRE集成在JDK&#xff08;Java Development Kit&#xff09;中。这是因为JRE包含了运行Java程序所需的环境&#xff0c;而JDK除…...

安装CUDA与CUDNN与Pytorch(最新超级详细图文版本2023年8月最新)

一、安装CUDA 1.1、下载安装包 cuda可以认为就是Nvidia为了显卡炼丹搞的一个软件&#xff0c;其下载地址为&#xff1a;CUDA Toolkit 12.2 Update 1 Downloads | NVIDIA Developer 当你点进这个链接的时候&#xff0c;你需要依次选择 1是选择系统&#xff0c;这里选windows…...

内存快照:宕机后,Redis如何实现快速恢复?RDB

AOF的回顾 回顾Redis 的AOF的持久化机制。 Redis 避免数据丢失的 AOF 方法。这个方法的好处&#xff0c;是每次执行只需要记录操作命令&#xff0c;需要持久化的数据量不大。一般而言&#xff0c;只要你采用的不是 always 的持久化策略&#xff0c;就不会对性能造成太大影响。 …...

Linux之 Ubuntu 安装常见服务 (二) Tomcat

安装TomCat 服务 1、安装JDK环境 https://www.oracle.com/java/technologies/downloads/ 下载的官网 wget https://download.oracle.com/java/20/latest/jdk-20_linux-x64_bin.deb (sha256) 使用dpkg进行软件安装时&#xff0c;提示&#xff1a;dpkg&#xff1a;处理软件包XX…...

docker 配置 Mysql主从集群

Docker version 20.10.17, build 100c701 MySQL Image version: 8.0.32 Docker container mysql-master is source. mys ql-replica is replication. master source. replica slave.名称叫法不一样而已。 Choose one of the way&#xff0c;与replica同步数据两种情况&…...

Layui实现OA会议系统之会议管理模块总合

目录 一、项目背景 二、项目概述 1. 概述 2. 环境搭建 3. 工具类引用 4. 功能设计 4.1 会议发布 4.2 我的会议 4.3 会议审批 4.4 会议通知 4.5 待开会议 4.6 历史会议 4.7 所有会议 5. 性能优点 5.1 兼容性好 5.2 可维护性和可扩展性 5.3 轻量灵活 5.4 模块化设计…...

fishing之踩坑篇捕获数据不齐全

文章目录 一、问题记录二、解决方法三、更新钓鱼模板四、进行点击邮件五、查看仪表盘免责声明 一、问题记录 通过点击邮件内的链接&#xff0c;提交数据&#xff0c;但是只记录密码&#xff0c;无法记录username 二、解决方法 对于需要被捕获的表单数据&#xff0c;除了inp…...

ppt使用笔记

文章目录 如何让文档好看纯文字绝对不可行多用流程图和效果图切换动画母版音乐视频 作品渐变星空放大镜随机抽奖 其他快捷键 作为一个开发&#xff0c;对这种表现类型的软件一直不太上心&#xff0c;但有些场景要用到ppt&#xff0c;例如述职和项目案例分享。 很直观的体验就是…...

java中的hashmap和concurrenthashmap解析

hashmap的初始化数组大小为16&#xff0c;如果发生哈希冲突的时候在当前的索引后面采用头插法以链表的形式继续插入节点。 concurrenthashmap的结构图如下所示&#xff1a; 本身不是16个节点吗&#xff1f;这里分为两个长度为4的数组&#xff0c;变成了4*4总共16个节点&#x…...

元素2D转3D 椭圆形旋转实现

椭圆旋转功能展示 transform-style: preserve-3d;&#xff08;主要css代码&#xff09; gif示例&#xff08;背景图可插入透明以此实现边框线的旋转&#xff09; 导致的无法点击遮挡问题可以参考我的另一个文章 穿透属性-----------------------css穿透属性 实时代码展示...

Centos7.9 制作openssh9.2p2 rpm升级包和升级实战

一、背景说明 Centos7.9 默认安装的openssh 版本为7.4p1&#xff0c;经绿盟扫描&#xff0c;存在高危漏洞&#xff0c;需要升级到最新。 官网只提供编译安装包&#xff0c;为了方便升级&#xff0c;先通过编译安装包&#xff0c;制作rpm包&#xff0c;并进行升级 如下为做好…...

JavaScript学习(3)

Web API 是开发人员的梦想。 它可以扩展浏览器的功能它可以极大简化复杂的功能它可以为复杂的代码提供简单的语法 什么是 Web API&#xff1f; API 指的是应用程序编程接口&#xff08;Application Programming Interface&#xff09;。 Web API 是 Web 的应用程序编程接口…...

2023华为OD机试真题Java实现【寻找最大价值的矿堆/深度优先搜索】

前言 本题使用Java实现,如果需要Python代码,请点击以下链接 点我 题目 我们规定,0表示空地,1表示银矿、2表示金矿,矿堆表示由相邻的金矿或银矿连接形成的地图。 银矿价值是1 ,金矿价值是2 ,你的目标是找出地图中最大价值的矿堆,并且输出该矿堆的价值 示例1 输入:…...

PyTorch 2.8镜像实操手册:Git+vim+htop+screen开发运维一体化工作流

PyTorch 2.8镜像实操手册&#xff1a;Gitvimhtopscreen开发运维一体化工作流 1. 镜像概述与环境准备 PyTorch 2.8深度学习镜像是一个为专业开发者打造的全功能工作环境&#xff0c;基于RTX 4090D 24GB显卡和CUDA 12.4进行了深度优化。这个镜像不仅预装了最新版的PyTorch框架&…...

OpenClaw+Qwen2.5-VL-7B省钱方案:自建多模态接口替代GPT-4V

OpenClawQwen2.5-VL-7B省钱方案&#xff1a;自建多模态接口替代GPT-4V 1. 为什么选择本地多模态方案 去年我在开发一个智能内容管理工具时&#xff0c;频繁调用GPT-4V处理截图和文档解析&#xff0c;每月账单轻松突破2000元。最痛心的是&#xff0c;80%的简单图片识别任务其实…...

掌握高效自动化抢票:3个专业策略突破90%成功率瓶颈

掌握高效自动化抢票&#xff1a;3个专业策略突破90%成功率瓶颈 【免费下载链接】ticket-purchase 大麦自动抢票&#xff0c;支持人员、城市、日期场次、价格选择 项目地址: https://gitcode.com/GitHub_Trending/ti/ticket-purchase 大麦自动抢票开源工具是一款基于Sele…...

LeetCode 热题100——128.最长连续序列

题目&#xff1a;给定一个未排序的整数数组 nums &#xff0c;找出数字连续的最长序列&#xff08;不要求序列元素在原数组中连续&#xff09;的长度。请你设计并实现时间复杂度为 O(n) 的算法解决此问题。示例 1&#xff1a;输入&#xff1a;nums [100,4,200,1,3,2] 输出&…...

JAVA重点基础、进阶知识及易错点总结(15)缓冲流 + 转换流

&#x1f680; Java 巩固进阶 第15天 主题&#xff1a;缓冲流 转换流 —— 高效 IO 与编码安全的终极方案&#x1f4c5; 进度概览&#xff1a;今天学习 生产环境真正在用的流组合&#xff01;掌握缓冲流 转换流&#xff0c;你的文件操作代码才能达到"标准、高效、不乱码…...

构建企业级抓取服务:基于快马平台的openclaw生产环境部署实战

今天想和大家分享一个实战经验&#xff1a;如何用InsCode(快马)平台快速搭建企业级的openclaw分布式抓取服务。这个方案特别适合需要处理大规模数据采集的业务场景&#xff0c;比如电商价格监控、舆情分析或者竞品追踪。 分布式架构设计 生产环境最怕单点故障&#xff0c;所以我…...

等保.三级要求下Redis 安全测评应该怎么做?

1. 引入 在现代 AI 工程中&#xff0c;Hugging Face 的 tokenizers 库已成为分词器的事实标准。不过 Hugging Face 的 tokenizers 是用 Rust 来实现的&#xff0c;官方只提供了 python 和 node 的绑定实现。要实现与 Hugging Face tokenizers 相同的行为&#xff0c;最好的办法…...

Ubuntu 24.04 内核 Kernel Panic 问题排查与解决流程(第二次出现该问题后,永久性解决)

问题描述 系统更新后重启&#xff0c;出现以下错误&#xff1a; Kernel panic - not syncing: VFS: Unable to mount root fs on unknown-block(0,0)系统无法正常启动。问题原因分析 错误含义 内核在启动过程中无法找到并挂载根文件系统。unknown-block(0,0) 表示内核完全不知道…...

千问3.5-27B知识库应用:OpenClaw变身技术问答助手

千问3.5-27B知识库应用&#xff1a;OpenClaw变身技术问答助手 1. 为什么需要本地化技术问答助手&#xff1f; 去年我在开发一个开源项目时&#xff0c;遇到了一个奇怪的Docker网络问题。当时在Stack Overflow上搜索了半天&#xff0c;找到的答案要么过时&#xff0c;要么不适…...

Qwen3.5-9B-AWQ-4bit企业应用落地:电商商品图智能解析与文字提取实战

Qwen3.5-9B-AWQ-4bit企业应用落地&#xff1a;电商商品图智能解析与文字提取实战 1. 电商场景下的图片理解挑战 在电商运营中&#xff0c;每天需要处理海量商品图片。传统的人工审核和标注方式面临三大痛点&#xff1a; 效率瓶颈&#xff1a;人工处理一张商品图平均需要3-5分…...