当前位置：首页 > news >正文

【机器学习合集】模型设计之注意力机制动态网络 -＞（个人学习记录笔记）

news 2026/2/11 6:13:16

文章目录

注意力机制
- 1. 注意力机制及其应用
- - 1.1 注意力机制的定义
  - 1.2 注意力机制的典型应用
- 2. 注意力模型设计
- - 2.1 空间注意力机制
  - 2.2 空间注意力模型
  - 2.3 通道注意力机制
  - 2.4 空间与通道注意力机制
  - 2.5 自注意力机制
  - 2.5 级联attention
动态网络
- 1. 动态网络的定义
- 2. 基于丢弃策略的动态网络
- - 2.1 随机深度残差网络
  - 2.2 模块丢弃残差网络
  - 2.3 BranchyNet网络
  - 2.4 Spatially Adaptive Computing Time(SACT)
- 3. 基于注意力机制的动态网络
- - 3.1 动态卷积(Dynamic Convolution)
  - 3.2 动态空间模型(Dynamic RegionAware Convolution)
- 4. 基于合并策略的动态网络
- - 4.1 Deep Rebirth
  - 4.2 RepVGG

注意力机制

注意力机制（Attention Mechanism）是一种在深度学习模型中用于加强不同输入元素之间关联性的方法。它模拟了人类感知中的注意力过程，允许模型在处理数据时选择性地关注重要的信息，以提高性能。
以下是有关注意力机制在模型设计中的重要性和应用：

自然语言处理（NLP）：
在自然语言处理中，注意力机制常用于机器翻译、文本摘要、问答等任务。通过注意力机制，模型可以在生成输出时关注输入序列中与当前生成标记相关的部分。
注意力机制有助于提高翻译质量，生成更准确的摘要，以及在问答任务中定位正确的上下文信息。

计算机视觉：
在计算机视觉中，注意力机制可以用于目标检测、图像分类和图像分割。通过注意力机制，模型可以在处理图像时关注与任务相关的图像区域或特征。
这有助于改善目标检测的准确性，特别是在多目标场景中，以及提高图像分类性能。

强化学习：
在强化学习中，注意力机制可以用于选择执行动作的策略。模型可以在每个时间步上选择性地关注不同状态或观察，以优化决策。
注意力机制在增强学习中的应用可以提高智能体的性能，特别是在复杂环境中的任务。

自动编码器和生成对抗网络：
注意力机制还可以用于自动编码器（Autoencoders）和生成对抗网络（GANs）等模型，以改善特征提取和生成过程。
通过引入注意力机制，模型可以更好地选择和生成重要的特征或样本。

跨模态任务：
在处理跨模态数据（例如，文本和图像的关联）时，注意力机制可以帮助模型在不同模态之间建立关联，以实现更精确的任务。

总之，注意力机制是深度学习模型设计中的一个重要组成部分，可以提高模型的性能、可解释性和适应性。通过引入注意力机制，模型可以更有效地处理大量信息，选择性地关注重要信息，并在各种任务中获得更好的结果。因此，注意力机制已成为各种深度学习任务中的不可或缺的工具。

1. 注意力机制及其应用

1.1 注意力机制的定义

Attention，对图像中不同区域或者句子中的不同部分给予不同的权重，从而找到感兴趣的区域，抑制不感兴趣区域

1.2 注意力机制的典型应用

显著目标检测，图像修复，图像编辑
机器翻译，摘要生成，图像描述

2. 注意力模型设计

2.1 空间注意力机制

显著目标检测模型，Saliency Object Detection，预测显著目标概率图

2.2 空间注意力模型

动态容量网络，Dynamic Capacity Networks
空间变换网络，STN(spatial transform network)

2.3 通道注意力机制

SENet ,2017年ImageNet分类冠军网络

2.4 空间与通道注意力机制

CBAM，Convolutional Block Attention Module，同时从空间维度和通道维度进行Attention

2.5 自注意力机制

双线性模型，使用特征外积操作获得自注意力矩阵
非局部卷积，Non-local Network

2.5 级联attention

Residual Attention Network(2018)

动态网络

动态网络（Dynamic Network）是一种神经网络架构，与传统的静态神经网络不同，它允许在模型训练和推理期间根据输入数据的特性动态调整网络结构。这种灵活性可以帮助网络更好地适应不同数据分布和任务需求。以下是一些关于动态网络的设计和应用方面的考虑：

自适应结构：
在动态网络中，网络结构可以根据输入数据的特性自动调整。这意味着网络可以动态地添加或删除层、模块或通道，以适应不同的输入数据。
自适应结构可以提高模型的泛化性能，使其更适合于变化的数据分布，特别是在面对不平衡数据或噪声数据时。

注意机制：
动态网络通常使用注意力机制（Attention Mechanism），以根据输入数据的不同部分调整网络的关注度。这有助于模型更好地关注重要的信息。
注意机制在自然语言处理（NLP）和计算机视觉中的动态网络中得到广泛应用，例如，自然语言问答和图像标注任务。

遗忘机制：
一些动态网络可以学习遗忘不需要的信息，从而提高模型的效率。这在处理长序列或大型数据时尤其有用。
遗忘机制可以降低模型的计算复杂度，同时保持高性能。

模块化设计：
动态网络通常采用模块化的设计，模块可以根据需要堆叠或重复。这种设计使得网络更易于扩展和调整。
模块化设计对于构建可重复使用的模型部分和快速迭代设计是有利的。

预测网络结构：
有些动态网络可以预测网络的结构，以更好地适应特定任务。这通常涉及到使用强化学习等方法来优化网络的结构。
预测网络结构的方法对于模型设计的自动化和优化非常有前景。

实时决策：
动态网络可以用于实时决策，例如自动驾驶、机器人控制或游戏决策，因为它们能够根据实时输入进行动态调整。

总之，动态网络是一种具有适应性和灵活性的神经网络架构，可以根据不同的任务和输入数据自动或手动地调整网络结构。这种灵活性使动态网络适用于各种不同的应用领域，尤其是需要适应变化的数据和任务要求的情况。

1. 动态网络的定义

网络结构在训练或推理时表现出不同的结构、对不同的样本，表现出不同
研究动态网络原因：提高模型的泛化能力，减少计算量

2. 基于丢弃策略的动态网络

2.1 随机深度残差网络

残差网络可以看作是多个不同深度模型的集成，“Residual networks behave like ensembles of relatively shallow networks"

2.2 模块丢弃残差网络

Blockdrop，学习丢弃策略的残差模块

2.3 BranchyNet网络

对于不同的样本，根据累积的嫡来决定是否提前退出推理，越简单的样本，计算量越小

2.4 Spatially Adaptive Computing Time(SACT)

对每一个残差单元的输出添加一个分支，用于预测halting score(累积概率，0~1)

3. 基于注意力机制的动态网络

3.1 动态卷积(Dynamic Convolution)

根据输入图像，采用注意力机制自适应地调整卷积参数

3.2 动态空间模型(Dynamic RegionAware Convolution)

根据输入图像不同特征图上不同区域，采用不同的卷积核进行计算

4. 基于合并策略的动态网络

4.1 Deep Rebirth

合并非tensor层，包括BN层，Pooling , Scale层，以及多个分支

4.2 RepVGG

训练时存在跳层连接，训练后合并连接

注：部分内容来自阿里云天池

【机器学习合集】模型设计之注意力机制动态网络 -＞（个人学习记录笔记）

文章目录注意力机制1. 注意力机制及其应用1.1 注意力机制的定义1.2 注意力机制的典型应用 2. 注意力模型设计2.1 空间注意力机制2.2 空间注意力模型2.3 通道注意力机制2.4 空间与通道注意力机制2.5 自注意力机制2.5 级联attention 动态网络1. 动态网络的定义2. 基于丢弃策略的…...

编程日记 2023/11/4 6:04:45

【jvm】方法的调用

目录一、方法的调用二、非虚方法三、虚方法四、虚拟机调用指令4.1 普通调用指令4.2 动态调用指令五、代码示例5.1 父类5.2 子类5.3 接口5.4 接口实现六、方法指令七、说明八、invokedynamic指令8.1 说明8.2 代码示例8.3 main方法指令九、方法重写的本质十、虚方法表一、方…...

编程日记 2023/11/4 6:03:42

Linux中的进程等待

文章目录 1.进程等待1.1进程等待必要性1.1.1为什么有进程等待这个概念1.1.2进程等待是什么？1.1.3进程等待具体干什么？ 1.2进程退出方法： 2.具体代码实现 1.进程等待 1.1进程等待必要性 1.1.1为什么有进程等待这个概念之前讲过&#xff0c…...

编程日记 2023/11/4 6:02:40

ubuntu22.04桌面完整版配置WiFi方法（修改磁盘文件方式--不需要显示器）(注意了：后来发现这个方法是错误的！！！）

打开这个文件： /etc/network/interfaces 一般来说这个文件是无法修改的，但是可以通过在/etc/network/文件夹找一个叫做interfaces.d的文件夹，(正常的Ubuntu系统跟这个树莓派的Ubuntu系统不一样，正常系统没有这个interfaces文件)…...

编程日记 2023/11/4 6:01:39

React项目使用craco修改webpack配置

React项目使用craco 通过Create React App（CRA）搭建的react项目，webpack的相关配置是被默认隐藏起来的，如果想修改关于webpack的相关配置，有两种方式： npm run ejectcraco npm run eject npm run eject…...

编程日记 2023/11/4 6:00:37

@RunWith(SpringRunner.class)注解的作用

通俗点： RunWith(SpringRunner.class)的作用表明Test测试类要使用注入的类，比如Autowired注入的类，有了RunWith(SpringRunner.class)这些类才能实例化到spring容器中，自动注入才能生效官方点： RunWith 注解是JUnit测…...

编程日记 2023/11/4 5:59:36

深入理解网络IO复用并发模型

本文主要介绍服务端对于网络并发模型以及Linux系统下常见的网络IO复用并发模型。文章内容一共分为两个部分。第一部分主要介绍网络并发中的一些基本概念以及我们Linux下常见的原生IO复用系统调用（epoll/select）等。第二部分主要介绍并发场景下常见的网…...

编程日记 2023/11/4 5:57:34

二叉树采用二叉链表存储：编写计算整个二叉树高度的算法

二叉树采用二叉链表存储：编写计算整个二叉树高度的算法 (二叉树的高度也叫二叉树的深度) 代码思路： 首先你要明白什么是树的高度，简言之就是树有多少层，如下图： 下面这棵树的高度就是4 首先我们观察根节点&#xff0…...

编程日记 2023/11/4 5:56:32

antd Cascader级联菜单无法赋值回显问题

说起来太丢人了，自己还拿官网例子在这里调试半天，最后发现是一个特别小儿科的问题哈哈 Cascader级联数据是服务端返回然后自己处理过的，使用了cascader的fileNames属性重置字段名，最后发现服务端回传的数据无法赋值回显在组件上&…...

编程日记 2023/11/4 5:55:32

在react中使用redux react-redux的使用demo

前言: redux是一种状态管理工具,可以存储和操作一些全局或者很多组件需要使用的公共数据。平心而论,redux的使用对于新上手来说不太友好,多个依赖包的,多种api的结合使用,相对来说比做同样一件事的vuex用起来比较麻烦.不过,熟能生巧,用多了也就习惯了,下面是个人的一个demo,…...

编程日记 2023/11/4 5:54:31

Flutter 06 动画

一、动画基本原理以及Flutter动画简介 1、动画原理： 在任何系统的Ul框架中，动画实现的原理都是相同的，即：在一段时间内，快速地多次改变Ul外观；由于人眼会产生视觉暂留，所以最终看到的就是一个…...

编程日记 2023/11/4 5:53:30

优化改进YOLOv5算法之添加MS-Block模块，有效提升目标检测效果(超详细)

目录前言 1 MS-Block原理 1.1 Multi-Scale Building Block Design 1.2 Heterogeneous Kernel Selection Protocol 2 YOLOv5算法中加入MS-Block...

编程日记 2023/11/4 5:52:29

【论文阅读】Iterative Poisson Surface Reconstruction (iPSR) for Unoriented Points

文章目录声明作者列表核心思想归纳算法流程机器翻译声明本帖更新中如有问题，望批评指正！如果有人觉得帖子质量差，希望在评论中给出建议，谢谢！作者列表 FEI HOU（侯飞）、CHIYU WANG、WENCHENG WANG：中国科学院大学 HONG QIN CHEN QIAN、YING HE 核心思想归纳当一条从…...

编程日记 2023/11/4 5:51:27

参考:https://blog.csdn.net/qnloft/article/details/131218295 import akshare as ak 个股的 df ak.stock_zh_a_hist_min_em(symbol“000001”, start_date“2023-11-03 09:30:00”, end_date“2023-11-03 15:00:00”, period‘1’, adjust‘’) print(df) date_info df[‘…...

编程日记 2023/11/4 5:49:24

【论文阅读笔记】Traj-MAE: Masked Autoencoders for Trajectory Prediction

Abstract 通过预测可能的危险，轨迹预测一直是构建可靠的自动驾驶系统的关键任务。一个关键问题是在不发生碰撞的情况下生成一致的轨迹预测。为了克服这一挑战，我们提出了一种有效的用于轨迹预测的掩蔽自编码器(Traj-MAE)，它能更好地代表驾驶…...

编程日记 2023/11/4 5:48:23

MySQL - Zero date value prohibited

问题: timestamp字段报Caused by: com.mysql.cj.exceptions.DataReadException: Zero date value prohibited 原因: timestamp字段存入了0值, 超出了最小值1900-01-01 00:00:00, 转Java对象的时候报错解决: 1.修复或删除原数据 2. mysqlurl 中添加zeroDateTimeBehaviorconve…...

编程日记 2023/11/4 5:47:22

设计模式——迭代器模式（Iterator Pattern）+ Spring相关源码

文章目录一、迭代器模式二、例子2.1 菜鸟例子2.1.1 定义迭代器接口2.1.2 定义迭代对象接口——用于返回一个迭代器2.1.3 实现迭代对象和迭代器2.1.4 使用 2.2 JDK源码——ArrayList2.3 Spring源码——DefaultListableBeanFactory 三、其他设计模式一、迭代器模式类型&am…...

编程日记 2023/11/4 5:46:22

【word技巧】ABCD选项如何对齐？

使用word文件制作试卷，如何将ABCD选项全部设置对齐？除了一直按空格或者Tab键以外，还有其他方法吗？今天分享如何将ABCD选项对齐。首先，我们打开【替换和查找】，在查找内容输入空格，然后点击全部…...

编程日记 2023/11/4 5:44:20

如何在uni-app小程序端实现长按复制功能

在开发小程序应用中，常常需要使用到长按复制功能。本文将介绍如何在uni-app小程序端实现长按复制功能。 uni-app是一个跨平台的开发框架，可以基于vue.js语法开发小程序、H5、APP等多个平台的应用。uni-app提供了一些内置组件和API，可以方便地…...

编程日记 2023/11/4 5:43:19

基于springboot实现在线考试平台项目【项目源码+论文说明】计算机毕业设计

基于springboot实现在线考试演示摘要网络的广泛应用给生活带来了十分的便利。所以把在线考试管理与现在网络相结合，利用java技术建设在线考试系统，实现在线考试的信息化。则对于进一步提高在线考试管理发展，丰富在线考试管理经验能起到不少…...

编程日记 2023/11/4 5:42:16

eNSP-Cloud(实现本地电脑与eNSP内设备之间通信)

说明： 想象一下，你正在用eNSP搭建一个虚拟的网络世界，里面有虚拟的路由器、交换机、电脑（PC）等等。这些设备都在你的电脑里面“运行”，它们之间可以互相通信，就像一个封闭的小王国。但是&#…...

编程新知 2026/2/8 4:37:17

iOS 26 携众系统重磅更新，但“苹果智能”仍与国行无缘

美国西海岸的夏天，再次被苹果点燃。一年一度的全球开发者大会 WWDC25 如期而至，这不仅是开发者的盛宴，更是全球数亿苹果用户翘首以盼的科技春晚。今年，苹果依旧为我们带来了全家桶式的系统更新，包括 iOS 26、iPadOS 26…...

编程新知 2026/2/8 20:41:56

PHP和Node.js哪个更爽?

先说结论，rust完胜。 php：laravel，swoole，webman，最开始在苏宁的时候写了几年php，当时觉得php真的是世界上最好的语言，因为当初活在舒适圈里，不愿意跳出来，就好比当初活在…...

编程新知 2025/9/14 7:59:52

23-Oracle 23 ai 区块链表（Blockchain Table）

小伙伴有没有在金融强合规的领域中遇见，必须要保持数据不可变，管理员都无法修改和留痕的要求。比如医疗的电子病历中，影像检查检验结果不可篡改行的，药品追溯过程中数据只可插入无法删除的特性需求；登录日志、修改日志…...

编程新知 2026/2/10 8:01:46

linux arm系统烧录

1、打开瑞芯微程序 2、按住linux arm 的 recover按键插入电源 3、当瑞芯微检测到有设备 4、松开recover按键 5、选择升级固件 6、点击固件选择本地刷机的linux arm 镜像 7、点击升级 （忘了有没有这步了估计有） 刷机程序和镜像就不提供了。要刷的时…...

编程新知 2026/2/6 20:07:35

Module Federation 和 Native Federation 的比较

前言 Module Federation 是 Webpack 5 引入的微前端架构方案，允许不同独立构建的应用在运行时动态共享模块。 Native Federation 是 Angular 官方基于 Module Federation 理念实现的专为 Angular 优化的微前端方案。概念解析 Module Federation (模块联邦) Modul…...

编程新知 2026/1/31 13:48:37

leetcodeSQL解题：3564. 季节性销售分析

leetcodeSQL解题：3564. 季节性销售分析题目： 表：sales ---------------------- | Column Name | Type | ---------------------- | sale_id | int | | product_id | int | | sale_date | date | | quantity | int | | price | decimal | -…...

编程新知 2026/2/10 3:44:54

关于 WASM：1. WASM 基础原理

一、WASM 简介 1.1 WebAssembly 是什么？ WebAssembly（WASM） 是一种能在现代浏览器中高效运行的二进制指令格式，它不是传统的编程语言，而是一种低级字节码格式，可由高级语言（如 C、C、Rust&am…...

编程新知 2025/11/19 10:53:07

【学习笔记】深入理解Java虚拟机学习笔记——第4章虚拟机性能监控，故障处理工具

第2章虚拟机性能监控，故障处理工具 4.1 概述略 4.2 基础故障处理工具 4.2.1 jps:虚拟机进程状况工具命令：jps [options] [hostid] 功能：本地虚拟机进程显示进程ID（与ps相同），可同时显示主类&#x…...

编程新知 2026/1/15 1:34:10

rnn判断string中第一次出现a的下标

# coding:utf8 import torch import torch.nn as nn import numpy as np import random import json""" 基于pytorch的网络编写实现一个RNN网络完成多分类任务判断字符 a 第一次出现在字符串中的位置 """class TorchModel(nn.Module):def __in…...

编程新知 2025/9/24 16:25:00