当前位置：首页 > news >正文

【扒代码】图像数据 Transformer

news 2026/2/11 3:34:00

def forward(self, x, bboxes):# 确定对象的数量，如果不是零样本学习场景，则根据bboxes的数量确定num_objects = bboxes.size(1) if not self.zero_shot else self.num_objects# backbone# 通过主干网络提取特征backbone_features = self.backbone(x)# prepare the encoder input# 准备编码器的输入src = self.input_proj(backbone_features)# 获取特征的尺寸bs, c, h, w = src.size()# TODO 问题：为什么要匹配，为什么要调整，为什么要这么设计# 生成位置编码并调整其形状以匹配编码器的输入pos_emb = self.pos_emb(bs, h, w, src.device).flatten(2).permute(2, 0, 1)# 调整src的形状src = src.flatten(2).permute(2, 0, 1)# push through the encoder# 通过编码器处理特征if self.num_encoder_layers > 0:image_features = self.encoder(src, pos_emb, src_key_padding_mask=None, src_mask=None)else:image_features = src# prepare OPE input# 准备OPE（对象原型提取）模块的输入f_e = image_features.permute(1, 2, 0).reshape(-1, self.emb_dim, h, w)

为什么要匹配，为什么要调整，为什么要这么设计

pos_emb = self.pos_emb(bs, h, w, src.device).flatten(2).permute(2, 0, 1)

src = src.flatten(2).permute(2, 0, 1)

在这段代码中，pos_emb 代表位置编码（positional encoding），而 src 是通过主干网络提取的特征。代码中的匹配和形状调整是为了确保数据的维度与模型的输入要求一致。以下是对这些操作的详细解释：

生成位置编码 (pos_emb):
- 位置编码用于为模型提供序列中每个元素的位置信息。在自然语言处理中，这是常见的做法，而在视觉任务中，可以类似地为特征图的每个像素提供位置信息。
- self.pos_emb(bs, h, w, src.device) 创建了一个位置编码，其大小与特征图 (bs, c, h, w) 相匹配，其中 bs 是批次大小，h 和 w 分别是特征图的高度和宽度。
- .flatten(2) 将位置编码在最后两个维度上展平，.permute(2, 0, 1) 重新排列维度，使其形状从 (bs, c, h, w) 变为 (h, w, bs, c)，以匹配后续操作的要求。
调整 src 的形状:
- src = src.flatten(2).permute(2, 0, 1) 这行代码对特征图 src 执行了与位置编码相同的操作，确保两者的形状可以对齐，以便于后续的处理步骤。
为什么要匹配和调整形状:
- 维度对齐：许多深度学习模型，特别是基于Transformer的模型，要求输入具有特定的形状。调整形状可以确保数据能够流入模型的其他部分。
- 编码器输入要求：Transformer 编码器期望输入具有 (seq_length, batch_size, feature_size) 的形状。在这里，seq_length 可以是特征图的面积（即 h * w），batch_size 是 bs，而 feature_size 是通道数 c。
- 多头自注意力机制：Transformer 中的自注意力层使用 (batch_size, seq_length, feature_size) 的形状来进行计算。通过调整形状，我们可以将特征图作为序列处理。
设计考虑:
- 灵活性：通过将特征图视为序列，Transformer 模型可以灵活地处理不同分辨率的特征。
- 并行处理：调整形状后，可以并行处理特征图的每个元素，这在自注意力计算中是高效的。
- 兼容性：这种设计允许模型接受不同大小的特征图输入，同时保持内部处理流程的一致性。

在视觉任务中，将特征图处理为序列是常见的做法，特别是在使用Transformer架构时。这使得模型能够捕获空间关系并处理图像数据，就像处理文本序列一样。位置编码的添加是为了保留特征图中每个元素的空间位置信息，这对于理解图像结构和执行特定任务（如目标检测）是重要的。

【扒代码】图像数据 Transformer

def forward(self, x, bboxes):# 确定对象的数量，如果不是零样本学习场景，则根据bboxes的数量确定num_objects bboxes.size(1) if not self.zero_shot else self.num_objects# backbone# 通过主干网络提取特征backbone_features self.backbone(x)# pre…...

编程日记 2024/8/12 18:03:33

光伏仿真系统的使用流程

为了更有效地规划设计并评估光伏电站的性能与经济性，光伏仿真系统应运而生。该系统通过模拟实际运行场景，为项目开发者提供全面的数据支持和决策依据。 1、气象数据分析气象数据是光伏系统性能评估的基础。此阶段，仿真系统需收集并处理项目…...

编程日记 2024/8/12 18:02:32

【Dash】使用 dash_mantine_components 创建图表

一、Styling Your App The examples in the previous section used Dash HTML Components to build a simple app layout, but you can style your app to look more professional. This section will give a brief overview of the multiple tools that you can use to enhan…...

编程日记 2024/8/12 18:01:31

Unity 输入模块之初识新输入系统（其实也不新）

本文仅作笔记学习和分享，不用做任何商业用途本文包括但不限于unity官方手册，unity唐老狮等教程知识，如有不足还请斧正 1.介绍当年的宣传网页Unity新一代输入系统介绍 - 技术专栏 - Unity官方开发者社区老输入系统每次配置新项目都需要写…...

编程日记 2024/8/12 18:00:29

springboot+redis集群实现集群拓扑动态刷新温故

springboot项目，并集成redis集群，当redis集群节点宕掉后又恢复了，但springboot调用redis集群服务报错，下面对springboot集成redis集群实现集群拓扑动态刷新进行温习和巩固。原因分析： 使用lettuce连接redis集群实例&a…...

编程日记 2024/8/12 17:59:28

LoadRunner常用函数介绍

内置函数和Jmeter差不多，Jmeter更火，更好百度，毕竟开源，用的人多，所以有些函数如果不太懂用法，可以百度Jmeter作为参考来使用LR。脚本中常用函数事务组 lr_start_transaction("KaiShi"); //…...

编程日记 2024/8/12 17:58:26

通讯录管理系统

目录一. 实验目的二. 系统设计三. 系统设计流程： 四. 实验结果及效果展示五. 实验总结六. 附录：源代码一. 实验目的本次实验旨在通过实现一个简单的通讯录管理系统，加深对C语言结构体、数组、指针、函数、控制结构等基本概念的理…...

编程日记 2024/8/12 17:53:21

基于Python爬虫+机器学习的长沙市租房价格预测研究

🤵‍♂️ 个人主页：艾派森的个人主页 ✍🏻作者简介：Python学习者 🐋 希望大家多多支持，我们一起进步！😄 如果文章对你有帮助的话， 欢迎评论 💬点赞&#x1f4…...

编程日记 2024/8/12 17:52:20

开发效率翻倍攻略！大学生电脑小白管理秘籍，资料秒搜技巧大公开！C盘满了怎么办？如何快速安全的清理C盘？烦人的电脑问题？一键解决！

如何正确管理自己的第一台电脑？大一新生如何管理自己的电脑？老鸟如何追求快捷操作电脑？ 文章目录如何正确管理自己的第一台电脑？大一新生如何管理自己的电脑？老鸟如何追求快捷操作电脑？前言初级基础分区操…...

编程日记 2024/8/12 17:51:19

[C#数据加密]——MD5、SHA、AES、RSA

一、C#数据加密介绍数据加密是信息安全领域的一个重要组成部分，它用于保护数据不被未授权访问。以下是一些常见的加密算法和方法： 1、MD5 (Message Digest Algorithm 5): 一种广泛使用的哈希函数，可以产生128位的哈希值。通常用于验证文件完…...

编程日记 2024/8/12 17:49:16

QT不阻塞UI的方式

方法1：QtConcurrent #include <QtConcurrent> #include <QFuture> #include <QFutureWatcher> #include <QDebug>void longRunningTask() {// 模拟耗时操作QThread::sleep(5); }void startTask() {QFuture<void> future QtConcurre…...

编程日记 2024/8/12 17:47:14

鸿蒙HarmonyOS开发：常用布局及实用技巧

文章目录一、概述二、盒子模型三、线性布局（Column/Row）1、space属性2、justifyContent属性3、alignItems属性四、实用技巧1、Blank组件的使用2、layoutWeight属性的使用一、概述布局是指对页面组件进行排列和定位的过程，其目的是有效地…...

编程日记 2024/8/12 17:45:12

【解答】洛必达法则的使用条件及常见错误，洛必达法则的适用条件，常见的易错点，2022数一第一题例题

目录洛必达法则的使用条件及常见错误洛必达法则的适用条件常见的易错点举例说明（见D选项） 总结 🌈 嗨，我是命运之光！ 🌌 2024，每日百字，记录时光，感谢有你&…...

编程日记 2024/8/12 17:44:11

使用Python下载飞书共享表格数据教程

写在前面随着企业协作办公软件的流行，飞书以其高效的协作能力和便捷的共享功能，成为了许多公司必备的工具之一。在日常工作中，我们经常需要从飞书中下载共享的表格数据进行分析。本文将详细介绍如何使用Python下载飞书共享表格数据。前置…...

编程日记 2024/8/12 17:43:09

【C++】protobuf的简单使用（通讯录例子）

protobuf的简单使用（通讯录例子） .proto文件的编写保留字段字段唯一编号protobuf的类型enum类型Any类型oneof类型map类型完整通讯录代码.proto文件write文件read文件运行结果 .proto文件的编写 syntax用于指定protobuf的语法；package当.prot…...

编程日记 2024/8/12 17:42:08

Apple 智能基础语言模型

Introducing Apple’s On-Device and Server Foundation Models technical details June 10, 2024 在2024年的全球开发者大会上，苹果推出了Apple Intelligence，这是一个深度集成到iOS 18、iPadOS 18和macOS Sequoia中的个人智能系统。Apple Intelligen…...

编程日记 2024/8/12 17:35:59

GreptimeDB融资数百万美元； Oracle提供免费长期MySQL；谷歌大模型支持云数据库问题洞察

重要更新 1. 开源时序数据库 GreptimeDB宣布完成数百万美元的新一轮融资。GreptimeDB是一款Rust 语言编写的时序数据库，具有分布式，开源，云原生，兼容性强等特点，帮助企业实时读写、处理和分析时序数据的同时&#xff0…...

编程日记 2024/8/12 17:33:55

Java中的抽象类与接口

1. 抽象类 1.1 抽象类概念在面向对象的概念中，所有的对象都是通过类来描绘的，但是反过来，并不是所有的类都是用来描绘对象的， 如果一个类中没有包含足够的信息来描绘一个具体的对象，这样的类就是抽象类。比如&…...

编程日记 2024/8/12 17:31:53

云计算概念以及与云服务的区别

目录 1.云的概念 1.1 什么是云？ 1.2 云计算的类型 1.3 云计算的服务模式 1.4 云计算的优势 2.云计算和云服务的区别 2.1 定义 2.2 范围 2.3 角色 2.5 举例 2.6使用者 3.总结 1.云的概念 1.1 什么是云？ “云”在计算机科学和信息技术领域通常…...

编程日记 2024/8/12 17:30:51

Netty技术全解析：LengthFieldBaseFrameDecoder类深度解析

❃博主首页 ： 「码到三十五」 ，同名公众号 :「码到三十五」，wx号 : 「liwu0213」 ☠博主专栏 ： <mysql高手> <elasticsearch高手> <源码解读> <java核心> <面试攻关> ♝博主的话 &#xff1a…...

编程日记 2024/8/12 17:28:49

网络编程（Modbus进阶）

思维导图 Modbus RTU（先学一点理论） 概念 Modbus RTU 是工业自动化领域最广泛应用的串行通信协议，由 Modicon 公司（现施耐德电气）于 1979 年推出。它以高效率、强健性、易实现的特点成为工业控制系统的通信标准。包…...

编程新知 2026/2/9 2:42:51

【kafka】Golang实现分布式Masscan任务调度系统

要求： 输出两个程序，一个命令行程序（命令行参数用flag）和一个服务端程序。命令行程序支持通过命令行参数配置下发IP或IP段、端口、扫描带宽，然后将消息推送到kafka里面。服务端程序： 从kafka消费者接收…...

编程新知 2026/2/8 20:41:58

【OSG学习笔记】Day 18: 碰撞检测与物理交互

物理引擎（Physics Engine） 物理引擎是一种通过计算机模拟物理规律（如力学、碰撞、重力、流体动力学等）的软件工具或库。它的核心目标是在虚拟环境中逼真地模拟物体的运动和交互，广泛应用于游戏开发、动画制作、虚…...

编程新知 2026/2/4 2:08:30

python如何将word的doc另存为docx

将 DOCX 文件另存为 DOCX 格式（Python 实现） 在 Python 中，你可以使用 python-docx 库来操作 Word 文档。不过需要注意的是，.doc 是旧的 Word 格式，而 .docx 是新的基于 XML 的格式。python-docx 只能处理 .docx 格式…...

编程新知 2025/12/13 22:42:30

HBuilderX安装（uni-app和小程序开发）

下载HBuilderX 访问官方网站：https://www.dcloud.io/hbuilderx.html 根据您的操作系统选择合适版本： Windows版（推荐下载标准版） Windows系统安装步骤运行安装程序： 双击下载的.exe安装文件如果出现安全提示&…...

编程新知 2026/1/31 12:52:04

DBAPI如何优雅的获取单条数据

API如何优雅的获取单条数据案例一对于查询类API，查询的是单条数据，比如根据主键ID查询用户信息，sql如下： select id, name, age from user where id #{id}API默认返回的数据格式是多条的，如下： {&qu…...

编程新知 2026/2/2 22:06:13

Spring Boot+Neo4j知识图谱实战：3步搭建智能关系网络！

一、引言在数据驱动的背景下，知识图谱凭借其高效的信息组织能力，正逐步成为各行业应用的关键技术。本文聚焦 Spring Boot与Neo4j图数据库的技术结合，探讨知识图谱开发的实现细节，帮助读者掌握该技术栈在实际项目中的落地方法。 …...

编程新知 2025/9/17 21:39:04

零基础在实践中学习网络安全-皮卡丘靶场（第九期-Unsafe Fileupload模块）（yakit方式）

本期内容并不是很难，相信大家会学的很愉快，当然对于有后端基础的朋友来说，本期内容更加容易了解，当然没有基础的也别担心，本期内容会详细解释有关内容本期用到的软件：yakit（因为经过之前好多期…...

编程新知 2026/1/21 12:29:04

Aspose.PDF 限制绕过方案：Java 字节码技术实战分享（仅供学习）

Aspose.PDF 限制绕过方案：Java 字节码技术实战分享（仅供学习） 一、Aspose.PDF 简介二、说明（⚠️仅供学习与研究使用）三、技术流程总览四、准备工作1. 下载 Jar 包2. Maven 项目依赖配置五、字节码修改实现代码&#…...

编程新知 2026/2/6 22:13:44

现有的 Redis 分布式锁库（如 Redisson）提供了哪些便利？

现有的 Redis 分布式锁库（如 Redisson）相比于开发者自己基于 Redis 命令（如 SETNX, EXPIRE, DEL）手动实现分布式锁，提供了巨大的便利性和健壮性。主要体现在以下几个方面： 原子性保证 (Atomicity)&#xff…...

编程新知 2025/9/23 11:26:04

为什么要匹配，为什么要调整，为什么要这么设计

相关文章：