当前位置：首页 > news >正文

6、关于Medical-Transformer

news 2025/7/12 13:26:48

6、关于Medical-Transformer

Axial-Attention原文链接：Axial-attention
Medical-Transformer原文链接：Medical-Transformer

Medical-Transformer实际上是Axial-Attention在医学领域的运行，只是在这基础上增加了门机制，实际上也就是在原来Axial-attention基础之上增加权重机制，虚弱位置信息对于数据的影响，发现虚弱之后的效果比Axial-Attention机制效果更好

Axial-Attention

Axial-Attention与传统Transformer的self-attention相比较,将2D计算转成1D计算，Axial-attention机制，对于qkv的计算，做出了简化，仅仅某个点的横竖两个方向上的特殊，同时在qkv的基础上加上了各自位置特征，这些特征都是更新学习的。

Axial-attention模型架构图

左图为传统的self-attention机制，右图为Axial-attention机制，对于qkv都加上rq，rk，rv这样的位置参数，这些参数都是可以更新的，也就是说，每个的q在和自己对应的横竖轴反向进行计算的时候，q会和自己rq先进行权重计算，同样的k和v也会进行同样的计算，随后进行q和k进行计算得到权重，计算过程和原来的self-attention机制是一样的。

在这里插入图片描述

class AxialAttention(nn.Module):def forward(self, x):# 前向传播函数# 如果设置了 width 参数，调整张量维度顺序if self.width:x = x.permute(0, 2, 1, 3)  # 调整维度顺序else:x = x.permute(0, 3, 1, 2)  # N, W, C, H  调整为 N, C, H, WN, W, C, H = x.shape  # 获取张量形状x = x.contiguous().view(N * W, C, H)  # 重新调整形状，合并 N 和 W 维度# 通过x获得对应的qkv 批归一化后计算 qkvqkv = self.bn_qkv(self.qkv_transform(x))  q, k, v = torch.split(qkv.reshape(N * W, self.groups, self.group_planes * 2, H),[self.group_planes // 2, self.group_planes // 2, self.group_planes], dim=2)  # 将 qkv 拆分为 q, k, v# 计算位置嵌入all_embeddings = torch.index_select(self.relative, 1, self.flatten_index).view(self.group_planes * 2, self.kernel_size, self.kernel_size)q_embedding, k_embedding, v_embedding = torch.split(all_embeddings, [self.group_planes // 2, self.group_planes // 2, self.group_planes], dim=0)  # 拆分嵌入# 计算 QR, KR, QK 相似性，分别计算得出rq，rkqr = torch.einsum('bgci,cij->bgij', q, q_embedding)  # QR: q 和 q_embedding 的爱因斯坦求和kr = torch.einsum('bgci,cij->bgij', k, k_embedding).transpose(2, 3)  # KR: k 和 k_embedding 的爱因斯坦求和，并转置# q和k进行计算，得到最后的权重qk = torch.einsum('bgci, bgcj->bgij', q, k)  # QK: q 和 k 之间的点积# 将 QR, KR, QK 相似性进行堆叠，连在一起进行计算stacked_similarity = torch.cat([qk, qr, kr], dim=1)  # 将 qk, qr, kr 连接起来stacked_similarity = self.bn_similarity(stacked_similarity).view(N * W, 3, self.groups, H, H).sum(dim=1)  # 批归一化并调整形状# similarity为q和k计算得出权重关系similarity = F.softmax(stacked_similarity, dim=3)  # 在第 3 维度上计算 softmax# 将q和v计算出来权重和v加权求和sv = torch.einsum('bgij,bgcj->bgci', similarity, v)  # 将相似度与 v 进行求和# v与位置信息结合sve = torch.einsum('bgij,cij->bgci', similarity, v_embedding)  # 将similarity与 v_embedding 进行求和# 将位置加权后的v和q和k计算结果与v加权的合并，并调整形状输出stacked_output = torch.cat([sv, sve], dim=-1).view(N * W, self.out_planes * 2, H)  # 合并 sv 和 sve，并调整形状output = self.bn_output(stacked_output).view(N, W, self.out_planes, 2, H).sum(dim=-2)  # 批归一化并调整形状# 恢复维度顺序if self.width:output = output.permute(0, 2, 1, 3)  # 调整维度顺序else:output = output.permute(0, 2, 3, 1)  # 调整维度顺序# 如果步长大于 1，应用池化操作if self.stride > 1:output = self.pooling(output)  # 池化return output  # 返回输出

横竖轴计算过程

先通过卷积把特征图缩小，然后横竖轴计算时，是将横轴一起进行计算，然后再进行纵轴计算的，完成计算后，通过1x1卷积将特征图还原为原来的大小，在传入下一层进行计算。

在这里插入图片描述

Medical-Transformer

Medical-Transformer架构图

Medical-Transformer实际就是Axial-attention在医学图像分割领域的应用，medical-tranformer大模型架构采用整个图像进行Axial-attention特征提取，同时也将图像分成多个窗口，对每个窗口进行axial-attention特征提取，窗口由于计算量小，可以多进行几层Axial-attention，最终将整个图像特征和窗口特征融合，完成整个的特征提取，值得一提的是在进行窗口Axial-attention时，qkv都没有加上位置编码(也就是下面部分的图像)。

在这里插入图片描述

主体架构

class medt_net(nn.Module):def _forward_impl(self, x):xin = x.clone()  # 保存输入数据的副本x = self.conv1(x)  # 第一个卷积层x = self.bn1(x)  # 第一个批归一化层x = self.relu(x)  # ReLU 激活函数x = self.conv2(x)  # 第二个卷积层x = self.bn2(x)  # 第二个批归一化层x = self.relu(x)  # ReLU 激活函数x = self.conv3(x)  # 第三个卷积层x = self.bn3(x)  # 第三个批归一化层x = self.relu(x)  # ReLU 激活函数x1 = self.layer1(x)  # 第一个残差层 实际上就是 Gated Axial Attention Layerx2 = self.layer2(x1)  # 第二个残差层 同样是 Gated Axial Attention Layer# 对输入进行插值放大，并通过解码器处理x = F.relu(F.interpolate(self.decoder4(x2), scale_factor=(2, 2), mode='bilinear'))x = torch.add(x, x1)  # 将放大的特征图与 x1 相加x = F.relu(F.interpolate(self.decoder5(x), scale_factor=(2, 2), mode='bilinear'))# 以上完成就是图上方整个图像的卷积过程# -------------------------------------------------------------------------------------------x_loc = x.clone()  # 生成一个本地副本# 下面对图像进行切分，分别对每个窗口进行局部处理，实际上是16个窗口for i in range(0, 4):for j in range(0, 4):x_p = xin[:, :, 32 * i:32 * (i + 1), 32 * j:32 * (j + 1)]  # 提取32x32的局部patch# 逐层卷积处理patchx_p = self.conv1_p(x_p)x_p = self.bn1_p(x_p)x_p = self.relu(x_p)x_p = self.conv2_p(x_p)x_p = self.bn2_p(x_p)x_p = self.relu(x_p)x_p = self.conv3_p(x_p)x_p = self.bn3_p(x_p)x_p = self.relu(x_p)# 进行四个x1_p = self.layer1_p(x_p)  # 第一个残差层（patch-wise） 这里进行的axial-attention在进行qkv计算时，qkv都没有加入位置信息计算x2_p = self.layer2_p(x1_p)  # 第二个残差层（patch-wise）x3_p = self.layer3_p(x2_p)  # 第三个残差层（patch-wise）x4_p = self.layer4_p(x3_p)  # 第四个残差层（patch-wise）# 对patch进行插值放大并通过解码器处理x_p = F.relu(F.interpolate(self.decoder1_p(x4_p), scale_factor=(2, 2), mode='bilinear'))x_p = torch.add(x_p, x4_p)  # 将放大的特征图与 x4_p 相加x_p = F.relu(F.interpolate(self.decoder2_p(x_p), scale_factor=(2, 2), mode='bilinear'))x_p = torch.add(x_p, x3_p)  # 将放大的特征图与 x3_p 相加x_p = F.relu(F.interpolate(self.decoder3_p(x_p), scale_factor=(2, 2), mode='bilinear'))x_p = torch.add(x_p, x2_p)  # 将放大的特征图与 x2_p 相加x_p = F.relu(F.interpolate(self.decoder4_p(x_p), scale_factor=(2, 2), mode='bilinear'))x_p = torch.add(x_p, x1_p)  # 将放大的特征图与 x1_p 相加x_p = F.relu(F.interpolate(self.decoder5_p(x_p), scale_factor=(2, 2), mode='bilinear'))x_loc[:, :, 32 * i:32 * (i + 1), 32 * j:32 * (j + 1)] = x_p  # 将局部处理后的结果放回原始位置# 将整个图片的axial-attention，和每个窗口得出的结果进行结合x = torch.add(x, x_loc)  # 将全局和局部特征进行融合x = F.relu(self.decoderf(x))  # 通过最终的解码器层x = self.adjust(F.relu(x))  # 调整输出return x  # 返回最终输出

Gated Axial Attention Layer

从架构图中可以看出，就是在Axial-attention的基础上，加上了门机制，说白了，也就是在qkv和各自的rq，rk，rv计算完成后，再进行下一步计算之前，进行了一个加权计算，虚弱了位置变量对特征提取结果的影响。

在这里插入图片描述

横向或纵向Gated Axial-attention过程

注意里面qr，kr实际上就是图片中的rq，rk，而

class AxialAttention_dynamic(nn.Module):def forward(self, x):# 判断是否需要对宽度维度进行变换if self.width:x = x.permute(0, 2, 1, 3)  # 交换维度顺序，形状变为 [N, C, W, H]else:x = x.permute(0, 3, 1, 2)  # 交换维度顺序，形状变为 [N, W, C, H]N, W, C, H = x.shape  # 获取输入张量的形状x = x.contiguous().view(N * W, C, H)  # 将张量变形为 [N * W, C, H]print(x.shape)  # 输出形状: [64, 16, 64]# 变换操作qkv = self.bn_qkv(self.qkv_transform(x))  # 对qkv进行批归一化print(qkv.shape)  # 输出形状: [64, 32, 64]# 将qkv张量拆分为q、k、v，分别表示查询、键和值q, k, v = torch.split(qkv.reshape(N * W, self.groups, self.group_planes * 2, H), [self.group_planes // 2, self.group_planes // 2, self.group_planes], dim=2)print(q.shape)  # 输出q的形状: [64, 8, 1, 64]print(k.shape)  # 输出k的形状: [64, 8, 1, 64]print(v.shape)  # 输出v的形状: [64, 8, 2, 64]，v有两份# 计算位置嵌入all_embeddings = torch.index_select(self.relative, 1, self.flatten_index).view(self.group_planes * 2, self.kernel_size, self.kernel_size)print(all_embeddings.shape)  # 输出嵌入的形状: [4, 64, 64]，共有4份q_embedding, k_embedding, v_embedding =torch.split(all_embeddings, [self.group_planes // 2, self.group_planes // 2, self.group_planes], dim=0)print(q_embedding.shape)  # 输出q的位置嵌入形状: [1, 64, 64]print(k_embedding.shape)  # 输出k的位置嵌入形状: [1, 64, 64]print(v_embedding.shape)  # 输出v的位置嵌入形状: [2, 64, 64]，v有两份位置编码# 计算q与位置嵌入的乘积qr = torch.einsum('bgci,cij->bgij', q, q_embedding)print(qr.shape)  # 输出qr的形状: [64, 8, 64, 64]# 计算k与位置嵌入的乘积，并进行转置kr = torch.einsum('bgci,cij->bgij', k, k_embedding).transpose(2, 3)print(kr.shape)  # 输出kr的形状: [64, 8, 64, 64]# 计算q和k的点积qk = torch.einsum('bgci, bgcj->bgij', q, k)print(qk.shape)  # 输出qk的形状: [64, 8, 64, 64]# 对qr和kr进行初始化，使用self.f_qr和self.f_kr作为初始化的权重qr = torch.mul(qr, self.f_qr)print(qr.shape)  # 输出qr的形状: [64, 8, 64, 64]kr = torch.mul(kr, self.f_kr)print(kr.shape)  # 输出kr的形状: [64, 8, 64, 64]# 将qk、qr和kr拼接起来stacked_similarity = torch.cat([qk, qr, kr], dim=1)print(stacked_similarity.shape)  # 输出拼接后的形状: [64, 24, 64, 64]# 进行批归一化，重新变形为[N * W, 3, groups, H, H]，并对维度1求和stacked_similarity = self.bn_similarity(stacked_similarity).view(N * W, 3, self.groups, H, H).sum(dim=1)print(stacked_similarity.shape)  # 输出归一化后的形状: [64, 8, 64, 64]# 计算相似度similarity = F.softmax(stacked_similarity, dim=3)print(similarity.shape)  # 输出相似度的形状: [64, 8, 64, 64]# 使用相似度与v相乘，获得加权后的值sv = torch.einsum('bgij,bgcj->bgci', similarity, v)print(sv.shape)  # 输出加权后的形状: [64, 8, 2, 64]# 使用相似度与v的位置嵌入相乘sve = torch.einsum('bgij,cij->bgci', similarity, v_embedding)print(sve.shape)  # 输出位置嵌入加权后的形状: [64, 8, 2, 64]# 对sv和sve进行初始化sv = torch.mul(sv, self.f_sv)print(sv.shape)  # 输出sv的形状: [64, 8, 2, 64]sve = torch.mul(sve, self.f_sve)print(sve.shape)  # 输出sve的形状: [64, 8, 2, 64]# 将sv和sve拼接在一起，并重新变形为[N * W, out_planes * 2, H]stacked_output = torch.cat([sv, sve], dim=-1).view(N * W, self.out_planes * 2, H)print(stacked_output.shape)  # 输出拼接后的形状: [64, 32, 64]# 进行批归一化，并变形为[N, W, out_planes, 2, H]，对维度-2求和output = self.bn_output(stacked_output).view(N, W, self.out_planes, 2, H).sum(dim=-2)print(output.shape)  # 输出归一化后的形状: [1, 64, 16, 64]# 根据宽度调整维度顺序if self.width:output = output.permute(0, 2, 1, 3)else:output = output.permute(0, 2, 3, 1)print(output.shape)  # 输出最终的形状: [1, 16, 64, 64]# 如果步幅大于1，进行池化操作if self.stride > 1:output = self.pooling(output)return output

6、关于Medical-Transformer

6、关于Medical-Transformer Axial-Attention原文链接：Axial-attention Medical-Transformer原文链接：Medical-Transformer Medical-Transformer实际上是Axial-Attention在医学领域的运行，只是在这基础上增加了门机制，实际上也就…...

编程日记 2024/9/9 15:49:07

19_单片机开发常用工具的使用

工欲善其事必先利其器，我们做单片机开发的时候，不管是调试电路还是调试程序，都需要借助一些辅助工具来帮助查找和定位问题，从而帮助我们顺利解决问题。没有任何辅助工具的单片机项目开发很可能就是无法完成的任务，不过…...

编程日记 2024/9/9 15:48:05

spring揭秘19-spring事务01-事务抽象

文章目录【README】【1】事务基本元素【1.1】事务分类【2】java事务管理【2.1】基于java的局部事务管理【2.2】基于java的分布式事务管理【2.2.1】基于JTA的分布式事务管理【2.2.2】基于JCA的分布式事务管理【2.3】java事务管理的问题【3】spring事务抽象概述【3.1】spring…...

编程日记 2024/9/9 15:45:02

基于Matlab的图像去雾系统（四种方法）关于图像去雾的基本算法代码的集合，方法包括局部直方图均衡法、全部直方图均衡法、暗通道先验法、Retinex增强。

基于Matlab的图像去雾系统（四种方法） 关于图像去雾的基本算法代码的集合，方法包括局部直方图均衡法、全部直方图均衡法、暗通道先验法、Retinex增强。所有代码整合到App designer编写的GUI界面中，包括导入图片，保存处…...

编程日记 2024/9/9 15:42:59

油猴插件录制请求，封装接口自动化参数

参考：如何使用油猴插件提高测试工作效率一、背景在酷家乐设计工具测试中，总会有许多高频且较繁琐的工作，比如： 查询插件版本：需要打开Chrome控制台，输入好几个命令然后过滤出版本信息。查询模型商品&…...

编程日记 2024/9/9 15:41:58

循环购模式！结合引流和复购于一体的商业模型！

欢迎各位朋友，我是你们的电商策略顾问吴军。今天，我将向大家介绍一种新颖的商业模式——循环购模式，它将如何改变我们的消费和收益方式。你是否好奇，为何商家会提供如此慷慨的优惠？消费一千元，不仅能够得到…...

编程日记 2024/9/9 15:40:56

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya（不是本人，claude AI）在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。以下是详细的内容： 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用&…...

编程日记 2024/9/9 15:39:55

c中 int 和 unsigned int

c语言中，char、short、int、int64以及unsigned char、unsigned short、unsigned int、unsigned int64等等类型都可以表示整数。但是他们表示整数的位数不同，比如：char/unisigned char表示8位整数； short/unsigned short表示16位整…...

编程日记 2024/9/9 15:31:45

sheng的学习笔记-AI-话题模型（topic model），LDA模型，Unigram Model，pLSA Model

AI目录：sheng的学习笔记-AI目录-CSDN博客基础知识什么是话题模型(topic model) 话题模型(topic model)是一族生成式有向图模型，主要用于处理离散型的数据（如文本集合），在信息检索、自然语言处理等领域有广泛应用…...

编程日记 2024/9/9 15:29:42

html 页面引入 vue 组件之 http-vue-loader.js

一、http-vue-loader.js http-vue-loader.js 是一个 Vue 单文件组件加载器，可以让我们在传统的 HTML 页面中使用 Vue 单文件组件，而不必依赖 Node.js 等其他构建工具。它内置了 Vue.js 和样式加载器，并能自动解析 Vue 单文件组件中的所有内容…...

编程日记 2024/9/9 15:28:41

html+css网页设计旅行蜘蛛旅行社3个页面

htmlcss网页设计旅行蜘蛛旅行社3个页面网页作品代码简单，可使用任意HTML辑软件（如：Dreamweaver、HBuilder、Vscode 、Sublime 、Webstorm、Text 、Notepad 等任意html编辑软件进行运行及修改编辑等操作）。获取源码 1&#…...

编程日记 2024/9/9 15:27:40

考拉悠然产品发布会丨以悠然远智全模态AI应用平台探索AI行业应用

9月6日，成都市大模型新技术新成果发布暨供需对接系列活动——考拉悠然专场，在成都市高新区菁蓉汇盛大举行。考拉悠然重磅发布了悠然远智丨全模态AI应用平台，并精彩展示了交通大模型应用——智析快处等最新的AI产品和技术成果。在四川省科学…...

编程日记 2024/9/9 15:26:39

LLM大模型学习：揭秘LLM应用构建：探究文本加载器的必要性及在LangChain中的运用

构建 LLM 应用为什么需要文本加载器，langchain 中如何使用文本加载器？ 在不同的应用场景中需要使用不同的文本内容作为内容的载体，针对不同的类型的文本，langchain 提供了多种文本加载器来帮助我们快速的将文本切片，从…...

编程日记 2024/9/9 15:25:38

Flutter函数

在Dart中，函数为一等公民，可以作为参数对象传递，也可以作为返回值返回。函数定义 // 返回值 (可以不写返回值，但建议写)、函数名、参数列表 showMessage(String message) {//函数体print(message); }void showMessage(String m…...

编程日记 2024/9/9 15:24:36

P3565 [POI2014] HOT-Hotels

~~~~~ P3565 [POI2014] HOT-Hotels ~~~~~ 总题单链接思路 ~~~~~ 设 g [ u ] [ i ] g[u][i] g[u][i] 表示在 u u u 的子树内，距离 u u u 为 i i i 的点的个数。 ~~~~~ 设 d p [ u ] [ i ] dp[u][i] dp[u][i] 表示： u u u 的子树内存在两个点 x , …...

编程日记 2024/9/9 15:22:14

设计模式 | 单例模式

定义单例设计模式（Singleton Pattern）是一种创建型设计模式，它确保一个类只有一个实例，并提供一个全局访问点来获取该实例。这种模式常用于需要控制对某些资源的访问的场景，例如数据库连接、日志记录等。单例模式涉…...

编程日记 2024/9/9 15:20:12

Web安全之CSRF攻击详解与防护

在互联网应用中，安全性问题是开发者必须时刻关注的核心内容之一。跨站请求伪造（Cross-Site Request Forgery, CSRF），是一种常见的Web安全漏洞。通过CSRF攻击，黑客可以冒用受害者的身份，发送恶意请求&#x…...

编程日记 2024/9/9 15:19:11

IDEA运行Java程序提示“java: 警告: 源发行版 11 需要目标发行版 11”

遇到这个提示一般是在pom.xml中已经指定了构建的Java版本环境是11例如(此时添加了build插件的情况下虽然不能直接运行代码但是maven是可以正常打包构建)： <build><plugins><plugin><groupId>org.apache.maven.plugins</groupId><…...

编程日记 2024/9/9 15:18:09

车载测试| 汽车的五域架构（含线控技术知识）

汽车的五域架构是一种将汽车电子控制系统按照功能进行划分的架构模式，主要包括动力域、底盘域、座舱域、自动驾驶域和车身域。（汽车三域架构通常是指将汽车电子系统划分为三个主要领域：动力域、底盘域和智能座舱域（或车身舒适域&a…...

编程日记 2024/9/9 15:17:08

FFmpeg 低延迟同屏方案

引言在实时互动需求激增的当下，无论是在线教育中的师生同屏演示、远程办公的屏幕共享协作，还是游戏直播的画面实时传输，低延迟同屏已成为保障用户体验的核心指标。FFmpeg 作为一款功能强大的多媒体框架，凭借其灵活的编解码、数据…...

编程新知 2025/6/21 15:38:27

Python实现prophet 理论及参数优化

文章目录 Prophet理论及模型参数介绍Python代码完整实现prophet 添加外部数据进行模型优化之前初步学习prophet的时候，写过一篇简单实现，后期随着对该模型的深入研究，本次记录涉及到prophet 的公式以及参数调优，从公式可以更直观…...

编程新知 2025/7/10 9:35:38

python如何将word的doc另存为docx

将 DOCX 文件另存为 DOCX 格式（Python 实现） 在 Python 中，你可以使用 python-docx 库来操作 Word 文档。不过需要注意的是，.doc 是旧的 Word 格式，而 .docx 是新的基于 XML 的格式。python-docx 只能处理 .docx 格式…...

编程新知 2025/6/17 7:54:42

相机Camera日志分析之三十一：高通Camx HAL十种流程基础分析关键字汇总（后续持续更新中）

【关注我，后续持续新增专题博文，谢谢！！！】上一篇我们讲了：有对最普通的场景进行各个日志注释讲解，但相机场景太多，日志差异也巨大。后面将展示各种场景下的日志。通过notepad++打开场景下的日志，通过下列分类关键字搜索，即可清晰的分析不同场景的相机运行流程差异…...

编程新知 2025/6/15 13:22:13

重启Eureka集群中的节点，对已经注册的服务有什么影响

先看答案，如果正确地操作，重启Eureka集群中的节点，对已经注册的服务影响非常小，甚至可以做到无感知。但如果操作不当，可能会引发短暂的服务发现问题。下面我们从Eureka的核心工作原理来详细分析这个问题。 Eureka的…...

编程新知 2025/6/25 4:08:42

Linux C语言网络编程详细入门教程：如何一步步实现TCP服务端与客户端通信

文章目录 Linux C语言网络编程详细入门教程：如何一步步实现TCP服务端与客户端通信前言一、网络通信基础概念二、服务端与客户端的完整流程图解三、每一步的详细讲解和代码示例1. 创建Socket（服务端和客户端都要）2. 绑定本地地址和端口&#x…...

编程新知 2025/6/25 4:41:54

「全栈技术解析」推客小程序系统开发：从架构设计到裂变增长的完整解决方案

在移动互联网营销竞争白热化的当下，推客小程序系统凭借其裂变传播、精准营销等特性，成为企业抢占市场的利器。本文将深度解析推客小程序系统开发的核心技术与实现路径，助力开发者打造具有市场竞争力的营销工具。一、系统核心功能架构&…...

编程新知 2025/7/8 2:56:16

spring Security对RBAC及其ABAC的支持使用

RBAC (基于角色的访问控制) RBAC (Role-Based Access Control) 是 Spring Security 中最常用的权限模型，它将权限分配给角色，再将角色分配给用户。 RBAC 核心实现 1. 数据库设计 users roles permissions ------- ------…...

编程新知 2025/7/6 5:43:32