当前位置: 首页 > article >正文

即插即用系列 | TGRS 2026 | CGTA:曲率引导标记注意力!线性复杂度全局建模,几何结构保真与长程关联双突破 | 代码分享

0. 前言本文介绍了CGTA曲率引导标记注意力模块其通过曲率感知的标记选择策略与全局稀疏注意力机制首次在遥感图像超分辨率领域实现对细长曲线结构与重复纹理的高保真重建有效破解了传统注意力机制在处理曲线拓扑时容易产生锯齿边缘与结构断裂的难题。将其作为即插即用模块轻松助力CNN、YOLO、Transformer等深度学习模型在保持近线性计算复杂度的同时增强对关键几何区域的全局关联能力让模型在面对蜿蜒河流、盘山公路、电力线、海岸线等复杂拓扑目标时依然能够保持清晰的几何连续性与精准的结构感知。专栏链接即插即用系列专栏链接可点击跳转免费订阅目录0. 前言1. CGTA模块简介2. CGTA模块基本原理与创新点 CGTA模块的基本原理 CGTA模块主要创新点3. 适用范围与模块效果适用范围⚡模块效果4. CGTA模块代码实现1. CGTA模块简介遥感图像超分辨率支持制图、监测和识别等下游任务然而编码场景拓扑的曲线结构和重复纹理在下采样时会产生混叠效应。缺乏几何先验的通用注意力机制往往导致锯齿状边缘和细节流失。为了解决这一问题本文提出了曲率引导注意力CGA它在标准Transformer框架内将曲率线索注入局部窗口注意力和基于标记的全局聚合中。局部曲率引导注意力LCGA在窗口内强化边缘和线条的连续性而曲率引导标记注意力CGTA则以近线性复杂度选择全局信息丰富的标记避免了重量级全局模块和额外分支。所设计的结构能够在不损害自然区域的情况下保持结构布局和纹理规律性并与传统残差组RGs集成。原始论文https://ieeexplore.ieee.org/stamp/stamp.jsp?tparnumber11373098原始代码https://github.com/mwaleedaslam/CGA2. CGTA模块基本原理与创新点 CGTA模块的基本原理CGTACurvature-Guided Token Attention是一种曲率引导的全局标记注意力机制其核心设计理念是通过曲率感知的标记选择策略将全局注意力从全图密集计算转化为稀疏的、面向关键几何区域的关联计算。该模块的总体原理是首先利用可学习的曲率代理从特征图中提取几何显著性信息然后基于该显著性选择最具代表性的top-k个标记最后仅对这些精选标记执行交叉注意力计算从而实现线性复杂度的全局几何建模。具体而言CGTA的实现包含以下几个关键步骤1曲率感知的标记选择模块首先复用LCGA中构建的可学习曲率代理对全图特征生成曲率显著性图该图能够突出道路边界、屋顶转角、河流弯曲等几何结构丰富的区域。同时引入一个保留门控retention gate生成可靠性图用于抑制噪声激活。两者结合形成综合评分确保选出的标记既具有几何重要性又具有特征可靠性。2自适应标记预算分配CGTA采用一种称为KTockets的策略根据输入图像尺寸自适应计算路由密度ρ和标记预算k。具体地通过输入图像的高宽计算时间层级time_level然后ρ 4^time_level最终k (H/ρ)×(W/ρ)。这种设计使得k随图像尺寸呈亚线性增长确保在大尺寸遥感图像上仍保持高效计算。3精选标记的压缩与变换对被选中的k个标记CGTA首先通过1×1卷积压缩通道维度再经线性投影得到键K和值V。查询Q则针对所有N个位置计算但投影维度减半以提升效率。同时值会依据选择置信度进行门控调制使得弱选标记对聚合贡献较小。4曲率调制的混合注意力在计算注意力时CGTA同时生成标准注意力权重和曲率调制注意力权重后者通过对原始logits施加曲率引导的乘法调制实现。最终通过可学习的融合参数β将两种注意力进行凸组合形成混合注意力权重既保留标准注意力的稳定性又增强曲率区域的结构关联。 CGTA模块主要创新点曲率引导的稀疏全局建模首次将曲率几何先验引入全局标记选择过程使注意力计算聚焦于结构关键区域避免在平坦无纹理区域浪费计算资源。线性复杂度的全局关联通过top-k标记选择策略将全局注意力的O(N²)复杂度降低为O(Nk)在k≪N时实现近线性扩展使大尺寸遥感图像的高效全局建模成为可能。曲率-标准混合注意力机制采用可学习融合参数动态平衡曲率调制注意力与标准注意力在强化几何结构的同时保持非结构区域的稳定性避免注意力过度集中导致的特征漂移。自适应的标记预算分配KTockets策略根据输入图像尺寸动态调整标记数量使模型在不同分辨率的输入上都能保持计算效率与表征能力的平衡。3. 适用范围与模块效果适用范围CGTA模块适用于各类视觉任务特别是需要高效全局建模且对几何结构保真度要求较高的场景。具体包括但不限于遥感图像超分辨率作为CGTA的原始应用场景在处理道路、河流、海岸线等细长曲线结构时表现出色。目标检测与实例分割尤其适合检测细长、弯曲目标如蜿蜒道路、盘山公路、电力弧垂、管道裂缝等能有效提升对这类目标的召回率与定位精度。语义分割与边缘检测需要保持几何连续性的任务CGTA可增强模型对物体边界的感知能力。高分辨率图像处理由于具有近线性复杂度CGTA特别适合处理大尺寸遥感图像、航拍图像和卫星图像等场景。⚡模块效果CGTA的Token数256最优消融研究说明CGTA的有效性第二行和第四行对比蓝色轮廓表示HR脊带。左比较Std和曲线注意力的顶部优势轮廓。右同一波段内的混合注意力热图。曲线经常在道路分支和路口边界周围占据主导地位而混合则将注意力集中在这些山脊附近并保持稳定。4. CGTA模块代码实现以下为CGTA模块的官方pytorch实现代码# 曲率引导令牌注意力模块Curvature-guided Token Attention, CGTA # 核心设计基于“曲率特征提取→动态Top-K令牌筛选→跨注意力计算→特征增强”的流程 # 通过特征曲率捕捉结构变化结合保留门控筛选关键令牌在降低计算成本的同时 # 让注意力聚焦结构关键区域强化特征的结构依赖性与表达精准性 import torch import torch.nn as nn from torch.nn import functional as F import math class RetentionGate(nn.Module): def __init__(self, dim, hidden_dim64): super().__init__() self.ret_gate nn.Sequential( nn.Linear(dim, hidden_dim), nn.ReLU(), nn.Linear(hidden_dim, 1), nn.Sigmoid() ) def forward(self, x): return self.ret_gate(x).squeeze(-1) def get_dynamic_topk_tokens(H, W, training): h_val max(H // 16, 1) w_val max(W // 16, 1) if training: time_level max(int(math.log(H // 4, 4)), int(math.log(W // 4, 4))) else: time_level max(2, max(int(math.log(h_val, 4)), int(math.log(w_val, 4)))) # 防止 scale 过大 time_level min(time_level, 3) scale 4 ** time_level k_tokens max(1, (H // scale) * (W // scale)) return k_tokens, scale class CGTA(nn.Module): def __init__(self, dim, num_heads8, qkv_biasFalse, qk_scaleNone, attn_drop0., proj_drop0., c_ratio0.5): super().__init__() assert dim % num_heads 0, fdim {dim} should be divided by num_heads {num_heads}. self.dim dim self.num_heads num_heads head_dim dim // num_heads self.cr int(dim * c_ratio) self.cr (self.cr // num_heads) * num_heads if self.cr 0: self.cr num_heads self.scale qk_scale or (head_dim * c_ratio) ** -0.5 self.curvature_conv nn.Conv2d(dim, dim, 3, 1, 1, groupsdim, biasFalse) self.gate RetentionGate(dim, hidden_dimdim // 2) self.q nn.Linear(dim, self.cr, biasqkv_bias) self.kv_reduce nn.Linear(dim, self.cr, biasqkv_bias) self.k nn.Linear(self.cr, self.cr, biasqkv_bias) self.v nn.Linear(self.cr, dim, biasqkv_bias) self.norm_act nn.Sequential( nn.LayerNorm(self.cr), nn.GELU() ) self.cpe nn.Conv2d(dim, dim, kernel_size3, stride1, padding1, groupsdim) self.proj nn.Linear(dim, dim) self.attn_drop nn.Dropout(attn_drop) self.proj_drop nn.Dropout(proj_drop) self.alpha nn.Parameter(torch.zeros(1)) self.beta nn.Parameter(torch.tensor(0.5)) def forward(self, x, HNone, WNone): # 独立测试模式 if H is not None and W is not None: return self.forward_seq(x, H, W) # Ultralytics 框架模式 B, C, H, W x.shape x_seq x.flatten(2).transpose(1, 2) out_seq self.forward_seq(x_seq, H, W) out out_seq.transpose(1, 2).view(B, C, H, W).contiguous() return out def forward_seq(self, x, H, W): B, N, C x.shape _x x.permute(0, 2, 1).reshape(B, C, H, W).contiguous() curvature self.curvature_conv(_x).mean(dim1, keepdimTrue).view(B, -1) curvature F.layer_norm(curvature, curvature.shape[1:]) gate_score self.gate(x) score (curvature.abs() gate_score) / 2 k_tokens, _scale get_dynamic_topk_tokens(H, W, self.training) k_tokens min(k_tokens, N) topk_scores, topk_indices score.topk(k_tokens, dim-1, largestTrue, sortedFalse) x_topk torch.gather(x, dim1, indextopk_indices.unsqueeze(-1).expand(-1, -1, C)) score_topk torch.gather(score, 1, topk_indices) q self.q(x).reshape(B, N, self.num_heads, self.cr // self.num_heads).permute(0, 2, 1, 3) kv_compressed self.kv_reduce(x_topk) kv_compressed self.norm_act(kv_compressed) k self.k(kv_compressed).reshape(B, k_tokens, self.num_heads, self.cr // self.num_heads).permute(0, 2, 1, 3) v self.v(kv_compressed).reshape(B, k_tokens, self.num_heads, C // self.num_heads).permute(0, 2, 1, 3) v v * score_topk.unsqueeze(1).unsqueeze(-1) curvature_topk torch.gather(curvature, 1, topk_indices).unsqueeze(1) attn_logits (q k.transpose(-2, -1)) * self.scale attn_mod attn_logits * (1 self.alpha * curvature_topk.unsqueeze(1)) attn_std F.softmax(attn_logits, dim-1) attn_cga F.softmax(attn_mod, dim-1) attn self.beta * attn_std (1 - self.beta) * attn_cga attn self.attn_drop(attn) try: v_reshape v.transpose(1, 2).reshape(B, k_tokens, C) kh, kw min(int(math.sqrt(k_tokens)), H), min(int(math.sqrt(k_tokens)), W) v_reshape v_reshape.transpose(1, 2).view(B, C, kh, kw) cpe_out self.cpe(v_reshape) v v cpe_out.view(B, C, -1).transpose(1, 2).reshape(B, k_tokens, self.num_heads, C//self.num_heads).transpose(1,2) except: pass x_out (attn v).transpose(1, 2).reshape(B, N, C) x_out self.proj(x_out) x_out self.proj_drop(x_out) return x_out if __name__ __main__: device torch.device(cuda:0 if torch.cuda.is_available() else cpu) # B, N, C x torch.randn(1, 32*32, 64).to(device) model CGTA(64, 8).to(device) y model(x, 32, 32) print(输入特征维度, x.shape) print(输出特征维度, y.shape)结合自己的思路可将其即插即用至任何模型做结构创新设计该模块博主已成功嵌入至YOLO26模型中可订阅博主YOLO系列算法改进或YOLO26自研改进专栏YOLO系列算法改进专栏链接、YOLO26自研改进系列专栏

相关文章:

即插即用系列 | TGRS 2026 | CGTA:曲率引导标记注意力!线性复杂度全局建模,几何结构保真与长程关联双突破 | 代码分享

0. 前言 本文介绍了CGTA曲率引导标记注意力模块,其通过曲率感知的标记选择策略与全局稀疏注意力机制,首次在遥感图像超分辨率领域实现对细长曲线结构与重复纹理的高保真重建,有效破解了传统注意力机制在处理曲线拓扑时容易产生锯齿边缘与结构…...

示波器测量UART波特率的原理与实践

1. 示波器测量串口波特率的原理与方法 1.1 串口通信基础 在嵌入式系统开发中,UART串口通信是最常用的调试接口之一。正确识别串口波特率对于设备调试和逆向工程具有重要意义。串口通信采用异步传输方式,其关键参数包括: 波特率:…...

Go语言中的Interface:面向接口编程

Go语言中的Interface:面向接口编程 1. Interface的基本概念 Interface是Go语言中用于定义行为的一种类型,它指定了一组方法签名,但不提供具体实现。Interface是Go语言实现多态和解耦的核心机制,也是面向接口编程的基础。 Go语言的…...

LAMMPS read_data命令保姆级教程:从MS建模到data文件生成的完整避坑指南

LAMMPS read_data命令全流程实战:从分子建模到多体系合并的进阶指南 当你在Materials Studio中精心构建的分子模型终于完成,准备转入LAMMPS进行分子动力学模拟时,是否曾被data文件的各种格式要求绊住脚步?作为连接建模软件与计算引…...

大厂AI团队配置揭秘:揭秘“预训练→后训练→推理部署→多模态扩展“的技术链路拆分逻辑!

大模型AI技术链路包含预训练、后训练、推理部署、多模态扩展四个不可逆环节,对技术能力和GPU资源需求各异。大厂将AI部门拆分为独立团队,以适配链路原理、提升研发效率。预训练团队负责构建通用基座模型,后训练团队进行能力校准,推…...

ClickHouse:大数据领域的实时分析新宠

ClickHouse:大数据领域的实时分析新宠 关键词:ClickHouse、实时分析、列式存储、向量化执行、分布式数据库 摘要:在数据爆炸式增长的今天,企业对“实时看到数据价值”的需求越来越迫切。传统数据库在面对海量数据时,要么查询慢如蜗牛,要么成本高到离谱。而ClickHouse作为…...

WebDAV网盘横向评测:从个人备份到多端同步的实战指南

1. WebDAV网盘入门:为什么你需要它? 刚接触WebDAV时,我和大多数人一样疑惑:明明有那么多现成的网盘,为什么还要折腾这个?直到有次出差,急需修改存放在某商业网盘里的设计方案,却发现…...

Wan2.2-I2V-A14B惊艳案例:动态水墨山水+古风人物行走10秒视频生成

Wan2.2-I2V-A14B惊艳案例:动态水墨山水古风人物行走10秒视频生成 1. 开篇:当AI遇见传统水墨艺术 想象一下,你只需要输入一段文字描述,就能让AI生成一段10秒的动态水墨山水视频,画中还有古风人物悠然行走。这不是科幻…...

嵌入式老鸟总结:Keil警告L15/L16的隐藏陷阱与RTOS适配技巧

Keil多任务开发中的L15/L16警告:从RTOS视角看函数重入与资源竞争 在嵌入式开发中,Keil编译器的L15(MULTIPLE CALL TO SEGMENT)和L16(UNCALLED SEGMENT)警告常常被开发者忽视,但在RTOS环境下&…...

智能驱动,精准雾化:探秘微孔雾化片专用IC的自适应频率与无水保护

1. 微孔雾化技术的前世今生 第一次拆解家用加湿器时,我被那片直径不到3cm的金属薄片震惊了——它竟能凭空"变"出细腻的水雾。这就是微孔雾化片,通过每秒10万次以上的高频振动将液态水"打碎"成微米级颗粒。但要让这片金属薄片稳定工作…...

企业开始用 AI 后,最容易被忽略的其实是这件事!

这两年,越来越多企业开始尝试把 AI 用到日常办公中。从写邮件、整理纪要,到查询知识库、生成文档,AI 正在从个人工具变成企业工作的一部分。但很多企业在推进 AI 时,首先关注的往往是功能和效率,比如“能不能写”“能不…...

海淀AI,集体开弓:少年极客、中年创客与ICU归来者

田晏林 发自 凹非寺量子位 | 公众号 QbitAI春分之后的北京海淀,暖意至,万物生。人工智能产业的发展更是如火如荼。过去五天里,位于“宇宙中心”五道口的AI原点社区,30多场派对狂欢不停。这是在第三届中关村论坛“人工智能主题日”…...

探索MariaDB中的JSON处理

在数据库管理中,处理JSON数据逐渐变得重要,尤其是在需要从复杂的JSON结构中提取信息时。今天,我们将深入探讨如何在MariaDB中使用JSON_SEARCH函数来检查JSON对象中的布尔值true。通过实例,我们将展示如何使用此函数来简化查询过程。 JSON数据的结构 假设我们有一个JSON对…...

事务失效十大场景分析

1. 方法不是 public(最经典失效) 代码示例 Service public class UserService {Autowiredprivate UserMapper userMapper;// 非 public → 事务失效Transactionalprivate void addUser() {userMapper.insert(new User("张三"));// 模拟异常int…...

PCIe设备树深度解析:从RK3588实例看Linux内核地址与中断映射(九)

1. PCIe设备树基础概念与RK3588实战背景 第一次接触PCIe设备树配置时,我被那些密密麻麻的十六进制数字和嵌套属性搞得头晕眼花。直到在RK3588平台上实际调试PCIe设备时,才真正理解设备树如何成为连接硬件与操作系统的桥梁。PCIe设备树不同于普通外设的简…...

OpenRPA:开源RPA技术赋能企业自动化转型的实践指南

OpenRPA:开源RPA技术赋能企业自动化转型的实践指南 【免费下载链接】openrpa Free Open Source Enterprise Grade RPA 项目地址: https://gitcode.com/gh_mirrors/op/openrpa [1] 问题发现:企业自动化的真实困境与行业痛点 在当今数字化转型浪潮…...

5分钟搞定Halcon/C++图像处理:从猴子眼睛识别到实战代码解析

5分钟实战Halcon/C:从猴子眼睛识别到工业级图像处理技巧 在计算机视觉领域,Halcon以其强大的图像处理能力和简洁的API设计,成为工业检测和科研开发的利器。不同于OpenCV需要手动实现复杂算法,Halcon将数百种视觉算法封装为直观的操…...

Amlogic S9XXX设备Armbian系统刷机全攻略:从问题诊断到优化配置

Amlogic S9XXX设备Armbian系统刷机全攻略:从问题诊断到优化配置 【免费下载链接】amlogic-s9xxx-armbian Supports running Armbian on Amlogic, Allwinner, and Rockchip devices. Support a311d, s922x, s905x3, s905x2, s912, s905d, s905x, s905w, s905, s905l,…...

中国DevOps市场格局重塑:本土合规与全球协作的平衡艺术

中国DevOps市场格局重塑:本土合规与全球协作的平衡艺术 中国企业的DevOps工具链选择正面临前所未有的复杂局面 随着数字经济的深入发展,DevOps工具链已经从单纯的技术选型问题演变为关乎企业数字化转型成败的战略决策。在当前的宏观环境下,…...

聊聊我对CompletableFuture的理解

Java提供了许多工具来处理并发编程,而本文将重点介绍Java8中的CompletableFuture。在本文中,笔者通过查阅资料和实践经验,避免了重复已有优秀文章的内容和思路,而是用更简单明了的示例和语言来介绍CompletableFuture,并…...

商业应用(12)电影院零售票务系统开发—东方仙盟练气期

未来之窗开源收银台生态未来之窗开源收银台生态:让中小微企业告别重复开发,普惠式接入多场景收银能力 在数字化转型的浪潮中,中小微企业的痛点往往藏在 “重复造轮子” 里 —— 便利店需要收银台、餐饮店需要收银台、游乐场需要带押金管理的收…...

League-Toolkit:基于LCU API的英雄联盟效率工具实战指南

League-Toolkit:基于LCU API的英雄联盟效率工具实战指南 【免费下载链接】League-Toolkit 兴趣使然的、简单易用的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit League-Toolk…...

效率倍增:用快马平台一键生成极客日报推荐的高效开发工具与脚本

最近在极客日报上看到不少提升开发效率的小技巧,比如用Prettier统一代码风格、配置Git Hooks自动化检查等等。但每次看完想实践时,总得花时间查文档、写配置,挺麻烦的。于是我用InsCode(快马)平台做了个工具生成器,能直接把日报里…...

Linux 内核中的信号处理:从发送到捕获

Linux 内核中的信号处理:从发送到捕获 引言 作为一名深耕操作系统和嵌入式开发的工程师,我深知通知机制的重要性。在系统开发中,及时的通知可以帮助系统快速响应事件。在 Linux 内核中,信号是一种重要的进程间通信机制&#xff0c…...

Linux 内核中的内存映射:从虚拟地址到物理地址

Linux 内核中的内存映射:从虚拟地址到物理地址 引言 作为一名深耕操作系统和嵌入式开发的工程师,我深知地址管理的重要性。在系统开发中,合理的地址管理可以提高系统的效率和安全性。在 Linux 内核中,内存映射是实现虚拟地址到物理…...

Linux 内核中的内核线程:从创建到管理

Linux 内核中的内核线程:从创建到管理 引言 作为一名深耕操作系统和嵌入式开发的工程师,我深知后台任务的重要性。在系统开发中,合理的后台任务管理可以提高系统的响应性和稳定性。在 Linux 内核中,内核线程是执行后台任务的核心机…...

[Python3高阶编程] - 异步编程深度学习指南二(补充1): 什么是 Barrier 原语 【异步!!!】

asyncio.Barrier 是 Python 3.11(2022 年 10 月)新增的高级同步原语,用于解决特定并发协作场景。一、Barrier 产生的背景:为什么需要它?核心问题:“多协程阶段对齐”在并发编程中,经常遇到这样的…...

安卓手机秒变AI开发神器:Aid Learning零基础图形化Linux环境搭建指南

安卓手机秒变AI开发神器:Aid Learning零基础图形化Linux环境搭建指南 在移动互联网时代,开发者对便携开发环境的需求与日俱增。传统Termux虽然功能强大,但配置复杂、缺乏图形界面,让许多初学者望而却步。Aid Learning的出现彻底改…...

告别HEIC预览盲区:让Windows用户轻松驾驭苹果图像格式

告别HEIC预览盲区:让Windows用户轻松驾驭苹果图像格式 【免费下载链接】windows-heic-thumbnails Enable Windows Explorer to display thumbnails for HEIC files 项目地址: https://gitcode.com/gh_mirrors/wi/windows-heic-thumbnails 问题场景&#xff1…...

Unpaywall终极指南:一键解锁全球学术论文的免费获取方案

Unpaywall终极指南:一键解锁全球学术论文的免费获取方案 【免费下载链接】unpaywall-extension Firefox/Chrome extension that gives you a link to a free PDF when you view scholarly articles 项目地址: https://gitcode.com/gh_mirrors/un/unpaywall-extens…...