当前位置: 首页 > article >正文

YOLO11语义分割注意力机制改进:全网首发--使用CASAB多层注入增强多尺度特征筛选(方案3)

1. 工程简介 本工程基于 Ultralytics 框架扩展面向语义分割与 YOLO 系列模型改进实验。核心特点是通过切换yaml配置文件即可快速完成不同网络结构的训练、对比与验证无需为每个模型单独编写训练脚本。当前已支持的主要模型家族 语义分割模型UNet、UNet、DeepLabV3、DPT、FPN、PSPNet、MAnet、PAN、Linknet、UPerNet、SegformerYOLO 系列模型YOLOv8、YOLOv10、YOLO11、YOLO12、YOLO262. 本工程的优势 ✨只需替换ultralytics/cfg/models/...下的模型yaml就可以在相同数据集、相同训练入口、相同评估流程下完成不同结构的对比实验。本框架最大的特点是支持通过切换 YAML 快速完成不同结构的对比实验。3. 模块信息卡片 项目内容YAML 文件yolo11/yolo11-CASAB-3.yaml模块名称CASAB模型系列YOLO11变体编号方案3原始代码位置ultralytics/nn/extra_modules/attention/CASAB.py当前接入思路在P4、P3、回流P4、P5多个关键节点连续插入CASAB4. 论文介绍 4.1 文章地址 https://openaccess.thecvf.com/content/CVPR2025/papers/Wazir_Rethinking_Decoder_Design_Improving_Biomarker_Segmentation_Using_Depth-to-Space_Restoration_and_CVPR_2025_paper.pdf4.2 论文简介 对应论文Rethinking Decoder Design: Improving Biomarker Segmentation Using Depth-to-Space Restoration and Residual Linear Attention。这篇论文强调分割网络的上限并不只取决于编码器强不强解码阶段如何恢复空间结构、如何整合不同层语义、如何突出关键区域同样会直接影响最终分割质量。作者因此把研究重点放在解码器重构上希望在细节恢复和上下文融合之间找到更高效的平衡。论文通过改进空间恢复方式并结合更有效的注意力机制提升了局部结构表达、边界质量和多尺度信息利用效率。它并不是单独做一个注意力块而是从整个解码器信息流角度重新思考特征恢复问题。⚠️ 说明当前工程中的CASAB是从这类设计中抽取出的联合注意力子模块并非整篇论文完整解码器的逐层还原。对于本工程而言更重要的是把这种模块化注意力接入 YOLO再通过切换 YAML 快速比较“单层接入”和“多层接入”的实验效果。4.3 模块核心思想 ✨CASAB可以在多个尺度节点重复使用对不同阶段的特征分别做通道与空间双重筛选。当它被布置到整条多尺度传播链路中时更适合观察累计增强效果。在本工程里这种设计非常适合做结构消融和接入位置对比。5. 改进步骤 ️步骤1定位并加入原始模块代码 这一步先确认CASAB的原始实现位置再把对应代码加入当前工程作为后续模块导入、tasks.py注册和 YAML 调用的基础。原始代码位置ultralytics/nn/extra_modules/attention/CASAB.py当前模块类别attention本步骤作用将CASAB联合注意力模块加入注意力模块目录供 YOLO11 语义分割结构直接调用importos,sys sys.path.append(os.path.dirname(os.path.abspath(__file__))/../../../..)importwarnings warnings.filterwarnings(ignore)fromcalflopsimportcalculate_flopsimporttorchimporttorch.nnasnnimporttorch.nn.functionalasFfromultralytics.nn.modules.convimportConv,DSConvclassCASAB(nn.Module):def__init__(self,in_channels,reduction_ratio16):super(CASAB,self).__init__()self.global_avg_poolnn.AdaptiveAvgPool2d(1)self.global_max_poolnn.AdaptiveMaxPool2d(1)self.fc1nn.Linear(in_channels,in_channels//reduction_ratio)self.fc2nn.Linear(in_channels//reduction_ratio,in_channels)self.spatial_convnn.Conv2d(4,1,kernel_size7,padding3,groups1)self.swishnn.SiLU()self.sigmoidnn.Sigmoid()self.feature_refineDSConv(in_channels,in_channels,actnn.LeakyReLU)defchannel_attention(self,x):b,c,h,wx.size()gapself.global_avg_pool(x).view(b,c)gmpself.global_max_pool(x).view(b,c)combinedgapgmp channel_attself.fc1(combined)channel_attself.swish(channel_att)channel_attself.fc2(channel_att)channel_attself.sigmoid(channel_att)channel_attchannel_att.view(b,c,1,1)returnx*channel_attdefspatial_attention(self,x):mean_pooltorch.mean(x,dim1,keepdimTrue)max_pool,_torch.max(x,dim1,keepdimTrue)min_pool,_torch.min(x,dim1,keepdimTrue)sum_pooltorch.sum(x,dim1,keepdimTrue)pooled_featurestorch.cat([mean_pool,max_pool,min_pool,sum_pool],dim1)spatial_attself.spatial_conv(pooled_features)spatial_attself.swish(spatial_att)spatial_attself.sigmoid(spatial_att)returnx*spatial_attdefforward(self,x):x_refinedself.feature_refine(x)x_channelself.channel_attention(x_refined)x_spatialself.spatial_attention(x_refined)outputx_channelx_spatialreturnoutputif__name____main__:RED,GREEN,BLUE,YELLOW,ORANGE,RESET\033[91m,\033[92m,\033[94m,\033[93m,\033[38;5;208m,\033[0mdevicetorch.device(cuda)iftorch.cuda.is_available()elsetorch.device(cpu)batch_size,channel,height,width1,16,32,32inputstorch.randn((batch_size,channel,height,width)).to(device)moduleCASAB(channel).to(device)outputsmodule(inputs)print(GREENfinputs.size:{inputs.size()}outputs.size:{outputs.size()}RESET)print(ORANGE)flops,macs,_calculate_flops(modelmodule,input_shape(batch_size,channel,height,width),output_as_stringTrue,output_precision4,print_detailedTrue,)print(RESET)步骤2在聚合导出文件中导入模块 需要在ultralytics/nn/extra_modules/__init__.py中补充导入让后续模块注册和 YAML 解析都能正确识别CASAB。from.attention.CASABimportCASAB步骤3在ultralytics/nn/tasks.py中注册模块 ⚙️需要把该模块加入注意力模块注册集合这样parse_model()在解析 YAML 时才能正确实例化CASAB。attention_modulesfrozenset({extra_modules.ACA,extra_modules.ACAB,extra_modules.CoordAtt,extra_modules.CASAB,extra_modules.ContrastDrivenFeatureAggregation,extra_modules.DeformableLKA,extra_modules.DHPF,extra_modules.EMA,extra_modules.FSA,extra_modules.KSFA,extra_modules.LSKBlock,extra_modules.MCA,extra_modules.MLCA,extra_modules.MultiSEAM,extra_modules.SimAM,})步骤4新增或修改 YAML 配置文件 当前方案对应的 YAML 位于ultralytics/cfg/models/improve/attention/yolo11/目录下。方案3的特点是在P4、P3、回流P4与P5多个节点都插入CASAB属于更激进的多层注入方式适合验证该联合注意力在整条多尺度传播链上的累计增强作用。# Ultralytics AGPL-3.0 License - https://ultralytics.com/license# Ultralytics YOLO11 object detection model with P3/8 - P5/32 outputs# Model docs: https://docs.ultralytics.com/models/yolo11# Task docs: https://docs.ultralytics.com/tasks/detect# Parametersnc:80# number of classesscales:# model compound scaling constants, i.e. modelyolo11n.yaml will call yolo11.yaml with scale n# [depth, width, max_channels]n:[0.50,0.25,1024]# summary: 181 layers, 2624080 parameters, 2624064 gradients, 6.6 GFLOPss:[0.50,0.50,1024]# summary: 181 layers, 9458752 parameters, 9458736 gradients, 21.7 GFLOPsm:[0.50,1.00,512]# summary: 231 layers, 20114688 parameters, 20114672 gradients, 68.5 GFLOPsl:[1.00,1.00,512]# summary: 357 layers, 25372160 parameters, 25372144 gradients, 87.6 GFLOPsx:[1.00,1.50,512]# summary: 357 layers, 56966176 parameters, 56966160 gradients, 196.0 GFLOPs# YOLO11n backbonebackbone:# [from, repeats, module, args]-[-1,1,Conv,[64,3,2]]# 0-P1/2-[-1,1,Conv,[128,3,2]]# 1-P2/4-[-1,2,C3k2,[256,False,0.25]]# 2-P2/4-[-1,1,Conv,[256,3,2]]# 3-P3/8-[-1,2,C3k2,[512,False,0.25]]# 4-P3/8-[-1,1,Conv,[512,3,2]]# 5-P4/16-[-1,2,C3k2,[512,True]]# 6-P4/16-[-1,1,Conv,[1024,3,2]]# 7-P5/32-[-1,2,C3k2,[1024,True]]# 8-P5/32-[-1,1,SPPF,[1024,5]]# 9-P5/32-[-1,2,C2PSA,[1024]]# 10-P5/32# YOLO11n headhead:-[-1,1,nn.Upsample,[None,2,nearest]]# 11-P4/16-[[-1,6],1,Concat,[1]]# 12-P4/16-[-1,1,CASAB,[]]# 13-P4/16-[-1,2,C3k2,[512,False]]# 14-P4/16-[-1,1,nn.Upsample,[None,2,nearest]]# 15-P3/8-[[-1,4],1,Concat,[1]]# 16-P3/8-[-1,1,CASAB,[]]# 17-P3/8-[-1,2,C3k2,[256,False]]# 18-P3/8-[-1,1,Conv,[256,3,2]]# 19-P4/16-[[-1,14],1,Concat,[1]]# 20-P4/16-[-1,1,CASAB,[]]# 21-P4/16-[-1,2,C3k2,[512,False]]# 22-P4/16-[-1,1,Conv,[512,3,2]]# 23-P5/32-[[-1,10],1,Concat,[1]]# 24-P5/32-[-1,1,CASAB,[]]# 25-P5/32-[-1,2,C3k2,[1024,True]]# 26-P5/32-[[18,22,26],1,SemanticSegmentHead,[nc]]# SemanticSegmentHead(P3, P4, P5)步骤5开始训练 # -*- coding: utf-8 -*- Auth AICurator File train.py importwarnings warnings.filterwarnings(ignore)fromultralyticsimportYOLOif__name____main__:modelYOLO(modelrG:\improve\segment\ultralytics-main\ultralytics\cfg\models\improve\attention\yolo11\yolo11-CASAB-3.yaml)# model.load()model.train(datardataset\data.yaml,imgsz640,epochs50,batch4,workers0,device0,optimizerSGD,close_mosaic10,resumeFalse,projectruns/train,nameexp,single_clsFalse,cacheFalse,)6. 总结 这份文档对应的是yolo11-CASAB-3这套配置重点是通过多层多点插入CASAB系统评估该联合注意力模块对多尺度特征传播链路的增强作用。你可以直接切换 YAML把它和方案1、方案2放到同一训练入口下做结构消融与横向对比。订阅专栏后添加博主微信领取完整代码

相关文章:

YOLO11语义分割注意力机制改进:全网首发--使用CASAB多层注入增强多尺度特征筛选(方案3)

1. 工程简介 🚀 本工程基于 Ultralytics 框架扩展,面向语义分割与 YOLO 系列模型改进实验。核心特点是通过切换 yaml 配置文件,即可快速完成不同网络结构的训练、对比与验证,无需为每个模型单独编写训练脚本。 当前已支持的主要…...

5分钟掌握TranslucentTB:让你的Windows任务栏瞬间变透明的终极美化方案

5分钟掌握TranslucentTB:让你的Windows任务栏瞬间变透明的终极美化方案 【免费下载链接】TranslucentTB A lightweight utility that makes the Windows taskbar translucent/transparent. 项目地址: https://gitcode.com/gh_mirrors/tr/TranslucentTB 厌倦了…...

大模型技术路线图:Transformer已不再是唯一选择,多方博弈下的未来趋势解读!

文章分析了当前大模型的技术演进格局,指出其已不再是单一方向的线性推进,而是形成了多条相互竞争、借鉴且底层数学趋同的路线。文章从主干序列建模、记忆与上下文扩展、规模化与系统实现三个层次详细剖析了自注意力、状态空间模型、线性递推、长卷积等不…...

从零构建AI Agent:新手必看!5种核心工作流+实战避坑指南

本文从AI Agent的核心运作原理出发,详细解析了LLM、工具和记忆的角色,并区分了工作流与Agent的适用场景。文章重点介绍了五种核心工作流模式(提示词链、路由、并行化、编排者-工作者、评估者-优化者),为新手提供了构建…...

推荐系统中的轻量级适配器头技术与多兴趣建模

1. 轻量级适配器头的技术背景与核心价值在当今推荐系统领域,用户兴趣建模正面临三个关键挑战:兴趣多样性、计算效率和模型可解释性。传统单一向量表示法(如双塔模型)难以捕捉用户的多维度兴趣,而完全端到端的多兴趣模型…...

Cognita开源RAG框架实战:构建企业级智能知识库的模块化方案

1. 项目概述:当向量数据库遇上RAG,Cognita如何重塑企业知识管理?最近在折腾企业级知识库和智能问答系统时,我几乎把所有主流的RAG(检索增强生成)框架都试了个遍。从早期的LangChain、LlamaIndex&#xff0c…...

如何用FanControl在5分钟内彻底掌控电脑风扇:新手必看的完全指南

如何用FanControl在5分钟内彻底掌控电脑风扇:新手必看的完全指南 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_T…...

DeepSeek-V4 爆发!无预告开源,百万上下文+华为昇腾,中国AI破局之战!

没有发布会,没有预告片,甚至没有任何铺垫——就在一个普普通通的周四中午,DeepSeek 直接在官网甩出了 V4 预览版和全套开源权重。 这种感觉,像极了它一年前的风格。这一次,不一样了 如果说 2025 年 1 月的 R1 是 DeepS…...

DeepSeek-V4横空出世!AI巨头争相接入,国产大模型引领算力浪潮!

百度正式发布DeepSeek-V4大模型并开源,分为Pro和Flash两个版本。寒武纪、AccioWork、摩尔线程等巨头纷纷完成适配,展现国产大模型强大能力。DeepSeek-V4在上下文处理、推理性能等方面领先,预计将推动国产算力发展,券商看好国产算力…...

2026 收藏|大模型爆发期来袭!小白 程序员零基础转型全攻略

2026年,国内人工智能领域正式迈入高质量爆发期。行业早已告别“参数竞赛”的粗放增长,转向以效率优化、场景深耕、价值落地为核心的新阶段。从底层算法的持续迭代,到垂类大模型的井喷式落地,再到千行百业的深度渗透,整…...

深度解析Universal Android Debloater:无需Root的安卓系统瘦身终极指南

深度解析Universal Android Debloater:无需Root的安卓系统瘦身终极指南 【免费下载链接】universal-android-debloater Cross-platform GUI written in Rust using ADB to debloat non-rooted android devices. Improve your privacy, the security and battery lif…...

PoseFormerV2 训练完全指南:理论与实战

PoseFormerV2 训练完全指南:理论与实战 目录 引言:从 PoseFormer 到 PoseFormerV2 PoseFormerV2 核心技术原理 环境配置与项目结构 数据集准备与预处理 论文基线精度复现 目标精度 9.0 的优化策略 模型架构的定制与实现 训练配置的精细调优 完整训练代码详解 评估与验证 常见…...

AstronClaw+Loomy:云端AI大脑与本地智能终端的协同办公实践

1. 项目概述:从“能用”到“好用”的AI助手进化之路 如果你和我一样,在过去一年里尝试过各种AI工具,从ChatGPT到Claude,再到国内外的各类Agent框架,那你一定经历过一个典型的“过山车”式体验:一开始被它们…...

医学影像AI的幻觉问题与CCD解决方案

1. 医学影像AI的幻觉困境与临床需求放射科医生每天需要解读数十甚至上百张医学影像,这项高强度工作正面临AI技术的变革。多模态大语言模型(MLLMs)通过结合视觉编码器和语言模型,展现出令人惊艳的影像描述能力。但当我在实际测试最新模型时,发…...

OPNET城轨广播系统组网性能与可靠性仿真设计

OPNET城轨广播系统组网性能与可靠性仿真设计 摘要 城市轨道交通广播系统作为乘客信息系统(PIS)的重要组成部分,承担着日常客运广播、突发事件应急广播和运营调度指挥等关键功能,其网络性能与可靠性直接影响城市轨道交通的安全性、准点率和乘客满意度。本文针对城轨广播系…...

BPE算法解析:从原理到NLP实践

1. 从香蕉到班达纳:BPE算法核心解析第一次看到"banana"被拆解成"ban"和"ana"时,我正盯着屏幕上的BPE算法输出发呆。这种看似简单的子词划分方式,后来彻底改变了我对文本处理的理解。BPE(Byte Pair …...

5步掌握ExtractorSharp:终极游戏资源编辑与补丁制作工具

5步掌握ExtractorSharp:终极游戏资源编辑与补丁制作工具 【免费下载链接】ExtractorSharp Game Resources Editor 项目地址: https://gitcode.com/gh_mirrors/ex/ExtractorSharp ExtractorSharp是一款功能强大的开源游戏资源编辑器,专门用于编辑和…...

告别模拟器!3步在Windows上轻松安装Android应用的完整指南

告别模拟器!3步在Windows上轻松安装Android应用的完整指南 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否曾经想在Windows电脑上直接运行Android应用…...

AI技能集成指南:从原理到实践,探索大模型与工作流融合

1. 项目概述与价值定位最近在GitHub上闲逛,又发现了一个宝藏仓库,叫rafsilva85/awesome-ai-skills。光看名字就很有意思,“awesome”系列大家都懂,是某个领域优质资源的精选合集,而“AI skills”直译是“AI技能”。点进…...

认知元素框架:解析人类与LLM推理差异

1. 认知元素框架:理解推理的基本构件 在认知科学领域,人类思维过程可以被分解为一系列相互作用的认知元素。这些元素构成了我们理解复杂问题和寻找解决方案的基础能力。就像乐高积木一样,单个认知元素看似简单,但当它们被灵活组合…...

BESPOKE基准:搜索增强LLM的个性化评估新标准

1. BESPOKE基准:重新定义搜索增强LLM的个性化评估标准当ChatGPT等大型语言模型(LLM)成为日常信息获取工具时,一个关键问题日益凸显:为什么不同用户输入相同问题却需要截然不同的答案?这个看似简单的需求&am…...

语言模型上下文学习能力评估:CL-bench基准解析

1. 语言模型上下文学习能力评估:CL-bench基准深度解析在人工智能领域,语言模型(Language Models, LMs)的快速发展已经使其能够解决各种复杂任务,从数学问题到编程挑战,再到专业级考试。然而,这些…...

AI驱动CAD设计革命:ONI-CADIA项目技术解析与应用实践

1. 项目概述:当AI遇见CAD,一场设计领域的效率革命最近在AI与工业软件交叉的圈子里,一个名为“ONI-CADIA”的项目引起了我的注意。它来自Sunwood-ai-labs,名字本身就很有意思——“ONI”让人联想到“鬼”或者“灵魂”,而…...

Aivy OS:构建本地化、人格化数字生命体的完整指南

1. 项目概述:一个真正属于你的本地数字生命体 如果你和我一样,对市面上那些“用完即走”的AI助手感到厌倦,觉得它们更像是功能强大的工具,而非一个可以信赖的伙伴,那么Aivy OS的出现,可能会让你眼前一亮。…...

利用ADI官方HDL仓库加速FPGA系统开发:从IP核到完整参考设计

1. 项目概述:从GitHub仓库到可复用的数字设计资产在数字电路设计领域,无论是做FPGA原型验证、ASIC前端设计,还是嵌入式系统开发,我们常常面临一个基础且耗时的问题:如何快速、可靠地驱动各种外围芯片?从高速…...

xFasterTransformer:CPU大模型推理加速引擎原理与部署实践

1. 项目概述:xFasterTransformer,CPU上的大模型推理加速利器如果你正在为如何高效、低成本地部署百亿甚至千亿参数的大语言模型(LLM)而头疼,尤其是在没有高端GPU的X86服务器集群上,那么今天聊的这个工具&am…...

沙箱扩容总超时?用eBPF实时追踪MCP 2026调度链路:12个关键耗时节点精确定位

更多请点击: https://intelliparadigm.com 第一章:沙箱扩容超时问题的典型现象与MCP 2026调度架构概览 在大规模容器化推理服务场景中,沙箱扩容超时是MCP 2026调度器最常触发的告警类型之一。典型现象包括:Pod状态长期卡在Contai…...

Golang怎么实现分布式追踪采样_Golang如何设置采样率控制Trace数据的采集比例【技巧】

Go 的 oteltrace.Tracer 默认使用 sdktrace.NeverSample() 全丢弃 span,必须通过 TracerProvider 配置 sdktrace.WithSampler(如 ParentBased TraceIDRatioBased)并确保 trace context 正确传播。Go 的 oteltrace.Tracer 默认不采样&#xf…...

C++中指针的详解及其作用介绍

指针 (pointer) 是一个变量, 其指为另一个变量的地址. 即内存位置的直接地址.指向对象的指针在建立对象时, 编译系统会为每一个对象分配一定的存储空间, 以存放其成员.我们可以定义一个指针变量, 用来存放对象的指针. 例如:123Time time1;Time *p; // 定义指针, 格式: 类名 *对…...

XUnity.AutoTranslator完整指南:3步让Unity游戏秒变中文版

XUnity.AutoTranslator完整指南:3步让Unity游戏秒变中文版 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 还在为外语游戏的语言障碍烦恼吗?XUnity.AutoTranslator是你需要的终极解…...