当前位置: 首页 > article >正文

改进的Yolo11算法 有效张点创新点 引入FocalModulation特征金字塔实现精度的提高

Yolo11 引入【FocalModulation】特征金字塔的实现步骤一、【FocalModulation】特征金字塔概述1.1 【FocalModulation】特征金字塔介绍【FocalModulation】结构简介以下为【FocalModulation】特征金字塔的核心处理过程和优势处理过程分层上下文化处理Hierarchical Contextualization输入处理将输入通过线性变换进入分层上下文化模块。分层特征提取模块分为多个层级如三层每一层提取不同尺度、不同抽象层次的信息类似深度卷积网络逐步提取高阶特征。效果这种分层方式可捕获多样化的上下文特征提升模型对复杂场景的理解能力。门控聚合Gated Aggregation特征聚合各层提取的特征通过门控单元进行融合。动态权重调整门控机制根据上下文信息动态调整特征权重灵活融合不同层次的信息。优势增强了模型适应能力能够根据任务需求选择性依赖不同特征层。轻量线性变换Lightweight Linear Transformation优化特征表示对聚合后的特征进一步压缩或调优。计算高效确保最终输出既具有良好的特征表达能力又能降低计算复杂度。优势多层次上下文捕捉通过分层提取不同尺度的特征模型对复杂场景的表达能力更强。灵活的门控机制门控机制动态调整特征融合的权重使模型适应不同任务的需求。计算高效引入轻量化设计降低了计算成本适合实时场景。全局上下文增强捕获全局的上下文信息使模型在长距离依赖任务如自然语言处理或图像理解中表现出色。1.2 【FocalModulation】核心代码实现以下为【FocalModulation】模块的完整代码importtorch.nnasnnimporttorchclassFocalModulation(nn.Module):def__init__(self,dim,focal_window3,focal_level2,focal_factor2,biasTrue,proj_drop0.,use_postln_in_modulationFalse,normalize_modulatorFalse):super().__init__()self.dimdim self.focal_windowfocal_window self.focal_levelfocal_level self.focal_factorfocal_factor self.use_postln_in_modulationuse_postln_in_modulation self.normalize_modulatornormalize_modulator self.f_linearnn.Conv2d(dim,2*dim(self.focal_level1),kernel_size1,biasbias)self.hnn.Conv2d(dim,dim,kernel_size1,stride1,biasbias)self.actnn.GELU()self.projnn.Conv2d(dim,dim,kernel_size1)self.proj_dropnn.Dropout(proj_drop)self.focal_layersnn.ModuleList()self.kernel_sizes[]forkinrange(self.focal_level):kernel_sizeself.focal_factor*kself.focal_window self.focal_layers.append(nn.Sequential(nn.Conv2d(dim,dim,kernel_sizekernel_size,stride1,groupsdim,paddingkernel_size//2,biasFalse),nn.GELU(),))self.kernel_sizes.append(kernel_size)ifself.use_postln_in_modulation:self.lnnn.LayerNorm(dim)defforward(self,x): Args: x: input features with shape of (B, H, W, C) Cx.shape[1]# pre linear projectionxself.f_linear(x).contiguous()q,ctx,gatestorch.split(x,(C,C,self.focal_level1),1)# context aggregationctx_all0.0forlinrange(self.focal_level):ctxself.focal_layers[l](ctx)ctx_allctx_allctx*gates[:,l:l1]ctx_globalself.act(ctx.mean(2,keepdimTrue).mean(3,keepdimTrue))ctx_allctx_allctx_global*gates[:,self.focal_level:]# normalize contextifself.normalize_modulator:ctx_allctx_all/(self.focal_level1)# focal modulationx_outq*self.h(ctx_all)x_outx_out.contiguous()ifself.use_postln_in_modulation:x_outself.ln(x_out)# post linear projectionx_outself.proj(x_out)x_outself.proj_drop(x_out)returnx_out二、添加【FocalModulation】特征金字塔到 Yolo112.1 STEP 1在ultralytics/nn文件夹中新建一个文件夹或模块确保带有__init__.py文件。创建FocalModulation.py文件并将上述代码粘贴到该文件中。2.2 STEP 2在__init__.py中导入FocalModulation模块from.FocalModulationimportFocalModulation2.3 STEP 3找到task.py文件在其中导入并新增【FocalModulation】的逻辑。2.4 STEP 4定位到parse_model函数在模块解析时添加【FocalModulation】的解析支持。ifmoduleFocalModulation:mFocalModulation(...)三、yaml 文件配置与运行3.1 yaml 文件配置以下是一个支持【FocalModulation】的yaml文件示例backbone:-[-1,1,Conv,[64,3,2]]# P1-[-1,1,Conv,[128,3,2]]# P2-[-1,1,FocalModulation,[]]# FocalModulation特征金字塔根据需求调整模块参数3.2 运行结果截图运行成功后模型可以完成训练和推理任务。以下为运行成功后的截图总结通过引入【FocalModulation】特征金字塔Yolo11 能够有效提升特征提取能力尤其是对复杂场景、全局上下文信息的捕获能力。同时其高效设计保证了模型性能的平衡非常适合实际部署和实时应用。

相关文章:

改进的Yolo11算法 有效张点创新点 引入FocalModulation特征金字塔实现精度的提高

Yolo11 引入【FocalModulation】特征金字塔的实现步骤一、【FocalModulation】特征金字塔概述1.1 【FocalModulation】特征金字塔介绍 【FocalModulation】结构简介 以下为【FocalModulation】特征金字塔的核心处理过程和优势: 处理过程:分层上下文化处理…...

GDB调试实战:参数传递与断点设置的进阶技巧(--args、set args、break)

1. GDB调试入门:为什么参数传递和断点设置如此重要 刚开始接触GDB调试时,我经常遇到一个尴尬的情况:明明程序在命令行下运行得好好的,一用GDB调试就各种崩溃。后来才发现,原来是忘记给调试的程序传递参数了。这就像你给…...

Tiny11Builder终极指南:让你的老旧电脑重获新生!

Tiny11Builder终极指南:让你的老旧电脑重获新生! 【免费下载链接】tiny11builder Scripts to build a trimmed-down Windows 11 image. 项目地址: https://gitcode.com/GitHub_Trending/ti/tiny11builder 想象一下,你的老旧电脑开机需…...

3步快速搭建缠论可视化分析平台:基于TradingView的终极解决方案

3步快速搭建缠论可视化分析平台:基于TradingView的终极解决方案 【免费下载链接】chanvis 基于TradingView本地SDK的可视化前后端代码,适用于缠论量化研究,和其他的基于几何交易的量化研究。 缠论量化 摩尔缠论 缠论可视化 TradingView TV-SD…...

3分钟快速上手:免费在线3D模型查看器完整指南

3分钟快速上手:免费在线3D模型查看器完整指南 【免费下载链接】Online3DViewer A solution to visualize and explore 3D models in your browser. 项目地址: https://gitcode.com/gh_mirrors/on/Online3DViewer 想要在浏览器中直接查看3D模型而无需安装任何…...

html-docx-js:浏览器端HTML到DOCX转换的架构实现与深度集成方案

html-docx-js:浏览器端HTML到DOCX转换的架构实现与深度集成方案 【免费下载链接】html-docx-js Converts HTML documents to DOCX in the browser 项目地址: https://gitcode.com/gh_mirrors/ht/html-docx-js html-docx-js是一个基于JavaScript的轻量级库&am…...

告别模糊图像:html-to-image 像素比率(Pixel Ratio)完全控制指南

告别模糊图像:html-to-image 像素比率(Pixel Ratio)完全控制指南 【免费下载链接】html-to-image ✂️ Generates an image from a DOM node using HTML5 canvas and SVG. 项目地址: https://gitcode.com/gh_mirrors/ht/html-to-image …...

告别臃肿控制中心:AlienFX Tools如何用500KB实现Alienware设备的完全掌控

告别臃肿控制中心:AlienFX Tools如何用500KB实现Alienware设备的完全掌控 【免费下载链接】alienfx-tools Alienware systems lights, fans, and power control tools and apps 项目地址: https://gitcode.com/gh_mirrors/al/alienfx-tools 你是否曾经因为Al…...

OpenFace面部分析实战:多模态行为理解的完整解决方案

OpenFace面部分析实战:多模态行为理解的完整解决方案 【免费下载链接】OpenFace OpenFace – a state-of-the art tool intended for facial landmark detection, head pose estimation, facial action unit recognition, and eye-gaze estimation. 项目地址: htt…...

从训练到推理全程守护:大模型MLOps隐私保护流水线设计(含Airflow+OpenMined集成方案)

第一章:大模型工程化中的数据隐私保护 2026奇点智能技术大会(https://ml-summit.org) 在大模型工程化落地过程中,训练与推理阶段的数据流动极易暴露敏感信息。用户输入、微调语料、梯度更新乃至缓存日志都可能成为隐私泄露的入口。合规性要求&#xff0…...

微信QQ防撤回补丁终极指南:一键解决消息被撤回的烦恼

微信QQ防撤回补丁终极指南:一键解决消息被撤回的烦恼 【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁(我已经看到了,撤回也没用了) 项目地址: https://gitcode.com…...

Claude Code Harness架构技术深度解析:生产级AI Agent工程化实践

技术分析:基于泄露源码的Claude Code Harness设计原理与工程实现细节 前言:AI Agent工程化的技术挑战 2026年,Claude Code源代码泄露事件揭示了Anthropic在AI Agent工程化方面的深度技术积累。本文基于泄露的TypeScript源码,从技…...

如何在macOS上实现Xbox 360控制器驱动:5大核心技术深度解析

如何在macOS上实现Xbox 360控制器驱动:5大核心技术深度解析 【免费下载链接】360Controller TattieBogle Xbox 360 Driver (with improvements) 项目地址: https://gitcode.com/gh_mirrors/36/360Controller 对于macOS游戏玩家和开发者而言,原生系…...

5大方法实现Alienware灯光、风扇与电源的深度个性化控制

5大方法实现Alienware灯光、风扇与电源的深度个性化控制 【免费下载链接】alienfx-tools Alienware systems lights, fans, and power control tools and apps 项目地址: https://gitcode.com/gh_mirrors/al/alienfx-tools Alienware设备用户常面临原厂软件功能受限、个…...

是否可以给出比赛赛道的具体部署方案?

简 介: :参赛学生对"走马观碑"比赛赛道设计提出改进建议,认为当前目标板放置方式存在难度差异问题,建议按赛道特征分类均匀布置。同时提议发布模拟赛道以明确规则。卓老师回应表示,为避免商业化成品车模问题…...

番茄小说下载器:三步打造你的永久离线小说图书馆

番茄小说下载器:三步打造你的永久离线小说图书馆 【免费下载链接】fanqienovel-downloader 下载番茄小说 项目地址: https://gitcode.com/gh_mirrors/fa/fanqienovel-downloader 还在担心心爱的番茄小说突然下架或网络中断无法阅读吗?fanqienovel…...

大一初学C语言

我是一名大一学生,专业是自动化,我了解 C 语言对我们这个专业很重要,所以我想学习 C语言 为以后更深入的学习打下基础,每天的话 我可以拿出两个小时左右时间来学习,争取在大二前把 C 语言基础弄懂 ,然后学习…...

中文NLP小白福音:bert-base-chinese预训练模型快速上手指南

中文NLP小白福音:bert-base-chinese预训练模型快速上手指南 1. 为什么选择bert-base-chinese 如果你刚开始接触中文自然语言处理(NLP),bert-base-chinese绝对是最佳起点。这个由Google发布的预训练模型,已经成为中文NLP领域的"瑞士军刀…...

sndcpy:无需Root权限实现Android音频无线转发的完整指南

sndcpy:无需Root权限实现Android音频无线转发的完整指南 【免费下载链接】sndcpy Android audio forwarding PoC (scrcpy, but for audio) 项目地址: https://gitcode.com/gh_mirrors/sn/sndcpy sndcpy是一款专为Android设备设计的音频转发工具,能…...

我花了几个月,整理了 800+ 道程序员面试题,做成了一个可以刷题的 Web App

大家好,我是一名前端开发者。 最近在准备面试的过程中,发现一个痛点:面试题资料到处都是,但没有一个地方能让我系统地刷、记、复习。 要么是 PDF 翻页痛苦,要么是 GitHub 上的 Markdown 文件密密麻麻看眼花&#xff…...

【Android】Shizuku升级版-Stellar-提高软件权限

【Android】Shizuku升级版-Stellar-提高软件权限 链接:https://pan.xunlei.com/s/VOq3RLiQgJguClSTUEPFDpqNA1?pwd3qcy# Stellar 是知名开源项目 Shizuku 的深度定制分支。它专为开发者设计,提供了一个更灵活、强大的特权 API 框架。 通过 ADB 无线调…...

nlp_gte_sentence-embedding_chinese-large详细步骤:Web界面三功能(向量化/相似度/检索)逐项演示

nlp_gte_sentence-embedding_chinese-large详细步骤:Web界面三功能(向量化/相似度/检索)逐项演示 你是不是经常遇到这样的问题?面对一堆文档,想快速找到和某个问题最相关的那几篇;或者想判断两段话说的到底…...

免费终极视频修复工具:5分钟拯救你的损坏MP4文件

免费终极视频修复工具:5分钟拯救你的损坏MP4文件 【免费下载链接】untrunc Restore a damaged (truncated) mp4, m4v, mov, 3gp video. Provided you have a similar not broken video. 项目地址: https://gitcode.com/gh_mirrors/unt/untrunc 你是否曾因视频…...

Qwen3-VL-8B AI聊天系统Web版效果展示:实测图文对话能力,惊艳的AI聊天体验

Qwen3-VL-8B AI聊天系统Web版效果展示:实测图文对话能力,惊艳的AI聊天体验 1. 开篇:当AI开始"看图说话" 想象一下这样的场景:你随手拍下办公桌上凌乱的文件堆,发给AI问:"这些文件该怎么分…...

联想Y70/Y90深度玩机指南:从BL解锁到Magisk Root的全流程解析

1. 联想Y70/Y90玩机前的准备工作 拿到联想Y70或Y90的第一件事,不是急着刷机,而是要做好万全准备。我见过太多新手因为跳过准备步骤,导致变砖后数据全丢的惨剧。首先确认你的具体型号,Y70对应L71091,Y90对应L71061——这…...

Flowise入门必看:Flowise权限管理与多租户隔离配置指南

Flowise入门必看:Flowise权限管理与多租户隔离配置指南 1. 引言 想象一下,你刚刚用Flowise在10分钟内搭建了一个智能客服工作流,效果很棒。现在你想把它分享给团队其他成员一起使用,或者想为不同的客户创建独立的工作流环境&…...

天孚通信冲刺港股:年营收51亿 利润20亿,派息5.4亿 市值2790亿

雷递网 雷建平 4月11日苏州天孚光通信股份有限公司(简称:“天孚通信”)日前递交招股书,准备在港交所上市。天孚通信2015年在深交所创业板上市。截至周五收盘,天孚通信股价为358.9元,市值为2790亿元。2026年…...

Qwen3.5-9B企业应用:HR招聘JD生成+候选人简历匹配度分析案例

Qwen3.5-9B企业应用:HR招聘JD生成候选人简历匹配度分析案例 1. 项目背景与价值 在人力资源招聘领域,JD(职位描述)撰写和简历筛选是两项耗时且重复性高的工作。传统方法需要HR花费大量时间: 撰写一份专业JD通常需要2…...

求助:VS Code 可以跳过Claude code的初始登录,但交互后还是需要登录

小白求助~:我现在用了 ccswitch,然后也在claude.json里用代码跳过了Claude code在VS Code里的登录界面(图1)。所以每次我点右上角那个插件按钮,都可以进入聊天界面(图2)。图1 图2但我一旦输入问…...

Failed to configure a DataSource: ‘url‘ attribute is not specified and no embedded datasource could

一句话总结:Spring Boot 启动时试图自动配置数据库连接,但你在配置文件中既没提供数据库 URL,也没启用 H2/HSQLDB 等嵌入式数据库。 🚨 一、错误全貌(典型日志) 2026-04-12 12:04:26.318 INFO 21144 --- […...