当前位置: 首页 > article >正文

CVPR 2026 | 武大提出OpenDPR:基于扩散模型的开放词汇变化检测模型

点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐转载自遥感与深度学习题目OpenDPR: Open-Vocabulary Change Detection via Vision-Centric Diffusion-Guided Prototype Retrieval for Remote Sensing Imagery会议The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026论文https://arxiv.org/abs/2603.27645数据LEVIR-CD、WHU-CD、Hi-UCD mini、SECOND代码https://github.com/guoqi2002/OpenDPR年份2026单位武汉大学、北京理工大学创新点将开放词汇变化检测重新定义为变化定位与类别识别两阶段流程并揭示类别识别错误是主要性能瓶颈提出无需训练的视觉中心扩散引导原型检索框架OpenDPR在视觉空间内进行相似性检索避免了视觉语言模型图文匹配范式的局限性提出空间到变化的弱监督变化检测模块S2C利用视觉基础模型的空间建模能力优化伪标签提升二值变化定位精度将S2C以即插即用方式集成到OpenDPR中形成弱监督变体OpenDPR-W以极少监督代价显著提升开放词汇变化检测性能背景变化检测是遥感领域的基础任务旨在通过比较多时相遥感图像来定位和识别地物变化。现有方法主要分为二值变化检测和语义变化检测两类但均基于封闭集假设仅能识别预定义类别在地物类型多样、标注稀缺的遥感场景中存在明显局限。为突破封闭集假设开放词汇变化检测OVCD被提出旨在识别任意感兴趣的变化类别。现有OVCD方法依赖CLIP等视觉语言模型进行类别识别但图文匹配范式难以精细表征遥感地物类别导致识别精度不足。此外视觉基础模型缺乏双时相变化先验也制约了变化区域的准确定位。数据LEVIR-CD面向建筑物变化检测的遥感数据集用于无监督和弱监督建筑物变化检测评估WHU-CD面向建筑物变化检测的航空与卫星融合数据集用于无监督和弱监督建筑物变化检测评估Hi-UCD mini面向城市语义变化检测的大规模遥感数据集包含水体、草地、建筑、道路、裸地、林地等多类地物用于多类别开放词汇变化检测评估SECOND面向语义变化检测的航空图像数据集包含水体、地面、低矮植被、树木、建筑、操场等类别每对图像均包含变化仅用于评估OpenDPR无弱监督变体方法OpenDPR无训练视觉中心扩散引导原型检索框架多样化原型构建利用大语言模型GPT-4为每个目标地物类别生成丰富的文本描述增强描述多样性基于地理位置和类别外观、纹理、上下文生成多样化描述利用遥感领域扩散模型DiffusionSat合成支持图像集每条描述生成多张图像构建各类别支持集采用APE对合成图像进行类别特定定位获取像素级掩码防止背景语义污染原型使用DINOv2提取特征通过掩码平均池化聚合目标区域特征对各类别特征集进行K-means聚类以聚类中心作为多样化视觉原型相似性驱动视觉检索推理时采用SAM对双时相图像生成初始掩码集通过非极大值抑制去除冗余检测利用DINOv2提取特征结合掩码平均池化获得各候选区域特征基于负余弦相似度计算变化得分筛选变化候选区域提出两种原型检索策略类别均值策略计算候选区域与各类别所有原型的平均相似度取最大值确定类别全局最大策略直接取候选区域与所有原型中最高相似度对应的类别OpenDPR-W弱监督增强变体S2C弱监督变化检测模块预训练采用共享权重孪生编码器提取双时相图像多尺度特征通过逐元素绝对差构建变化特征图利用图像级变化标签计算图像级二值交叉熵损失采用类激活图CAM生成像素级伪标签结合轻量级分割头计算像素级损失引入VFMsSAMDINOv2提取类无关变化候选区域依据与初始伪标签的重叠率筛选并融合生成边界更精确的精细化伪标签推理时增强S2C预测测试图像对的二值变化区域对OpenDPR生成的每个变化候选计算其与S2C变化区域的重叠率保留重叠率超过阈值的候选区域聚合为最终OVCD结果结果与分析OpenDPR在四个基准数据集上均超越现有无监督方法证明了视觉空间原型检索相比图文匹配在遥感场景下的显著优势。OpenDPR-W在弱监督设置下进一步提升了变化定位精度以最少的可训练参数实现了优于同类方法的整体性能。更多图表分析可见原文本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号 整理不易请点赞和在看

相关文章:

CVPR 2026 | 武大提出OpenDPR:基于扩散模型的开放词汇变化检测模型

点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>【顶会/顶刊】投稿交流群添加微信号:CVer2233,小助手拉你进群!扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶…...

Obsidian个性化首页配置指南:从零开始构建高效知识管理中心

Obsidian个性化首页配置指南:从零开始构建高效知识管理中心 【免费下载链接】obsidian-homepage Obsidian homepage - Minimal and aesthetic template (with my unique features) 项目地址: https://gitcode.com/gh_mirrors/obs/obsidian-homepage 在信息爆…...

4步打造专属《无人深空》体验:NomNom存档编辑器全功能指南

4步打造专属《无人深空》体验:NomNom存档编辑器全功能指南 【免费下载链接】NomNom NomNom is the most complete savegame editor for NMS but also shows additional information around the data youre about to change. You can also easily look up each item …...

[具身智能-235]:OpenCV - 图像是RGB三通道,Mask是单通道

在 OpenCV 和计算机视觉中,图像(Image)通常是三维的(高 H 宽 W 通道 C,例如 RGB 三通道),而 掩膜(Mask)通常是二维的(高 H 宽 W,单通道黑白&am…...

MHY_Scanner:米哈游游戏毫秒级扫码登录的终极解决方案

MHY_Scanner:米哈游游戏毫秒级扫码登录的终极解决方案 【免费下载链接】MHY_Scanner MHY扫码登录器,支持从直播流抢码。 项目地址: https://gitcode.com/gh_mirrors/mh/MHY_Scanner 在游戏直播抢码的激烈竞争中,传统手动扫码登录面临着…...

[具身智能-236]:OpenCV ROI:Region of Interest(感兴趣区域)

在 OpenCV 中,ROI 是 Region of Interest(感兴趣区域)的缩写。简单来说,ROI 就是从图像中切出来的“一块”。在处理图像时,我们往往不需要处理整张图片(比如处理人脸时不需要管背景里的树)&…...

突破鸣潮帧率限制:WaveTools工具箱全攻略与优化指南

突破鸣潮帧率限制:WaveTools工具箱全攻略与优化指南 【免费下载链接】WaveTools 🧰鸣潮工具箱 项目地址: https://gitcode.com/gh_mirrors/wa/WaveTools 在《鸣潮》1.2版本更新后,许多玩家发现游戏帧率被锁定在60FPS,无法充…...

解决网易云音乐加密NCM文件播放限制的完整实践指南

解决网易云音乐加密NCM文件播放限制的完整实践指南 【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换,Windows图形界面版本 项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 你是否曾经遇到过这样的情况:从网易云音乐下载的…...

seo关键词文章的结构应该怎么安排

SEO关键词文章的结构应该怎么安排 在当前竞争激烈的互联网环境中,SEO(搜索引擎优化)已经成为每个网站运营者必须掌握的技能之一。其中,关键词的选择和布局是SEO文章结构的核心部分。SEO关键词文章的结构应该怎么安排呢&#xff1…...

【投资小知识】金融投资领域常说的 Alpha(α)和 Beta(β)

Alpha(α) 和 Beta(β) 是金融投资领域的两个核心概念,用于拆解投资收益的来源和衡量风险。它们源于资本资产定价模型(CAPM),是量化投资和因子分析的基础。一、Beta(β&a…...

1949-2023年各地级市、县新注册农民专业合作社数量数据

数据介绍 农民专业合作社可以推动农业规模化与产业化经营资源整合,合作社通过集中土地、劳动力、资金等生产要素,实现规模化种植或养殖,降低单位生产成本。通过统一采购农资、技术培训、品牌销售,提升市场竞争力。 产业链延伸&a…...

[资源管理]:全链路智能化的Manifest协同方案

[资源管理]:全链路智能化的Manifest协同方案 【免费下载链接】Onekey Onekey Steam Depot Manifest Downloader 项目地址: https://gitcode.com/gh_mirrors/one/Onekey 定位核心矛盾:资源管理的系统性困境 在数字内容分发领域,Manife…...

现代Qt开发——入门 · 环境搭建 · 00 · Qt6 安装踩坑指南

现代Qt开发——入门 环境搭建 00 Qt6 安装踩坑指南 相关仓库仍然已经开源,正在积极火热的建设之中,欢迎各位大佬提Issue和PR! 链接地址:https://github.com/Awesome-Embedded-Learning-Studio/Tutorial_AwesomeQt 1. 前言&…...

【MATLAB源码-第410期】基于matlab的图像去雾系统设计—采用暗通道先验、颜色衰减与导向滤波融合。

操作环境:MATLAB 2024a1、算法描述基于MATLAB的图像去雾系统设计与实现 摘要 雾霾天气会显著削弱成像系统获取场景信息的能力,使图像出现对比度下降、颜色失真、边缘模糊及远景细节衰减等问题,从而影响目标检测、场景理解、智能监控与辅助驾驶…...

基于 MATLAB 的交叉偏导数(CPD)约束盲图像去模糊系统实现与分析——输出去模糊前后对比图像及模糊核分布。

操作环境:MATLAB 2024a1、算法描述基于MATLAB的交叉偏导数(CPD)盲图像去模糊系统,是一种结合图像特征分析、频域滤波以及正则化思想的综合性图像复原方案。整个系统的设计核心在于通过交叉偏导数特征提取模糊方向信息,…...

STM32 智能垃圾桶项目笔记(二):基于TIM4与中断回调的超声波测距逻辑优化与实战

1. TIM4定时器在超声波测距中的关键作用 在智能垃圾桶项目中,超声波测距的准确性直接决定了自动开盖功能的可靠性。原始方案使用TIM3实现1μs延时已经解决了触发信号的问题,但Echo信号的高电平时间测量需要更高精度的方案。这就是TIM4定时器大显身手的地…...

用Python从零解析ARS548 4D毫米波雷达数据:一个完整的数据处理与可视化实战教程

用Python从零解析ARS548 4D毫米波雷达数据:一个完整的数据处理与可视化实战教程 在自动驾驶和智能交通领域,4D毫米波雷达正成为感知系统的核心传感器之一。相比传统毫米波雷达,ARS548等新一代4D雷达不仅能提供目标的距离、速度和方位角信息&a…...

【JEECG Boot】JEECG Boot 系统性知识体系全方位结构化总结

文章目录JEECG Boot一、平台基础定位与核心理念1. 核心定义与定位2. 核心设计理念二、整体技术架构体系1. 分层架构总览2. 核心技术栈明细3. 核心架构特性三、核心能力体系1. 低代码核心能力:代码生成器2. 零代码核心能力:Online在线开发3. AI原生赋能能…...

ESP32实战:5分钟搞定CAN通信,从硬件连接到数据收发(附代码)

ESP32实战:5分钟搞定CAN通信,从硬件连接到数据收发(附代码) 当你第一次拿到ESP32开发板时,可能已经尝试过Wi-Fi或蓝牙通信,但你是否知道这颗小小的芯片还能轻松实现工业级的CAN总线通信?CAN总线…...

【Swagger】Swagger系统性知识体系全方位结构化总结

文章目录 Swagger一、基础认知与发展历程1.1 核心定义与本质区分1.2 核心发展历程 二、核心基石:OpenAPI 规范(OAS)2.1 主流版本核心差异2.2 OAS 3.x 核心文档结构2.3 核心语法能力 三、Swagger 官方核心工具生态四、主流开发模式与全链路落地…...

保姆级教程:用Vivado MIG IP核搞定DDR3读写仿真(附AXI4波形分析)

从零掌握Vivado MIG IP核:DDR3读写仿真与AXI4协议深度解析 刚接触Xilinx FPGA的工程师第一次打开MIG IP核配置界面时,往往会被密密麻麻的参数选项吓到——时钟设置、AXI接口、地址映射、时序约束,每个环节都可能成为项目推进的拦路虎。本文将…...

别再被rosdep卡住了!ALOHA机械臂部署中‘skip noetic’报错的保姆级解决方案

突破ALOHA机械臂部署瓶颈:ROS Noetic生命周期终止后的实战解决方案 当你在深夜的实验室里调试ALOHA机械臂,屏幕突然跳出"Skip end-of-life distro noetic"的红色警告,那种感觉就像在高速公路上突然遇到路障。这不是普通的报错&…...

EduCoder实训答案查询站是怎么建起来的?从签到、解锁到数据抓取的全流程复盘

从零构建EduCoder答案查询站的技术实践与思考 去年冬天,我发现身边不少同学在EduCoder平台上刷实训时常常卡壳,而平台自带的答案解锁机制又需要消耗大量金币。作为一名计算机专业的学生兼业余开发者,我萌生了一个想法:能否通过技术…...

安卓开发者必看:解决Google Play服务报错的5种实战方法(附工具推荐)

安卓开发者必看:解决Google Play服务报错的5种实战方法(附工具推荐) 在安卓应用开发过程中,Google Play服务(Google Play Services)的集成几乎是不可避免的——无论是地图服务、支付功能,还是推…...

Qt实战:用QCustomPlot打造高性能动态波形图(附GitHub源码)

Qt实战:用QCustomPlot打造高性能动态波形图(附GitHub源码) 在物联网设备监控、工业自动化测试或生物电信号分析场景中,开发者常面临每秒数千个数据点的实时可视化挑战。传统绘图库在渲染高频动态波形时容易出现卡顿、帧率骤降等问…...

[具身智能-237]:OpenCV - 图像的坐标轴

OpenCV 的图像坐标系与我们在数学课上学到的标准笛卡尔坐标系有显著不同,这是初学者最容易混淆的地方。简单来说,它的核心规则是:原点在左上角,X 轴向右,Y 轴向下。下面为你详细拆解这个坐标系的构成,以及在…...

[具身智能-234]:OpenCV - 图像通常是三维的(高 H × 宽 W × 通道 C,例如 RGB 三通道),而 Mask 通常是二维的(高 H × 宽 W,单通道黑白),为什么?

图像通常是三维的(高 H 宽 W 通道 C,例如 RGB 三通道),而 Mask 通常是二维的(高 H 宽 W,单通道黑白)。它们之间的“映射”并不是数学上的维度变换,而是一种基于广播机制的逻辑索引…...

别再傻傻分不清!一张图看懂PMOS、NMOS和CMOS在电路设计中的真实区别

从物理特性到电路设计:PMOS、NMOS与CMOS的实战解析 在电子工程领域,MOSFET晶体管就像乐高积木一样构成了现代集成电路的基础模块。但面对PMOS、NMOS这对"双胞胎"时,许多初学者常常陷入困惑——为什么数字电路总爱用CMOS结构&#x…...

Harness 中的事务边界定义:微事务与补偿

Harness 中的事务边界定义:微事务与补偿 引言 核心概念铺垫 在开始本文的核心内容——Harness 中的事务边界定义与微事务/补偿实践体系——之前,我们需要先锚定一组贯穿全文的、与 CI/CD 交付流水线强绑定的专属术语与业务通用术语的融合定义: 交付事务(Delivery Transac…...

VLAN配置避坑指南:为什么你的Trunk接口加了PVID还是不通?

VLAN配置避坑指南:为什么你的Trunk接口加了PVID还是不通? 刚接触企业网络的新手工程师们,是否经常遇到这样的困惑:明明按照文档配置了Trunk接口的PVID,设备间的VLAN通信却依然无法建立?这背后往往隐藏着对P…...