当前位置：首页 > news >正文

【论文速看】DL最新进展20241015-目标检测、图像超分

news 2026/2/9 0:45:13

【目标检测】

[ECCV2024] LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction

论文链接：https://arxiv.org/pdf/2407.11335

代码链接：https://github.com/eternaldolphin/LaMI-DETR

现有方法通过利用视觉-语言模型（VLMs）的鲁棒开放词汇识别能力来增强开放词汇目标检测，但存在两个主要挑战：（1）概念表示不足，其中CLIP的文本空间中的类别名称缺乏文本和视觉知识。（2）对基础类别的过拟合倾向，在从VLMs到检测器的转换过程中，开放词汇知识偏向于基础类别。为了应对这些挑战，作者提出了语言模型指令（LaMI）策略，该策略利用视觉概念之间的关系，并将其应用于一个简单而有效的DETR类检测器，称为LaMI-DETR。LaMI利用GPT构建视觉概念，并使用T5研究跨类别的视觉相似性。这些类间关系细化了概念表示并避免了对基础类别的过拟合。全面的实验验证了在同样严格设置下的方法相对于现有方法的优越性能，并且不依赖外部训练资源。URL-DETR在OV-LVIS上达到了43.4的box AP，超过了之前最佳结果7.8 box AP。

在这里插入图片描述

[ECCV 2024] Adaptive Multi-task Learning for Few-shot Object Detection

论文链接：https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/01149.pdf

代码链接：https://github.com/RY-Paper/MTL-FSOD

大多数少样本目标检测方法使用共享特征图进行分类和定位，尽管这两项任务的需求存在冲突。定位需要对尺度和位置敏感的特征，而分类则需要对尺度和位置变化鲁棒的特征。尽管少数方法已经认识到这一挑战并尝试解决它，但它们可能没有提供全面的解决方案。为了克服少样本目标检测中分类与定位之间的矛盾偏好，本文提出了一种自适应多任务学习方法，该方法具有新颖的精度驱动梯度平衡器。该平衡器通过动态调整两项任务的反向梯度比率，有效地缓解了冲突。此外，基于CLIP的知识蒸馏和分类细化方案被引入，旨在通过利用大型视觉语言模型的能力来增强单个任务的性能。实验结果表明，所提出的方法在基准数据集上一致地显示出比强大的少样本检测基线有所改进。

在这里插入图片描述

【图像超分】

[Sana] Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer

机构：NVIDIA、MIT、清华

论文链接：https://arxiv.org/pdf/2410.10629

代码链接：https://nvlabs.github.io/Sana/

本文引入了Sana，一个文本到图像框架，能够高效生成高达 $4096 \times 4096$ 分辨率的图像。Sana可以以极快的速度合成高分辨率、高质量的图像，并具有强大的文本-图像对齐功能，可在笔记本电脑GPU上部署。核心设计包括：（1）深度压缩自编码器：与传统的AE不同，它们只将图像压缩8倍，训练了一个可以将图像压缩32倍的AE，有效减少了潜在令牌的数量。（2）线性DiT：将DiT中的所有vanilla注意力替换为线性注意力，这在高分辨率下更高效，且不牺牲质量。（3）仅解码器的文本编码器：将T5替换为仅解码器的小型LLM作为文本编码器，并设计复杂的人类指令和上下文学习以增强图像-文本对齐。（4）高效的训练和采样：提出Flow-DPM-Solver来减少采样步骤，通过高效的标题标记和选择加速收敛。结果，Sana-0.6B与现代大型扩散模型（例如Flux-12B）非常具有竞争力，其大小仅为后者的1/20，测量吞吐量快100倍以上。此外，Sana-0.6B可以在16GB的笔记本电脑GPU上部署，生成 $1024 \times 1024$ 分辨率的图像不到1秒。Sana使内容创作成本低廉。

在这里插入图片描述

[2024] Distillation-Free One-Step Diffusion for Real-World Image Super-Resolution

论文链接：https://arxiv.org/pdf/2410.04224

代码链接：https://github.com/JianzeLi-114/DFOSD

扩散模型在现实世界图像超分辨率（Real-ISR）方面取得了优异的性能，但计算成本相当高。当前的方法试图通过知识蒸馏从多步模型中提取单步扩散模型。然而，这些方法带来了相当大的训练成本，并且可能会因为教师模型的局限性而限制学生模型的性能。为了解决这些问题，本文提出了一种无需蒸馏的单步扩散模型（DFOSD）。具体来说，提出了一个**噪声感知判别器（NAD）来参与对抗性训练，进一步增强生成内容的真实性。此外，通过边缘感知的DISTS（EA-DISTS）**改进了感知损失，以增强模型生成细节的能力。实验表明，与需要数十步甚至数百步的基于扩散的先前方法相比，DFOSD在定量指标和定性评估中都取得了可比甚至更优的结果。与其他单步扩散方法相比，DFOSD也获得了更高的性能和效率。

在这里插入图片描述

【论文速看】DL最新进展20241015-目标检测、图像超分

目录

【目标检测】

【图像超分】

相关文章：

【论文速看】DL最新进展20241015-目标检测、图像超分

京准电钟：NTP时间服务器让大数据时钟同步

SSL免费证书申请（七牛云/阿里云等）

十二、结构型（代理模式）

使用 python 下载 bilibili 视频

DevExpress WinForms中文教程：Data Grid - 如何点击获取信息？

真空牛肉滚揉机的优点：

【物流配送中心选址问题】基于退火算法混合粒子群算法

elasticsearch 8.2 版本账号密码设置及SSL设置

git gui基本使用

从automaxprocs库浅窥Linux容器的资源控制

AI 读文献（二）：综述论文10倍速读和整理

【AAOS】Android Automotive 10模拟器源码下载及编译

前端开发攻略---使用css实现滚动吸附效果

解析 MySQL 查询优化：提升性能的十个关键策略

QT--QPushButton设置文本和图标、使能禁能、信号演示

PostgreSQL学习笔记六：模式SCHEMA

基础IO -- 理解文件（1）

golang包管理

outlook 添加企业邮箱账号出现 553 authentication is required 错误解决

R语言AI模型部署方案：精准离线运行详解

iPhone密码忘记了办？iPhoneUnlocker，iPhone解锁工具Aiseesoft iPhone Unlocker 高级注册版分享

React Native在HarmonyOS 5.0阅读类应用开发中的实践

基于数字孪生的水厂可视化平台建设：架构与实践

C++.OpenGL （10/64）基础光照（Basic Lighting）

OPENCV形态学基础之二腐蚀

C++课设：简易日历程序（支持传统节假日 + 二十四节气 + 个人纪念日管理）

站群服务器的应用场景都有哪些？

MySQL 主从同步异常处理

DBLP数据库是什么？