当前位置: 首页 > news >正文

最新夜间数据集发布LoLI-Street: 33000帧数据,涵盖19000个目标

最新夜间数据集发布LoLI-Street: 33000帧数据,涵盖19000个目标

Abstract

低光照图像增强(LLIE)对于许多计算机视觉任务至关重要,包括目标检测、跟踪、分割和场景理解。尽管已有大量研究致力于提高在低光照条件下捕捉的低质量图像,但在自动驾驶车辆中,清晰的视觉仍然至关重要,尤其是在低光场景中,这表明这一领域需要持续研究。然而,用于LLIE的成对数据集十分稀缺,尤其是在街景领域,这限制了鲁棒LLIE方法的发展。尽管当前的LLIE方法使用了先进的transformer和/或基于扩散的模型,但它们在真实世界的低光条件下表现不佳,并且缺乏针对街景数据集的训练,降低了它们在自动驾驶中的有效性。

为了解决这些问题,我们引入了一个新的数据集“LoLI-Street”(Low-Light Images of Streets),该数据集包含来自发达城市街景的33,000对低光与良好曝光图像,涵盖19,000个目标类别用于目标检测。LoLI-Street数据集还包含1,000张真实低光测试图像,用于在现实条件下测试LLIE模型。此外,我们提出了一种基于transformer和扩散的LLIE模型,命名为“TriFuse”。利用LoLI-Street数据集,我们训练并评估了TriFuse和现有的SOTA(state-of-the-art)模型,基于我们的数据集进行基准测试。通过对比不同的模型,我们的数据集在主流数据集上的测试中展示了良好的泛化能力,显著增强了图像质量和目标检测的效果,为自动驾驶和监控系统的实际应用提供了支持。

完整代码和数据集获取:https://github.com/tanvirnwu/TriFuse。

 欢迎加入自动驾驶实战群

Introduction

低光照环境为日常生活中的各种计算机视觉任务带来了重大挑战。大多数计算机视觉任务的模型通常在白天光照充足时收集的数据集上进行训练,因此在黑暗或低光环境下效果不佳。这一局限性带来了显著的挑战,因为现有数据集未能考虑到现实世界中低光照条件下的变化和复杂性。因此,随着白天逐渐过渡到夜晚,能见度的降低会影响计算机视觉系统执行甚至最基本任务的能力。这不仅仅是便利性的问题,更是关乎安全和效率。

为应对这些实际挑战,计算机视觉技术的进步至关重要。这类系统可以在低光条件下提供显著帮助,增强自动驾驶车辆的视觉能力,并提高安全保障措施。通过减轻低光照条件的影响,计算机视觉技术展现了其在广泛应用中的潜力。例如,最近图像处理和机器学习的进展已催生了复杂的算法,可以在接近黑暗的环境中增强图像清晰度、检测和识别目标。此外,随着深度学习、transformer和扩散方法的兴起,其特征表示能力迅速推动了低光照图像增强(LLIE)的采用。研究人员还通过利用合成数据集探索最新的基于transformer和扩散的LLIE方法,并报告了LLIE的显著改进。然而,这些模型在实际应用中表现不佳,存在巨大的差距,表明有必要开发能够在真实场景中有效执行LLIE的鲁棒方法。因此,LLIE方法的全部潜力尚未完全被挖掘,仍需进一步研究。此外,这些基于学习的方法在实际场景中准确执行任务时严重依赖高质量的标注数据进行训练。

在文献中,不同的数据集提供了各种低光照条件下的不同场景类型。尽管已有多个LLIE数据集,但缺乏针对城市街景图像场景类型的数据集,这类数据集可用于训练自动驾驶车辆在城市街道场景下使用的导航和监控摄像头的LLIE模型,而这些场景下准确的目标检测、识别和导航对于安全至关重要。

3.Method

3.1 我们的数据集:LoLI-Street

我们介绍了基准数据集“LoLI-Street”(低光照街道图像),包含三个子集:训练集、验证集和测试集。训练集和验证集分别包含3万和3千对低光和高光图像,而真实低光测试集(RLLT)包含1千张在真实世界低光条件下拍摄的图像,总计3.3万张图像。我们从多个城市的低光条件下收集了高分辨率视频(4K/8K,60fps),提取并手动审查帧图像,确保LoLI-Street的RLLT部分图像高质量且不含运动模糊。如表1b所示,LoLI-Street涵盖了三种低光强度水平,导致不同的定量指标。图2a展示了样本图像,图2b展示了各子集的平均像素分布。我们使用Photoshop v25.0生成了数据集的合成图像,并检查了图像的分布。从图2b中可以看出,我们的数据集在各子集中的分布各不相同,这对于LLIE模型的泛化至关重要。

图片

图片

3.2 我们提出的方法

我们提出的TriFuse模型集成了定制的视觉transformer、基于小波的条件扩散去噪模块和边缘锐化模块,具体如下:

图片

离散小波变换(DWT). 我们使用DWT将给定的低光图像 Ilow ∈ RH×W×C 分解为各种低频和高频分量。2D-DWT与Haar小波一起,将图像分解为四个子带:

图片

和 

图片

,如图3所示。其数学公式如公式(1)所示:

图片

其中,

图片

是近似系数,表示低频信息,而 

图片

图片

 和 

图片

是表示垂直、水平和对角线高频信息的系数。通过将扩散过程集中于这些分量,特别是平均系数,TriFuse增强了模型处理全局图像结构的能力。

TriFuse.TriFuse 集成了transformer、CNN、编码器和解码器模块,涉及通过扩散过程在每个时间步预测噪声,形成条件噪声生成的核心来进行扩散去噪。该方法利用transformer的能力,在去噪扩散概率模型(DDPM的去噪每个时间步准确预测和调整噪声,最终提高了低光照图像增强(LLIE)的效果。

在公式(2)中,前向扩散过程将输入图像 x0在 T 步内逐步扰动成噪声版本 xT,由方差调度 {β1, β2, … , βT} 控制:

图片

其中,Xt是时间步 t 的噪声数据,βt是方差调度。

反向扩散过程如公式(3)所示,涉及通过一系列高斯去噪转变学习将噪声图像 xT 恢复为干净图像 x0:

图片

这里,μθ 是预测的均值,σt 是学习到的方差。

用于扩散去噪的条件噪声模块(CNM).CNM 设计用于在每个时间步 t 预测噪声 ϵt,采用基于transformer的架构以捕捉噪声和图像细节中的复杂模式。与传统的依赖随机高斯噪声的扩散模型不同,我们的模型使用自注意力机制来捕捉长距离依赖关系和上下文信息。通过将噪声与输入图像和时间步进行条件化,我们的CNM显著提升了去噪过程。

CNM 架构首先通过卷积层将输入图像编码到高维空间中,提取特征。这些编码后的特征被展平并通过一系列transformer块处理,自注意力机制使模型能够评估图像不同部分的重要性,有效预测要添加或移除的噪声。特征通过自注意力和前馈层转换后,输出被重塑为原始特征图尺寸,并通过解码器重建预测的噪声图,引导扩散过程。

CNM(条件噪声模块) 能够建模复杂的依赖关系并整合上下文信息,特别是在低光照条件下显著提升了图像恢复效果。通过准确预测和控制每个扩散步骤的噪声,CNM确保了有效且精确的去噪过程,保留了精细细节并保持了上下文感知。这一整合通过保留精细细节、上下文感知以及提供自适应去噪,进一步提升了图像质量。其噪声预测的数学表达式为:

图片

.将定制的CNM与公式(3)中的过程结合后,结果可以表示为公式(4):

图片

其中,和是预定义的噪声调度,η 表示高斯噪声。总体来说,这种新颖的方法通过准确预测和控制每个扩散步骤中的噪声,确保了去噪过程的有效性和精确性。CNM的整合增强了图像质量,通过保证噪声预测与图像内容和时间步的条件化,进而在低光照条件下实现了图像细节的卓越恢复。

边缘锐化模块(ESM).ESM在增强恢复图像中的边缘锐度和清晰度方面起着关键作用。它专注于从DWT中获得的高频分量,确保在恢复过程中精细细节和纹理得到很好保留。

ESM由多个复杂的组件组成,这些组件旨在高效处理高频信息。深度卷积 能够有效捕捉通道级的空间信息,确保模型能够专注于复杂细节而不增加计算复杂度。扩张残差块(ϕ) 在捕获多尺度特征的同时保留了输入的空间分辨率,如公式(5)所示。使用扩张卷积使网络具有更大的感受野,这对于在多个尺度上捕获上下文信息而不丢失精细细节至关重要。

图片

其中,X表示进入扩张残差块的输入特征图,Y是通过该块处理后的输出特征图。Conv、ReLU和BN分别表示卷积、修正线性单元和批量归一化。交叉注意力机制 用于跨不同方向(垂直、水平和对角线)对齐和整合上下文信息。交叉注意力机制定义如公式(6):

图片

其中,Q = Conv(X)、K = Conv(X)、V = Conv(X) 是查询、键和值矩阵,是键向量的维度。ESM处理高频分量的过程如公式(7):

图片

其中,

图片

是高频分量,而 

图片

分别是对应的扩张残差块。通过整合这些组件,ESM增强了边缘的锐度,并保留了恢复图像中的精细细节,解决了LLIE中的一个关键挑战。

总体而言,我们提出的TriFuse模型 通过在扩散去噪过程中结合ESM和CNM模块,生成高质量、清晰的图像,使其成为一种高效的LLIE解决方案,适用于各种现实世界的应用。

4.Experiment

定量分析
我们对LoLI-Street及现有数据集上的SOTA模型进行了定量分析。表2展示了这些模型在不同光照条件下使用预训练权重对验证集进行全参考指标的性能表现。LLFormer在所有子集中表现稳健,尤其是在密集场景的验证集中取得了最高的PSNR值(28.67)。表3评估了SOTA模型在LoLI-Street验证集上使用LoLI-Street训练权重的表现,展示了显著的性能提升和模型的泛化能力。我们提出的TriFuse在各种指标上获得了最高分,证明了其在低光照图像增强(LLIE)任务中的鲁棒性和有效性。

图片

图片

表4展示了SOTA模型在LoLI-Street真实低光测试集上的表现,使用了每个模型的预训练权重和训练权重。评估指标包括BRISQUE和NIQE。我们提出的TriFuse模型凭借最低的BRISQUE和NIQE得分脱颖而出,表明其增强图像在视觉质量和自然性方面优于现有模型。

图片

表5提供了SOTA模型与我们提出的TriFuse在现有数据集(LOLv1、LOLv2(真实)、LOLv2(合成)、LSRW、SICE、ExDark和LLVIP)上的性能对比。结果表明,我们的模型在多个数据集上始终达到了最佳或次佳性能,这进一步验证了模型的有效性,并强调了其从训练数据集中良好泛化的能力。

图片

表6总结了计算复杂性,证明了我们的模型在效率和性能之间的平衡,具有竞争力的FLOPS和推理时间指标。总体来说,定量分析表明我们提出的TriFuse模型在各类指标和数据集上始终优于现有SOTA模型,证明了其在LLIE任务中的有效性和鲁棒性。

图片

此外,表7展示了在验证集上的目标检测结果,TriFuse在mAP(0.5)和mAP(0.5-0.9)值上取得了最高分,mAP(0.5)表示交并比(IoU)阈值为0.5,mAP(0.5-0.9)则表示多个IoU阈值的平均mAP。

图片

定性分析
除了定量分析之外,我们还对不同模型在各种数据集上生成的增强图像进行了定性评估。图4展示了LoLI-Street数据集合成验证集和真实低光测试集中的增强图像,表明我们的模型在阴影和低光区域始终提供更清晰和更详细的视觉增强效果。

图片

图5展示了LOLv1、LOLv2(真实和合成)、LSRW和SICE验证集中的增强图像,我们的模型在色彩保真度和图像细节增强方面表现出色,尤其是在局部放大视图中,揭示了良好保留的纹理细节和减少的伪影。总体来看,比较结果突出显示了TriFuse的鲁棒性和在多数据集上增强低光图像的卓越表现。

图片

图6展示了在LoLI-Street测试集中随机选择的一张图像经过不同模型增强后进行YOLOv10推理的结果。我们的模型不仅提高了视觉质量,还提升了目标检测准确率,检测到了额外的物体(如交通信号灯和汽车),并且推理时间较其他方法更快。这一定性分析表明,我们的模型在增强低光图像时具有很高的有效性,在现实世界条件下显著提升了视觉质量和目标检测性能。

图片

消融实验
我们进行了一系列消融实验,采用了各种组件组合,如表8所示。对于小波变换尺度,我们比较了默认设置k(1)与k(2)和k(3)的效果。结果表明,ESM+ CNM+ k(1)+ S(5)配置在RLLT数据集上分别获得了10.32和10.61的BRISQUE和NIQE得分,表明其视觉质量优于其他设置。在评估ESM和CNM的重要性时,比较不包含这些组件的配置(w/o-ESM和w/o-CNM)凸显了默认TriFuse设置的优越性能。对于不同的采样步骤(S(5)、S(10)、S(15)),增加到S(15)提高了性能,在验证集上达到了33.37的最高PSNR和0.9470的SSIM。

图片

结论

为了解决这些问题,本文的贡献如下:

  1. 本文引入了一个独特且具挑战性的数据集,名为LoLI-Street,包含30,000个训练图像、3,000个验证图像和1,000个真实低光测试(RLLT)图像,这些图像主要为街景类型,是现有数据集中较为罕见的类型,并且涵盖了三种强度等级(强、中、轻)的低光效应。

  2. 本文提出了“TriFuse”模型,通过使用transformer作为精确的噪声预测器,减少了扩散过程中采样步骤的数量。

  3. 在LoLI-Street真实低光测试集和主流数据集上,本文将提出的TriFuse方法与现有SOTA LLIE模型进行了基准测试,结果表明,TriFuse在LLIE和目标检测方面表现出色。

文章引用:LoLI-Street: Benchmarking Low-Light Image Enhancement and Beyond

最后别忘了,帮忙点“在看”。  

您的点赞,在看,是我创作的动力。

AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。

长按扫描下面二维码,加入知识星球。

相关文章:

最新夜间数据集发布LoLI-Street: 33000帧数据,涵盖19000个目标

最新夜间数据集发布LoLI-Street: 33000帧数据,涵盖19000个目标 Abstract 低光照图像增强(LLIE)对于许多计算机视觉任务至关重要,包括目标检测、跟踪、分割和场景理解。尽管已有大量研究致力于提高在低光照条件下捕捉的低质量图像…...

反向传播算法与随机搜索算法的比较

反向传播算法与随机搜索算法的比较 在这篇文章中,我们将通过一个简单的线性回归问题来比较反向传播算法和随机搜索算法的性能。我们将使用Python代码来实现这两种算法,并可视化它们的梯度下降过程。 反向传播算法 反向传播算法是深度学习和神经网络训…...

【PDF文件】默认被某种软件打开,如何进行修改?

当有时下载某种软件后,电脑中的PDF文件就默认由该种软件打开,每次需要右键选择打开方式才能选择需要的其他软件打开。如下图所示。 修改方法: (1)点击电脑的“设置”,选择应用 (2)…...

Kaggle Python练习:字符串和字典(Exercise: Strings and Dictionaries)

文章目录 问题:搜索特定单词并定位思路代码实现官方代码代码解析 更进一步 问题:搜索特定单词并定位 一位研究人员收集了数千篇新闻文章。但她想将注意力集中在包含特定单词的文章上。完成以下功能以帮助她过滤文章列表。 您的函数应满足以下条件&…...

React(四) 事件总线,setState的原理,PureComponent优化React性能,ref获取类组件与函数组件

文章目录 一、全局事件总线二、setState的原理1. 为什么要使用setState修改数据2. setState的三种用法(1) 基本使用(2) 传入回调函数(3) setState是一个异步调用 3. setState为什么要设置成异步 二、PureComponent优化性能1. React的diff算法以及Key的优化(扩展)(1) diff算法(2…...

Java学习-JVM

目录 1. 基本常识 1.1 JVM是什么 1.2 JVM架构图 1.3 Java技术体系 1.4 Java与JVM的关系 2. 类加载系统 2.1 类加载器种类 2.2 执行顺序 2.3 类加载四个时机 2.4 生命周期 2.5 类加载途径 2.6 双亲委派模型 3. 运行时数据区 3.1 运行时数据区构成 3.2 堆 3.3 栈…...

leed认证分几个级别

LEED(Leadership in Energy and Environmental Design)认证是一个评估建筑项目可持续性的严格框架,其级别主要分为以下四个: LEED认证(Certified):这是最低级别的认证,要求建筑项目…...

3.C++经典实例-计算一个数的阶乘

阶乘(factorial)是‌基斯顿卡曼于1808年发明的运算符号,用于表示一个正整数n的所有小于及等于该数的正整数的积。自然数n的阶乘写作n!。例如,5的阶乘表示为5! 1 2 3 4 5 120。 阶乘在数学和计算机科学中有广泛的应用。例如…...

深入理解Qt中的QTableView、Model与Delegate机制

文章目录 显示效果QTableViewModel(模型)Delegate(委托)ITEM控件主函数调用项目下载在Qt中,视图(View)、模型(Model)和委托(Delegate)机制是一种非常强大的架构,它们实现了MVC(模型-视图-控制器)设计模式。这种架构分离了数据存储(模型)、数据展示(视图)和数据操作(委托),使…...

解读《ARM Cortex-M3 与Cortex-M4 权威指南》——第1章 ARM Cortex-M处理器简介

1. 三级流水线设计 解释:三级流水线设计意味着处理器在执行指令时可以同时处理多个步骤。这些步骤通常包括取指(Fetch)、译码(Decode)和执行(Execute)。好处:这种设计提高了指令的执行效率,使得处理器能够在每个时钟周期内完成更多的工作,从而提升整体性能。2. 哈佛总…...

java集合类的框架体系

1.集合的好处 相比数组,他可以存储多种类型的元素,并且可以动态新增; 2. 集合分类 3.Collection接口 3.1常用方法 3.2迭代器-遍历 collection接口继承了Interable接口,collection的子类可以使用迭代器; 注意事项…...

基于SpringBoot+Vue+Uniapp家具购物小程序的设计与实现

详细视频演示 请联系我获取更详细的演示视频 项目运行截图 技术框架 后端采用SpringBoot框架 Spring Boot 是一个用于快速开发基于 Spring 框架的应用程序的开源框架。它采用约定大于配置的理念,提供了一套默认的配置,让开发者可以更专注于业务逻辑而…...

什么是模糊测试?

近年来,随着信息技术的发展,各种新型自动化测试技术如雨后春笋般出现。其中,模糊测试(fuzz testing)技术开始受到行业关注,它尤其适用于发现未知的、隐蔽性较强的底层缺陷。这里,我们将结合AFL开…...

3.C++经典实例-奇数还是偶数

要判断一个数是奇数还是偶数,只需要判断这个数是否能被2整除即可,如果要判断是否能整除,则要判断当前数除以2的余数是否为0,在C中,余数,使用%号,因此,程序为: #include …...

真牛啊!全球人工智能标准教科书,斯坦福、麻省理工、加州大学等十多所顶尖机构为它点赞!!

这本《人工智能:计算代理基础》堪称全球人工智能标准教科书!它因其前沿的技术融合、丰富的实践案例以及理论深度与实践并重的特点而成为人工智能领域的热门书籍。 该书已经赢得了斯坦福大学、佐治亚理工学院、谷歌大脑、麻省理工学院、加州大学、微软研究…...

Android——通过MediaStore查询图片

查询图片: private void loadImageList() {String[] columns new String[]{MediaStore.Images.Media._ID, // 编号MediaStore.Images.Media.TITLE, // 标题MediaStore.Images.Media.SIZE, // 文件大小MediaStore.Images.Media.DATA, // 文件路径};Cursor cursor g…...

手写Spring IOC-简易版

目录 项目结构entitydaoIUserDaoUserDaoImpl serviceIUserServiceUserServiceImpl ApplicationContext 配置文件初始化 IOC 容器RunApplication 注解初始化 IOC 容器BeanAutowired Reference 项目结构 entity User Data NoArgsConstructor AllArgsConstructor Accessors(chai…...

【算法题】62. 不同路径(LeetCode)

【算法题】62. 不同路径(LeetCode) 1.题目 下方是力扣官方题目的地址 62. 不同路径 一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为 “Start” )。 机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角(在下图…...

【VUE】Vue中的data属性为什么是一个函数而不是一个对象

在 Vue.js 中,组件的 data 属性可以是一个对象或者一个函数但通常建议将其设置为函数。这是因为组件可能会被多次使用,如果 data 是一个普通对象,那么该对象会被所有实例共享,导致数据混乱。将 data 设置为一个函数可以保证每个组…...

ddos攻击介绍和排查方法

一、DDoS攻击介绍 DDoS攻击,全称为分布式拒绝服务攻击(Distributed Denial of Service Attack),是一种常见的网络攻击手段。它通过利用多个计算机系统向目标服务器、服务或网络发送大量请求,导致目标无法处理正常流量…...

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目:3442. 奇偶频次间的最大差值 I 思路 :哈希,时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况,哈希表这里用数组即可实现。 C版本: class Solution { public:int maxDifference(string s) {int a[26]…...

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑:陈萍萍的公主一点人工一点智能 未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战,在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…...

ubuntu搭建nfs服务centos挂载访问

在Ubuntu上设置NFS服务器 在Ubuntu上,你可以使用apt包管理器来安装NFS服务器。打开终端并运行: sudo apt update sudo apt install nfs-kernel-server创建共享目录 创建一个目录用于共享,例如/shared: sudo mkdir /shared sud…...

React hook之useRef

React useRef 详解 useRef 是 React 提供的一个 Hook,用于在函数组件中创建可变的引用对象。它在 React 开发中有多种重要用途,下面我将全面详细地介绍它的特性和用法。 基本概念 1. 创建 ref const refContainer useRef(initialValue);initialValu…...

《Playwright:微软的自动化测试工具详解》

Playwright 简介:声明内容来自网络,将内容拼接整理出来的文档 Playwright 是微软开发的自动化测试工具,支持 Chrome、Firefox、Safari 等主流浏览器,提供多语言 API(Python、JavaScript、Java、.NET)。它的特点包括&a…...

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility 1. 实验室环境1.1 实验室环境1.2 小测试 2. The Endor System2.1 部署应用2.2 检查现有策略 3. Cilium 策略实体3.1 创建 allow-all 网络策略3.2 在 Hubble CLI 中验证网络策略源3.3 …...

在 Nginx Stream 层“改写”MQTT ngx_stream_mqtt_filter_module

1、为什么要修改 CONNECT 报文? 多租户隔离:自动为接入设备追加租户前缀,后端按 ClientID 拆分队列。零代码鉴权:将入站用户名替换为 OAuth Access-Token,后端 Broker 统一校验。灰度发布:根据 IP/地理位写…...

基于当前项目通过npm包形式暴露公共组件

1.package.sjon文件配置 其中xh-flowable就是暴露出去的npm包名 2.创建tpyes文件夹,并新增内容 3.创建package文件夹...

基于Docker Compose部署Java微服务项目

一. 创建根项目 根项目&#xff08;父项目&#xff09;主要用于依赖管理 一些需要注意的点&#xff1a; 打包方式需要为 pom<modules>里需要注册子模块不要引入maven的打包插件&#xff0c;否则打包时会出问题 <?xml version"1.0" encoding"UTF-8…...

【Web 进阶篇】优雅的接口设计:统一响应、全局异常处理与参数校验

系列回顾&#xff1a; 在上一篇中&#xff0c;我们成功地为应用集成了数据库&#xff0c;并使用 Spring Data JPA 实现了基本的 CRUD API。我们的应用现在能“记忆”数据了&#xff01;但是&#xff0c;如果你仔细审视那些 API&#xff0c;会发现它们还很“粗糙”&#xff1a;有…...