当前位置：首页 > news >正文

最新夜间数据集发布LoLI-Street: 33000帧数据，涵盖19000个目标

news 2025/12/28 21:44:11

最新夜间数据集发布LoLI-Street: 33000帧数据，涵盖19000个目标

Abstract

低光照图像增强（LLIE）对于许多计算机视觉任务至关重要，包括目标检测、跟踪、分割和场景理解。尽管已有大量研究致力于提高在低光照条件下捕捉的低质量图像，但在自动驾驶车辆中，清晰的视觉仍然至关重要，尤其是在低光场景中，这表明这一领域需要持续研究。然而，用于LLIE的成对数据集十分稀缺，尤其是在街景领域，这限制了鲁棒LLIE方法的发展。尽管当前的LLIE方法使用了先进的transformer和/或基于扩散的模型，但它们在真实世界的低光条件下表现不佳，并且缺乏针对街景数据集的训练，降低了它们在自动驾驶中的有效性。

为了解决这些问题，我们引入了一个新的数据集“LoLI-Street”（Low-Light Images of Streets），该数据集包含来自发达城市街景的33,000对低光与良好曝光图像，涵盖19,000个目标类别用于目标检测。LoLI-Street数据集还包含1,000张真实低光测试图像，用于在现实条件下测试LLIE模型。此外，我们提出了一种基于transformer和扩散的LLIE模型，命名为“TriFuse”。利用LoLI-Street数据集，我们训练并评估了TriFuse和现有的SOTA（state-of-the-art）模型，基于我们的数据集进行基准测试。通过对比不同的模型，我们的数据集在主流数据集上的测试中展示了良好的泛化能力，显著增强了图像质量和目标检测的效果，为自动驾驶和监控系统的实际应用提供了支持。

完整代码和数据集获取：https://github.com/tanvirnwu/TriFuse。

欢迎加入自动驾驶实战群

Introduction

低光照环境为日常生活中的各种计算机视觉任务带来了重大挑战。大多数计算机视觉任务的模型通常在白天光照充足时收集的数据集上进行训练，因此在黑暗或低光环境下效果不佳。这一局限性带来了显著的挑战，因为现有数据集未能考虑到现实世界中低光照条件下的变化和复杂性。因此，随着白天逐渐过渡到夜晚，能见度的降低会影响计算机视觉系统执行甚至最基本任务的能力。这不仅仅是便利性的问题，更是关乎安全和效率。

为应对这些实际挑战，计算机视觉技术的进步至关重要。这类系统可以在低光条件下提供显著帮助，增强自动驾驶车辆的视觉能力，并提高安全保障措施。通过减轻低光照条件的影响，计算机视觉技术展现了其在广泛应用中的潜力。例如，最近图像处理和机器学习的进展已催生了复杂的算法，可以在接近黑暗的环境中增强图像清晰度、检测和识别目标。此外，随着深度学习、transformer和扩散方法的兴起，其特征表示能力迅速推动了低光照图像增强（LLIE）的采用。研究人员还通过利用合成数据集探索最新的基于transformer和扩散的LLIE方法，并报告了LLIE的显著改进。然而，这些模型在实际应用中表现不佳，存在巨大的差距，表明有必要开发能够在真实场景中有效执行LLIE的鲁棒方法。因此，LLIE方法的全部潜力尚未完全被挖掘，仍需进一步研究。此外，这些基于学习的方法在实际场景中准确执行任务时严重依赖高质量的标注数据进行训练。

在文献中，不同的数据集提供了各种低光照条件下的不同场景类型。尽管已有多个LLIE数据集，但缺乏针对城市街景图像场景类型的数据集，这类数据集可用于训练自动驾驶车辆在城市街道场景下使用的导航和监控摄像头的LLIE模型，而这些场景下准确的目标检测、识别和导航对于安全至关重要。

3.Method

3.1 我们的数据集：LoLI-Street

我们介绍了基准数据集“LoLI-Street”（低光照街道图像），包含三个子集：训练集、验证集和测试集。训练集和验证集分别包含3万和3千对低光和高光图像，而真实低光测试集（RLLT）包含1千张在真实世界低光条件下拍摄的图像，总计3.3万张图像。我们从多个城市的低光条件下收集了高分辨率视频（4K/8K，60fps），提取并手动审查帧图像，确保LoLI-Street的RLLT部分图像高质量且不含运动模糊。如表1b所示，LoLI-Street涵盖了三种低光强度水平，导致不同的定量指标。图2a展示了样本图像，图2b展示了各子集的平均像素分布。我们使用Photoshop v25.0生成了数据集的合成图像，并检查了图像的分布。从图2b中可以看出，我们的数据集在各子集中的分布各不相同，这对于LLIE模型的泛化至关重要。

3.2 我们提出的方法

我们提出的TriFuse模型集成了定制的视觉transformer、基于小波的条件扩散去噪模块和边缘锐化模块，具体如下：

离散小波变换（DWT）. 我们使用DWT将给定的低光图像 Ilow ∈ RH×W×C 分解为各种低频和高频分量。2D-DWT与Haar小波一起，将图像分解为四个子带：

和

，如图3所示。其数学公式如公式（1）所示：

其中，

是近似系数，表示低频信息，而

、

和

是表示垂直、水平和对角线高频信息的系数。通过将扩散过程集中于这些分量，特别是平均系数，TriFuse增强了模型处理全局图像结构的能力。

TriFuse.TriFuse 集成了transformer、CNN、编码器和解码器模块，涉及通过扩散过程在每个时间步预测噪声，形成条件噪声生成的核心来进行扩散去噪。该方法利用transformer的能力，在去噪扩散概率模型（DDPM的去噪每个时间步准确预测和调整噪声，最终提高了低光照图像增强（LLIE）的效果。

在公式（2）中，前向扩散过程将输入图像 x0在 T 步内逐步扰动成噪声版本 xT，由方差调度 {β1, β2, … , βT} 控制：

其中，Xt是时间步 t 的噪声数据，βt是方差调度。

反向扩散过程如公式（3）所示，涉及通过一系列高斯去噪转变学习将噪声图像 xT 恢复为干净图像 x0：

这里，μθ 是预测的均值，σt 是学习到的方差。

用于扩散去噪的条件噪声模块（CNM）.CNM 设计用于在每个时间步 t 预测噪声 ϵt，采用基于transformer的架构以捕捉噪声和图像细节中的复杂模式。与传统的依赖随机高斯噪声的扩散模型不同，我们的模型使用自注意力机制来捕捉长距离依赖关系和上下文信息。通过将噪声与输入图像和时间步进行条件化，我们的CNM显著提升了去噪过程。

CNM 架构首先通过卷积层将输入图像编码到高维空间中，提取特征。这些编码后的特征被展平并通过一系列transformer块处理，自注意力机制使模型能够评估图像不同部分的重要性，有效预测要添加或移除的噪声。特征通过自注意力和前馈层转换后，输出被重塑为原始特征图尺寸，并通过解码器重建预测的噪声图，引导扩散过程。

CNM（条件噪声模块）能够建模复杂的依赖关系并整合上下文信息，特别是在低光照条件下显著提升了图像恢复效果。通过准确预测和控制每个扩散步骤的噪声，CNM确保了有效且精确的去噪过程，保留了精细细节并保持了上下文感知。这一整合通过保留精细细节、上下文感知以及提供自适应去噪，进一步提升了图像质量。其噪声预测的数学表达式为：

.将定制的CNM与公式（3）中的过程结合后，结果可以表示为公式（4）：

其中,和是预定义的噪声调度，η 表示高斯噪声。总体来说，这种新颖的方法通过准确预测和控制每个扩散步骤中的噪声，确保了去噪过程的有效性和精确性。CNM的整合增强了图像质量，通过保证噪声预测与图像内容和时间步的条件化，进而在低光照条件下实现了图像细节的卓越恢复。

边缘锐化模块（ESM）.ESM在增强恢复图像中的边缘锐度和清晰度方面起着关键作用。它专注于从DWT中获得的高频分量，确保在恢复过程中精细细节和纹理得到很好保留。

ESM由多个复杂的组件组成，这些组件旨在高效处理高频信息。深度卷积能够有效捕捉通道级的空间信息，确保模型能够专注于复杂细节而不增加计算复杂度。扩张残差块（ϕ）在捕获多尺度特征的同时保留了输入的空间分辨率，如公式（5）所示。使用扩张卷积使网络具有更大的感受野，这对于在多个尺度上捕获上下文信息而不丢失精细细节至关重要。

其中，X表示进入扩张残差块的输入特征图，Y是通过该块处理后的输出特征图。Conv、ReLU和BN分别表示卷积、修正线性单元和批量归一化。交叉注意力机制用于跨不同方向（垂直、水平和对角线）对齐和整合上下文信息。交叉注意力机制定义如公式（6）：

其中，Q = Conv(X)、K = Conv(X)、V = Conv(X) 是查询、键和值矩阵，是键向量的维度。ESM处理高频分量的过程如公式（7）：

其中，

是高频分量，而

分别是对应的扩张残差块。通过整合这些组件，ESM增强了边缘的锐度，并保留了恢复图像中的精细细节，解决了LLIE中的一个关键挑战。

总体而言，我们提出的TriFuse模型通过在扩散去噪过程中结合ESM和CNM模块，生成高质量、清晰的图像，使其成为一种高效的LLIE解决方案，适用于各种现实世界的应用。

4.Experiment

定量分析
我们对LoLI-Street及现有数据集上的SOTA模型进行了定量分析。表2展示了这些模型在不同光照条件下使用预训练权重对验证集进行全参考指标的性能表现。LLFormer在所有子集中表现稳健，尤其是在密集场景的验证集中取得了最高的PSNR值（28.67）。表3评估了SOTA模型在LoLI-Street验证集上使用LoLI-Street训练权重的表现，展示了显著的性能提升和模型的泛化能力。我们提出的TriFuse在各种指标上获得了最高分，证明了其在低光照图像增强（LLIE）任务中的鲁棒性和有效性。

表4展示了SOTA模型在LoLI-Street真实低光测试集上的表现，使用了每个模型的预训练权重和训练权重。评估指标包括BRISQUE和NIQE。我们提出的TriFuse模型凭借最低的BRISQUE和NIQE得分脱颖而出，表明其增强图像在视觉质量和自然性方面优于现有模型。

表5提供了SOTA模型与我们提出的TriFuse在现有数据集（LOLv1、LOLv2（真实）、LOLv2（合成）、LSRW、SICE、ExDark和LLVIP）上的性能对比。结果表明，我们的模型在多个数据集上始终达到了最佳或次佳性能，这进一步验证了模型的有效性，并强调了其从训练数据集中良好泛化的能力。

表6总结了计算复杂性，证明了我们的模型在效率和性能之间的平衡，具有竞争力的FLOPS和推理时间指标。总体来说，定量分析表明我们提出的TriFuse模型在各类指标和数据集上始终优于现有SOTA模型，证明了其在LLIE任务中的有效性和鲁棒性。

此外，表7展示了在验证集上的目标检测结果，TriFuse在mAP(0.5)和mAP(0.5-0.9)值上取得了最高分，mAP(0.5)表示交并比（IoU）阈值为0.5，mAP(0.5-0.9)则表示多个IoU阈值的平均mAP。

定性分析
除了定量分析之外，我们还对不同模型在各种数据集上生成的增强图像进行了定性评估。图4展示了LoLI-Street数据集合成验证集和真实低光测试集中的增强图像，表明我们的模型在阴影和低光区域始终提供更清晰和更详细的视觉增强效果。

图5展示了LOLv1、LOLv2（真实和合成）、LSRW和SICE验证集中的增强图像，我们的模型在色彩保真度和图像细节增强方面表现出色，尤其是在局部放大视图中，揭示了良好保留的纹理细节和减少的伪影。总体来看，比较结果突出显示了TriFuse的鲁棒性和在多数据集上增强低光图像的卓越表现。

图6展示了在LoLI-Street测试集中随机选择的一张图像经过不同模型增强后进行YOLOv10推理的结果。我们的模型不仅提高了视觉质量，还提升了目标检测准确率，检测到了额外的物体（如交通信号灯和汽车），并且推理时间较其他方法更快。这一定性分析表明，我们的模型在增强低光图像时具有很高的有效性，在现实世界条件下显著提升了视觉质量和目标检测性能。

消融实验
我们进行了一系列消融实验，采用了各种组件组合，如表8所示。对于小波变换尺度，我们比较了默认设置k(1)与k(2)和k(3)的效果。结果表明，ESM+ CNM+ k(1)+ S(5)配置在RLLT数据集上分别获得了10.32和10.61的BRISQUE和NIQE得分，表明其视觉质量优于其他设置。在评估ESM和CNM的重要性时，比较不包含这些组件的配置（w/o-ESM和w/o-CNM）凸显了默认TriFuse设置的优越性能。对于不同的采样步骤（S(5)、S(10)、S(15)），增加到S(15)提高了性能，在验证集上达到了33.37的最高PSNR和0.9470的SSIM。

结论

为了解决这些问题，本文的贡献如下：

本文引入了一个独特且具挑战性的数据集，名为LoLI-Street，包含30,000个训练图像、3,000个验证图像和1,000个真实低光测试（RLLT）图像，这些图像主要为街景类型，是现有数据集中较为罕见的类型，并且涵盖了三种强度等级（强、中、轻）的低光效应。
本文提出了“TriFuse”模型，通过使用transformer作为精确的噪声预测器，减少了扩散过程中采样步骤的数量。
在LoLI-Street真实低光测试集和主流数据集上，本文将提出的TriFuse方法与现有SOTA LLIE模型进行了基准测试，结果表明，TriFuse在LLIE和目标检测方面表现出色。

文章引用：LoLI-Street: Benchmarking Low-Light Image Enhancement and Beyond

最后别忘了，帮忙点“在看”。

您的点赞，在看，是我创作的动力。

AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。

长按扫描下面二维码，加入知识星球。

最新夜间数据集发布LoLI-Street: 33000帧数据，涵盖19000个目标