当前位置：首页 > news >正文

【图像压缩感知】论文阅读：Self-supervised Scalable Deep Compressed Sensing

news 2025/12/16 6:52:06

tips：本文为个人阅读论文的笔记，仅作为学习记录所用。

Title：Self-supervised Scalable Deep Compressed Sensing

Journal：IJCV 2024

代码链接：GitHub - Guaishou74851/SCNet: Self-Supervised Scalable Deep Compressed Sensing (IJCV 2024) [PyTorch]Self-Supervised Scalable Deep Compressed Sensing (IJCV 2024) [PyTorch] - Guaishou74851/SCNethttps://github.com/Guaishou74851/SCNet

论文地址： Self-supervised Scalable Deep Compressed Sensing | International Journal of Computer VisionCompressed sensing (CS) is a promising tool for reducing sampling costs. Current deep neural network (NN)-based CS approaches face the challenges of collechttps://link.springer.com/article/10.1007/s11263-024-02209-1

问题动机：

压缩感知（CS）是一种很有前途的降低采样成本的工具。当前基于深度神经网络（NN）的CS方法面临着收集标记测量 Ground Truth 数据并将其推广到实际应用中的挑战，特别是CS在医学成像领域的应用，如MRI成像等，这些领域的 Ground Truth 数据的获取更为困难。

解决方法：

提出了一种新的自监督可扩展深度CS方法，该方法包括一个名为SCL的深度学习方案和一个名为SCNet的网络家族，该方法不需要 Ground Truth 数据，并且一旦在部分测量集上训练就可以处理任意采样比率和矩阵。SCL包含双域损失和四阶段恢复策略。前者鼓励两个测量部分的交叉一致性和对任意比率和矩阵的采样-重构周期一致性，以最大限度地利用数据。后者可以逐步利用外部测量中的公共信号和测试样本的内部特性以及学习的神经网络来提高精度。SCNet结合了优化算法的显式指导和高级神经网络块的隐式正则化来学习协作信号表示。

主要贡献：

1、基于双域损失函数和四阶段深度递进重建策略，提出了一种新的自监督可扩展CS学习方案SCL

2、一种被称为 SCNet 的新 NN 家族，它结合了传统近端梯度下降 (PGD) 算法的显式指导和来自高级 NN 组件的隐式正则化。

3、在一维、二维和三维信号的模拟和真实数据上进行的大量实验表明，我们的方法在提高恢复质量和泛化能力方面具有显著的优势和有效性

整体架构：

自监督可扩展重构学习（SCL）

双域损失函数（Dual-Domain Loss Function）

DMC（Division-based Measurement-domain Consistency loss）

面对传统CS方法的损失函数存在的问题：（1）噪声的存在；（2）解决方法模糊，输出不稳定

为了缓解这些问题，并使NN适应采样矩阵和采样率的变化，设计了DMC loss，其使用y中的测量元素的组合来构建数千个互补的矩阵和比例对的新任务，以增强数据多样性。其中隐含的假设是训练集是足够大的，可以划分出足够的任务组合。

其中存在两个约束：

如此设计的神经网络损失函数是免于噪声影响的，这是在N2N和S2S（2020，CVPR）的先验基础上的发展。

DMC的定义如下，本文的p范数设置为1范数：

DOC（matrixnetwork Disentanglement-based Original-domain Consistency loss）

为了让训练后的NN可以突破内部数据的限制，达到真正的泛化，如采样率（0 - 1），推广到整个矩阵空间。对原始图像进行几何变换，并添加随机生成的噪声、矩阵、采样率。

DOC约束：

DOC定义：

四阶段渐进恢复策略（Four-Stage Progressive Reconstruction Strategy）

核心：从粗到细（coarse-to-fine）

stage-1 —— 使用外部数据集离线学习，获得一个通用的模型。

stage-2 —— 使用测试数据集学习，获得一个使用于当前数据集的模型。

stage-3 —— 使用单个图片进行学习，模型精确到单张图片。

stage-4 —— 对单张图片进行self-ensemble，使用蒙特卡洛来近似估计。

在实践中，可以根据具体需求灵活地实现对策略的几种定制，例如对于最佳恢复质量，表示为（1→2→3→4）的完全激活策略，对于训练资源受限的设备，表示为（1→4），对于无数据集的部署，表示为（3→4）。在每个配置的第一阶段随机初始化NN参数，并在逐步学习完成后保存到下一阶段。

SCNet（基于协同表示的图像重建网络，Collaborative Representation-Based Reconstruction Network）

基于协同表示的图像重建网络——SCNet，结合了迭代优化算法（PGD）的显式结构设计启发与神经网络模块的隐式正则化约束

PGD展开 --> 提高可解释性

隐式正则化 --> 防止模型过拟合

浅层特征初始化（Shallow Feature Initialization）

使用A的伪逆将测量值y变换到图像域，并域采样率比例图R连接，然后使用卷积层提取浅层特征。

图像嵌入和位置嵌入（IE & PE）

图像嵌入将图像转成向量，方便后续处理，并将每个特定的测量 y 与整个测试集区分开来；

位置嵌入为数据提供位置编码，使其能够感知位置和空间变化。

可学习的嵌入操作，增加优化自由度，防止欠拟合。

IE 和 PE 操作都只在 stage 2-4 中进行，在数据量较少时加入，防止欠拟合。

深度特征细化（Deep Feature Refinement）

将PGD算法展开，从传统的图像级优化扩展到特征级优化，

PGD模块后，使用RB/SCB模块，隐式正则化，防止过拟合。

在转化过程中，PGD算法中的Proximal Mapping部分可以用RB/SCB进行替换，是因为PM和RB/SCB存在一定的数学等价性。

在某些情况下，Proximal Mapping的求解可以转化为一个优化问题，该问题具有与残差块相似的结构。具体来说，Proximal Mapping的目标是找到一个点，使得该点既满足凸函数的约束，又与给定点距离最小。这可以看作是一个最小化问题，其中包含了原始输入和一个与凸函数相关的项。而残差块在某种程度上也执行了一个类似的最小化任务，它试图保持输入信息的同时，最小化网络输出的误差。因此，在某些数学形式上，这两者可能具有等价性。

Proximal Mapping和残差块在功能上都具有“保持输入信息并尝试最小化误差”的特点。Proximal Mapping通过找到与给定点距离最小的凸函数定义域内的点来实现这一点，而残差块则通过跳跃连接来保持输入信息，并通过卷积层来最小化输出误差。这种功能上的相似性使得残差块有可能成为Proximal Mapping的一个有效替代。

最终图像重建（Final Image Reconstruction）

将深化后的特征层通过卷积生成精化图像，最后通过额外的GD（梯度下降）操作获得最终恢复结果，最后一个GD操作目的是去除噪声（2017，TIP）

本文的NN family

实验部分

一维合成稀疏信号和二维MNIST数字图像的CS重构

二维自然图像上的CS重构——PSNR对比

二维自然图像上的CS重构——PSNR和参数数对比、从DIV2K重建效果对比

二维自然图像上的CS重构——可扩展性实验

本文小结

本文提出了一种新的自监督可扩展的神经网络方法，由一个名为SCL的学习方案和一个名为SCNet的深度神经网络家族组成。

SCL通过增强和鼓励随机交叉一致性和任意采样重建周期一致性，采用双域损失来学习可推广的图像、比率和矩阵自适应映射，而不是来自固定部分测量的特定映射。四阶段策略进一步提高了准确性。

SCNet是基于PGD灵感设计的，并通过神经网络机制进行了良好的正则化。SCL和SCNet的结合和相互促进有效地利用了可用的数据和信息，推动深度重建朝着有效的方向发展，甚至可以超越监督神经网络的预测结果。实验证明了该方法在成像质量、灵活性、可扩展性、复杂性和可解释性之间取得了更好的平衡。

读者小结

这篇文章是北大VILLA实验室联合清华团队、哈工大团队最新提出的基于深度网络的CS方法。这篇文章的工作非常饱满，篇幅有30多页，其中实验部分做的扎实，我在上面放的实验部分只是作者在正文部分的内容，在附录中还有很多的实验细节内容，比如具体的消融实验、更多尺度的对比实验等。

这篇文章阅读后给我的启发最大的还是SCL学习策略部分，使用的双域函数以及四阶段渐进重建策略可以将CS扩展到整个矩阵空间，以及从粗到细的重建策略。这样的策略无疑是能达到更好的效果，但问题也是很明显的，就是时间、能耗问题，这方面作者在最后的讨论部分也提出了。对于这个问题，作者提供了神经网络家族（NN family）的方法，可以让用户来根据现实情况来自行选择。