当前位置：首页 > news >正文

《论文阅读：Dataset Condensation with Distribution Matching》

news 2026/2/9 20:56:23

点进去这篇文章的开源地址，才发现这篇文章和DC DSA居然是一个作者，数据浓缩写了三篇论文，第一篇梯度匹配，第二篇数据增强后梯度匹配，第三篇匹配数据分布。DC是匹配浓缩数据和原始数据训练一次后的梯度差，DSA是在DC前加入了一层数据增强，DM直接就匹配浓缩数据和原始数据丢入模型得到的输出，匹配输出的分布。

一个github地址包含了三个数据浓缩方法的开源代码。

1. 基于分布匹配的数据集浓缩

在降低训练成本方面，最近一个很有前途的方向是数据集凝聚，其目的是在保留原始信息的情况下，用一个小得多的学习合成集取代原来的大训练集。
虽然在小集合的压缩图像上训练深度模型可以非常快，但由于复杂的双层优化和二阶导数计算，它们的合成仍然是计算昂贵的（DD，DC，DSA）。
在本工作中，我们提出了一种简单而有效的方法，通过匹配合成图像和原始训练图像在多个采样嵌入空间的特征分布来合成压缩图像。我们的方法显著降低了合成成本，同时实现了相当或更好的性能。

2. 方法

2.1 数据浓缩的问题：

现有的方法包括DD，DC和DSA等，他们的弊端在于时间复杂度太高，内层需要训练模型并更新浓缩数据集，外层还需要适应不同的 $\theta_0$ ，实现起来需要三层循环，时间复杂度高。

2.2 分布匹配的数据浓缩

真实数据分布记为 $P_{\mathcal{D}}$ 。
我们将训练数据记为 $\boldsymbol{x} \in \Re^d$ ，并且可以被编码到一个低维空间，通过函数 $\psi_{\vartheta}: \Re^d \rightarrow \Re^{d^{\prime}}$ ，其中 $d^{\prime} \ll d$ ， $\vartheta$ 是函数的参数数值。换句话说，每个embedding 函数 $\psi$ 可以被视为提供其输入的部分解释，而它们的组合则提供完整的解释。

现在我们可以使用常用的最大平均差异（MMD）来估计真实数据分布和合成数据分布之间的距离：
$\sup _{\left\|\psi_{\vartheta}\right\|_{\mathcal{H}} \leq 1}\left(\mathbb{E}\left[\psi_{\vartheta}(\mathcal{T})\right]-\mathbb{E}\left[\psi_{\vartheta}(\mathcal{S})\right]\right)$

由于我们无法获得真实数据分布，因此我们使用 MMD 的经验估计：
$\mathbb{E}_{\boldsymbol{\vartheta} \sim P_{\vartheta}}\left\|\frac{1}{|\mathcal{T}|} \sum_{i=1}^{|\mathcal{T}|} \psi_{\boldsymbol{\vartheta}}\left(\boldsymbol{x}_i\right)-\frac{1}{|\mathcal{S}|} \sum_{j=1}^{|\mathcal{S}|} \psi_{\boldsymbol{\vartheta}}\left(\boldsymbol{s}_j\right)\right\|^2$

就是在不同参数取值的embedding函数下，输入原始数据和浓缩数据得到的输出要尽可能接近，论文里就直接使用了神经网络的输出，让神经网络的输出尽可能接近。

因为这篇论文是DSA的后续作，所以顺其自然，沿用了DSA的方法，训练的时候对浓缩数据和原始数据都进行了相同的数据增强。
$\min _{\mathcal{S}} \mathbb{E}_{\substack{\boldsymbol{\omega} \sim P_{\boldsymbol{\vartheta}} \\ \omega \sim \Omega}}\left\|\frac{1}{|\mathcal{T}|} \sum_{i=1}^{|\mathcal{T}|} \psi_{\boldsymbol{\vartheta}}\left(\mathcal{A}\left(\boldsymbol{x}_i, \omega\right)\right)-\frac{1}{|\mathcal{S}|} \sum_{j=1}^{|\mathcal{S}|} \psi_{\boldsymbol{\vartheta}}\left(\mathcal{A}\left(\boldsymbol{s}_j, \omega\right)\right)\right\|^2$
$\mathcal{A}$ 就是对应的数据增强操作， $\omega$ 是对应数据增强操作的参数。

2.3 训练步骤

在这里插入图片描述
训练K-1步，每一步都选定一个embedding函数的参数，不断地训练并修改S使得S输出尽可能接近原始数据集T。（这个embedding函数就是一个具体的神经网络）

3. 结果

在这里插入图片描述
由于此方法计算不需要计算梯度，只需要正向传播embedding网络，得到输出之后反向传播浓缩数据集S即可，因此可以压缩到更多数量的图片上，并且第一次在TinyImageNet这种大数据集上进行压缩。

在这里插入图片描述
比起DC和DSA，DM得到的数据分布更接近原始数据分布。

《论文阅读：Dataset Condensation with Distribution Matching》

1. 基于分布匹配的数据集浓缩

2. 方法

2.1 数据浓缩的问题：

2.2 分布匹配的数据浓缩

2.3 训练步骤

3. 结果

相关文章：

《论文阅读：Dataset Condensation with Distribution Matching》

免费chatGPT工具

数据分析基础:数据可视化+数据分析报告

settings.xml的文件配置大全

极简c++（7）类的继承

DOSBox和MASM汇编开发环境搭建

047：mapboxGL本地上传shp文件，在map上解析显示图形

Windows下DataGrip连接Hive

Xshell7和Xftp7超详细下载教程（包括安装及连接服务器附安装包）

ASP.net数据从Controller传递到视图

c++ 友元函数友元类

Spring推断构造器源码分析

十五、【历史记录画笔工具组】

Spark上使用pandas API快速入门

【WebRTC---源码篇】（十：零）WEBRTC/StreamStatisticianImpl持续更新中)

调用Lua脚本tostring(xxx)报attempt to call a nil value (global ‘tostring‘

PBA.客户需求分析需求管理

Kafka进阶

大数计算：e^1000/300！

力扣164最大间距

装饰模式（Decorator Pattern）重构java邮件发奖系统实战

深入剖析AI大模型：大模型时代的 Prompt 工程全解析

基于服务器使用 apt 安装、配置 Nginx

2024年赣州旅游投资集团社会招聘笔试真

转转集团旗下首家二手多品类循环仓店“超级转转”开业

mysql已经安装，但是通过rpm -q 没有找mysql相关的已安装包

SAP学习笔记 - 开发26 - 前端Fiori开发 OData V2 和 V4 的差异 (Deepseek整理）

Reasoning over Uncertain Text by Generative Large Language Models

华硕a豆14 Air香氛版，美学与科技的馨香融合

九天毕昇深度学习平台 | 如何安装库？