当前位置：首页 > news >正文

《DATASET DISTILLATION》

news 2026/2/10 2:30:39

这篇文章提出了数据浓缩的办法，在前面已有的知识浓缩（压缩模型）的经验上，提出了不压缩模型，转而压缩数据集的办法，在压缩数据集上训练模型得到的效果尽可能地接近原始数据集的效果。

摘要

模型蒸馏的目的是将复杂模型的知识提炼为简单模型的知识。在本文中考虑了一个替代的公式，称为数据集蒸馏:我们保持模型固定，而不是尝试从一个大的训练数据集提取知识到一个小的。其思想是合成少量的数据点，这些数据点不需要来自于正确的数据分布，但当给学习算法作为训练数据时，会近似于在原始数据上训练的模型。例如，文章展示了可以将6万幅MNIST训练图像压缩成10幅合成蒸馏图像(每类一张)，在给定一个固定的网络初始化条件下，只需几个梯度下降步骤，就可以达到接近原始性能的效果。
在这里插入图片描述
效果1：使用压缩后的图片进行训练，10张MNIST或者100张CIFAR10，就可以达到94%的准确率和54%的准确率。

效果2：使用压缩数据进行fine-tune，可以很好地微调数据集效果。
效果3：将攻击数据集浓缩，可以更好地强化攻击的效果，仅仅用300张图片就使得目标类的分类准确率降低至7%。

方法：

准备工作

考虑有数据集 $\mathbf{x}=\left\{x_i\right\}_{i=1}^N$ 为原始数据集，神经网络为 $\theta$ ， $\ell\left(x_i, \theta\right)$ 是 $x_i$ 在模型 $\theta$ 上的损失。
$\theta^*=\underset{\theta}{\arg \min } \frac{1}{N} \sum_{i=1}^N \ell\left(x_i, \theta\right) \triangleq \underset{\theta}{\arg \min } \ell(\mathbf{x}, \theta)$
上式就是神经网络优化的最终目标，训练获得一个 $\theta^*$ 使得模型在数据集上的损失最小。
这里为了方便，直接将
$\ell(\mathbf{x}, \theta)$
记为数据集上的损失平均和

优化浓缩数据

浓缩数据和浓缩学习率都是随机初始化的，通过不断地计算损失梯度下降，优化得到最终的浓缩数据集以及浓缩学习率，如何获得优化函数便是这里的重点。

$\tilde{\mathbf{x}}=\left\{\tilde{x}_i\right\}_{i=1}^M$ 中 $\ll N$ 并且对应的学习率 $\tilde{\eta}$ ，对应的梯度下降为：
$\theta_1=\theta_0-\tilde{\eta} \nabla_{\theta_0} \ell\left(\tilde{\mathbf{x}}, \theta_0\right)$
使用生成的浓缩数据集 $\tilde{\mathbf{x}}$ 可以极大地增强训练的效果。给定一个初始的 $\theta_0$ ，我们获得 $\tilde{\mathbf{x}}$ 和学习率 $\tilde{\eta}$ 通过最小化以下损失函数 $\mathcal{L}$ :
$\tilde{\mathbf{x}}^*, \tilde{\eta}^*=\underset{\tilde{\mathbf{x}}, \tilde{\eta}}{\arg \min } \mathcal{L}\left(\tilde{\mathbf{x}}, \tilde{\eta} ; \theta_0\right)=\underset{\tilde{\mathbf{x}}, \tilde{\eta}}{\arg \min } \ell\left(\mathbf{x}, \theta_1\right)=\underset{\tilde{\mathbf{x}}, \tilde{\eta}}{\arg \min } \ell\left(\mathbf{x}, \theta_0-\tilde{\eta} \nabla_{\theta_0} \ell\left(\tilde{\mathbf{x}}, \theta_0\right)\right),$

现在看着可能会很抽象，这里简单的讲解一下，方法就是：

先使用随机初始化的 $\tilde{\mathbf{x}}$ 和 $\tilde{\eta}$ ，将浓缩数据集 $\tilde{\mathbf{x}}$ 和浓缩学习率 $\tilde{\eta}$ 丢入神经网络 $\theta_0$ 进行一轮训练。
使用原始数据集检验使用浓缩数据集 $\tilde{\mathbf{x}}$ 和浓缩学习率 $\tilde{\eta}$ 训练得到的新一轮神经网络 $\theta_1$ ，计算原始数据集在这个模型上的损失。
这个损失就是我们的优化目标，我们要让这个损失最小。

模型随机初始化

上面的函数中，模型总是使用 $\theta_0$ 进行训练获得浓缩数据集和浓缩学习率，作者担心这样获得的浓缩数据集和浓缩学习率会和 $\theta_0$ 有较大的关系，不能很好地泛化到其他初始化，因此作者又提出使用随机的 $\theta_0$ 来训练。
于是作者就改成，每一轮的 $\theta$ 都不同， $\theta_0$ 是一个满足 $p(\theta)$ 的分布。

SGD下降法

每次选中一个batch，每个batch使用不同的初始化，就是把之前的GD修改为minibatch梯度下降。

具体算法如下图所示：在这里插入图片描述
将原始数据集划分为 $x_t$ 的batch，每一个batch有不同的初始化 $\theta_0$ ，每一个batch的计算方法与前面相同，最后将每个batch计算获得的 $\tilde{\mathbf{x}}$ 和 $\tilde{\eta}$ 平均。

《DATASET DISTILLATION》

摘要

相关工作：

方法：

准备工作

优化浓缩数据

模型随机初始化

SGD下降法

相关文章：

《DATASET DISTILLATION》

GDPU 数据结构天码行空1

【C++】红黑树的模拟实现

【多线程】Thread 类详解

LINUX 网络管理

refresh rate

使用 NGINX Unit 实施应用隔离

2023/09/12 qtc++

全科医学科常用评估量表汇总，建议收藏！

了解消息中间件的基础知识

【linux】Linux wps字体缺失、加粗乱码解决

每日两题 103二叉树的锯齿形层序遍历（数组） 513找树左下角的值（队列）

ROS2报错：ImportError: cannot import name ‘Log‘ from ‘rosgraph_msgs.msg‘

【Vue】Vue中的代码分为哪几种类型？

es6中includes用法

QT中QRadioButton实现分组C++

kafka实战报错解决问题

vite+react 使用 react-activation 实现缓存页面

【android 蓝牙开发——蓝牙耳机】

Golang goroutine 进程、线程、并发、并行

day52 ResNet18 CBAM

从零实现富文本编辑器#5-编辑器选区模型的状态结构表达

376. Wiggle Subsequence

跨链模式：多链互操作架构与性能扩展方案

涂鸦T5AI手搓语音、emoji、otto机器人从入门到实战

【HarmonyOS 5 开发速记】如何获取用户信息（头像/昵称/手机号）

SAP学习笔记 - 开发26 - 前端Fiori开发 OData V2 和 V4 的差异 (Deepseek整理）

Xen Server服务器释放磁盘空间

20个超级好用的 CSS 动画库

MySQL 索引底层结构揭秘：B-Tree 与 B+Tree 的区别与应用