当前位置: 首页 > article >正文

【AI论文】扩散对抗后训练用于一步视频生成总结

摘要:扩散模型被广泛应用于图像和视频生成,但其迭代生成过程缓慢且资源消耗大。尽管现有的蒸馏方法已显示出在图像领域实现一步生成的潜力,但它们仍存在显著的质量退化问题。在本研究中,我们提出了一种在扩散预训练后针对真实数据进行的对抗后训练(APT)方法,用于一步视频生成。为了提高训练稳定性和质量,我们对模型架构和训练过程进行了多项改进,并引入了一种近似R1正则化目标。实验表明,我们的对抗后训练模型Seaweed-APT能够使用单个前向评估步骤实时生成2秒、1280x720分辨率、24帧每秒的视频。此外,我们的模型还能够在一步内生成1024px分辨率的图像,质量可与最先进的方法相媲美。Huggingface链接:Paper page 论文链接:2501.08316

一、引言

随着生成对抗网络(GANs)和扩散模型(Diffusion Models)的兴起,图像和视频生成领域取得了显著进展。然而,传统的扩散模型由于其迭代生成过程,导致生成成本高且耗时。尽管现有的蒸馏方法已经展示了在图像领域实现一步生成的可能性,但这些方法往往伴随着显著的质量下降。为了解决这个问题,本文提出了一种新的方法,即对抗后训练(Adversarial Post-Training, APT),通过对抗训练来加速扩散模型,实现图像和视频的一步生成。

二、背景与相关工作

1. 扩散模型加速

扩散模型已成为学习大规模图像和视频生成的标准方法。为了减少生成成本,研究者们提出了多种方法,其中扩散步长蒸馏(Diffusion Step Distillation)是一种有效的方法。这种方法通过预训练的扩散模型作为教师模型,生成目标,然后使用知识蒸馏技术训练学生模型,使学生模型能够使用更少的扩散步长复制教师模型的输出。尽管这些方法在减少推理步长方面取得了进展,但一步生成仍然面临巨大挑战,特别是在实现细粒度细节、最小化伪影和保持结构完整性方面。

2. 一步视频生成

一步视频生成的工作可以追溯到使用GANs的方法,如DVD-GAN、MoCoGAN-HD和StyleGAN-V等。然而,这些方法通常只能在受限的数据域上生成低质量的视频。最近,一些研究尝试将图像扩散模型蒸馏为一步视频生成模型,但这些方法生成的视频分辨率较低,且存在显著的质量下降。

3. 稳定对抗训练

在GANs中,R1正则化已被证明对于促进收敛是有效的。然而,在大规模对抗工作中,由于高阶梯度计算的计算成本高昂,且不被现代深度学习软件栈支持,因此R1正则化的使用受到限制。本文提出了一种近似R1正则化方法,以解决这一问题。

三、方法

1. 概述

本文的目标是将一个文本到视频的扩散模型转换为一步生成器。为此,我们采用对抗后训练(APT)方法,通过对抗优化来实现这一目标。整个训练过程遵循一个最小-最大游戏,其中判别器D尝试区分真实样本和生成样本,而生成器G则试图生成能够欺骗判别器的样本。

2. 生成器

直接对抗训练扩散模型会导致训练崩溃。为了解决这个问题,我们首先使用确定性蒸馏方法初始化生成器。具体来说,我们采用离散时间一致性蒸馏方法,通过均方误差损失进行简单蒸馏。蒸馏后的模型虽然生成的样本很模糊,但为后续的对抗训练提供了一个有效的初始化。

在后续的训练中,我们主要关注一步生成能力,并始终将最终时间步长T传递给基础模型。生成器的损失函数定义为:

其中,gG​(x)=log(1−σ(x)),σ(x)是sigmoid函数。

3. 判别器

判别器被训练为产生一个标量对数,以有效区分真实样本x和生成样本x^。为了实现稳定训练和提高质量,我们对判别器进行了多项改进:

  • 初始化:判别器骨干网络使用预训练的扩散模型进行初始化,并直接在潜在空间中操作。
  • 架构修改:在判别器的第16、26和36层引入新的仅交叉注意力变换器块,每个块使用一个可学习令牌作为查询,以交叉注意力到所有视觉令牌。
  • 输入处理:直接为判别器提供原始样本x和x^,避免引入伪影。由于判别器骨干网络是从扩散模型初始化的,且扩散预训练目标在t=0时没有意义,因此我们使用不同时间步长的集合作为输入。

判别器的损失函数定义为:

其中,,λ是正则化项的权重,σ是高斯噪声的方差。

4. 近似R1正则化

由于高阶梯度计算的计算成本高昂,且不被现代深度学习软件栈支持,因此我们提出了一种近似R1正则化方法。具体来说,我们通过对真实数据添加高斯噪声来扰动真实数据,并鼓励判别器对真实数据和其扰动之间的预测保持接近。这种方法减少了判别器在真实数据上的梯度,从而实现了与原始R1正则化一致的目标。

四、实验结果

1. 定性评估

我们首先在图像生成方面比较了我们的APT模型与原始扩散模型。实验结果显示,APT模型在保持细节和真实感方面表现更好。此外,我们还与其他一步图像生成方法进行了比较,结果显示我们的方法在细节保持和结构完整性方面表现优异。

在视频生成方面,APT模型在视觉细节和真实感方面也有所提升,但在结构完整性和文本对齐方面仍然存在一定的降解。然而,即使如此,APT模型生成的视频在1280×720分辨率下仍然保持了相当的质量。

2. 用户研究

我们进行了一系列用户研究,以评估生成样本的视觉保真度、结构完整性和文本对齐性。实验结果显示,我们的APT模型在视觉保真度方面表现优于其他一步生成方法,但在结构完整性和文本对齐性方面仍存在一定的不足。尽管如此,我们的模型仍然达到了与当前最先进方法相当的性能。

3. 消融研究

我们进行了一系列消融研究,以评估不同组件对模型性能的影响。实验结果显示,近似R1正则化对于维持稳定训练至关重要,没有它训练会迅速崩溃。此外,使用更深的判别器网络和多层特征可以显著提高图像质量。我们还发现,指数移动平均(EMA)和较大的批量大小对于稳定训练和提高模型性能也是有益的。

五、结论与局限

本文提出了一种新的对抗后训练方法(APT),用于加速扩散模型的一步生成。通过引入近似R1正则化和对判别器进行多项改进,我们成功训练了一个能够实时生成高分辨率视频和图像的模型。尽管我们的模型在视觉保真度方面表现优异,但在结构完整性和文本对齐性方面仍存在一定的不足。未来的工作将致力于进一步提高模型的结构完整性和文本对齐性,并探索生成更长时间视频的可能性。

六、局限性与未来工作

尽管我们的方法在一步生成高分辨率视频方面取得了显著进展,但仍存在一些局限性。首先,由于计算资源的限制,我们目前只能训练模型生成最多两秒的视频。未来的工作将探索使用更多的计算资源来生成更长时间的视频。其次,我们观察到APT可能会对文本对齐产生负面影响,这将是未来工作中的一个重要研究方向。最后,我们将继续探索如何进一步提高模型的结构完整性和生成质量。


本文通过引入对抗后训练方法(APT),成功实现了扩散模型的一步生成,显著提高了生成速度和效率。尽管仍存在一些局限性,但本文的研究为未来的工作提供了有价值的参考和启示。

相关文章:

【AI论文】扩散对抗后训练用于一步视频生成总结

摘要:扩散模型被广泛应用于图像和视频生成,但其迭代生成过程缓慢且资源消耗大。尽管现有的蒸馏方法已显示出在图像领域实现一步生成的潜力,但它们仍存在显著的质量退化问题。在本研究中,我们提出了一种在扩散预训练后针对真实数据…...

使用Python Dotenv库管理环境变量

使用Python Dotenv库管理环境变量 在开发Python应用程序时,管理配置信息(如API密钥、数据库连接字符串等)是一个常见的需求。为了确保安全性和灵活性,通常不建议将这些敏感信息硬编码在代码中。这时,dotenv库就派上了…...

oracle 分区表介绍

oracle 分区表介绍 Oracle 分区表是一个非常强大的数据库功能,可以将一个大的表分割成多个更小、更易管理的块(分区)。这种分区结构在处理大规模数据时非常有用,因为它能改善性能、简化维护和管理,并支持高效的数据存取…...

在线可编辑Excel

1. Handsontable 特点: 提供了类似 Excel 的表格编辑体验,包括单元格样式、公式计算、数据验证等功能。 支持多种插件,如筛选、排序、合并单元格等。 轻量级且易于集成到现有项目中。 具备强大的自定义能力,可以调整外观和行为…...

基于 Node.js 的天气查询系统实现(附源码)

项目概述 这是一个基于 Node.js 的全栈应用,前端使用原生 JavaScript 和 CSS,后端使用 Express 框架,通过调用第三方天气 API 实现天气数据的获取和展示。 主要功能 默认显示多个主要城市的天气信息 支持城市天气搜索 响应式布局设计 深色主题界面 优雅的加载动画 技术栈 …...

【javaweb项目idea版】蛋糕商城(可复用成其他商城项目)

该项目虽然是蛋糕商城项目,但是可以复用成其他商城项目或者购物车项目 想要源码的uu可点赞后私聊 技术栈 主要为:javawebservletmvcc3p0idea运行 功能模块 主要分为用户模块和后台管理员模块 具有商城购物的完整功能 基础模块 登录注册个人信息编辑…...

langchain基础(三)

Chain: 关于三个invoke: 提示模板、聊天模型和输出解析器都实现了langchain的runnable接口, 都具有invoke方法(因为invoke方法是Runnable的通用调用方法) 所以可以一次性调用多次invoke直接得到最终结果:…...

在Ubuntu上用Llama Factory命令行微调Qwen2.5的简单过程

半年多之前写过一个教程:在Windows上用Llama Factory微调Llama 3的基本操作_llama-factory windows-CSDN博客 如果用命令行做的话,前面的步骤可以参考上面这个博客。安装好环境后, 用自我认知数据集微调Lora模块:data/identity.j…...

go 循环处理无限极数据

数据表结构: CREATE TABLE permission (id int(11) NOT NULL AUTO_INCREMENT COMMENT 权限ID,permission_name varchar(255) DEFAULT NULL COMMENT 权限名称,permission_url varchar(255) DEFAULT NULL COMMENT 权限路由,status tinyint(1) DEFAULT NULL COMMENT 权…...

Kafka 深入服务端 — 时间轮

Kafka中存在大量的延迟操作,比如延时生产、延时拉取和延时删除等。Kafka基于时间轮概念自定义实现了一个用于延时功能的定时器,来完成这些延迟操作。 1 时间轮 Kafka没有使用基于JDK自带的Timer或DelayQueue来实现延迟功能,因为它们的插入和…...

一文掌握ADB的安装及使用

文章目录 一、什么是ADB?二、 安装ADB2.1 下载ADB2.2 配置环境变量 三、连接Android设备四、 常用ADB命令五、ADB高级功能5.1 屏幕截图和录制5.2 模拟按键输入5.3 文件管理5.4 系统设置管理5.5 系统操作指令5.6 日志操作指令5.7 APK操作指令5.8 设备重启和恢复 六、…...

Linux系统下速通stm32的clion开发环境配置

陆陆续续搞这个已经很久了。 因为自己新电脑是linux系统无法使用keil,一开始想使用vscode里的eide但感觉不太好用;后面想直接使用cudeide但又不想妥协,想趁着这个机会把linux上的其他单片机开发配置也搞明白;而且非常想搞懂cmake…...

Java 9模块开发:IntelliJ IDEA实战指南

在Java 9中,模块化是一个重要的特性,它可以帮助我们更好地组织和管理代码。而IntelliJ IDEA作为一个强大的集成开发环境,为Java 9模块的开发提供了全面的支持。本文将通过一个实际的项目示例,详细讲解如何在IntelliJ IDEA中开发和…...

OpenCSG月度更新2025.1

1月的OpenCSG取得了一些亮眼的成绩 在2025年1月,OpenCSG在产品和社区方面继续取得了显著进展。产品方面,推出了AutoHub浏览器自动化助手,帮助用户提升浏览体验;CSGHub企业版功能全面升级,现已开放试用申请&#xff0c…...

【算法与数据结构】动态规划

目录 基本概念 最长递增子序列(中等) 最大子数组和(中等) 基本概念 重叠子问题 一个问题可以被分解为多个子问题,并且这些子问题在求解过程中会被多次重复计算。例如,在计算斐波那契数列时,…...

AWTK 骨骼动画控件发布

Spine 是一款广泛使用的 2D 骨骼动画工具,专为游戏开发和动态图形设计设计。它通过基于骨骼的动画系统,帮助开发者创建流畅、高效的角色动画。本项目是基于 Spine 实现的 AWTK 骨骼动画控件。 代码:https://gitee.com/zlgopen/awtk-widget-s…...

【llm对话系统】什么是 LLM?大语言模型新手入门指南

什么是 LLM?大语言模型新手入门指南 大家好!欢迎来到 LLM 的奇妙世界!如果你对人工智能 (AI) 的最新进展,特别是那些能像人类一样阅读、写作甚至进行对话的 AI 感兴趣,那么你来对地方了。这篇文章将带你认识 LLM 的基…...

三角形的最大周长(LeetCode 976)

给定由一些正数(代表长度)组成的数组 A,返回由其中三个长度组成的、面积不为零的三角形的最大周长。如果不能形成任何面积不为零的三角形,返回 0。 示例 1: 输入:[2,1,2] 输出:5 示例 2&…...

go到底是什么意思:对go的猜测或断言

go这个单词,简单地讲,表示“走或去”的意思: go v.去;走 认真想想,go是一个非常神秘的单词,g-和o-这两个字母,为什么就会表达“去;走”的意思呢?它的字面义或本质&…...

学习数据结构(2)空间复杂度+顺序表

1.空间复杂度 (1)概念 空间复杂度也是一个数学表达式,表示一个算法在运行过程中根据算法的需要额外临时开辟的空间。 空间复杂度不是指程序占用了多少bytes的空间,因为常规情况每个对象大小差异不会很大,所以空间复杂…...

DeepSeek--通向通用人工智能的深度探索者

一、词源与全称 “DeepSeek"由"Deep”(深度)与"Seek"(探索)组合而成,中文译名为"深度求索"。其全称为"深度求索人工智能基础技术研究有限公司",英文对应"De…...

Unity游戏(Assault空对地打击)开发(1) 创建项目和选择插件

目录 前言 创建项目 插件导入 地形插件 前言 这是游戏开发第一篇,进行开发准备。 创作不易,欢迎支持。 我的编辑器布局是【Tall】,建议调整为该布局,如下。 创建项目 首先创建一个项目,过程略,名字请勿…...

(三)Session和Cookie讲解

目录 一、前备知识点 (1)静态网页 (2)动态网页 (3)无状态HTTP 二、Session和Cookie 三、Session 四、Cookie (1)维持过程 (2)结构 正式开始说 Sessi…...

【信息系统项目管理师-选择真题】2011下半年综合知识答案和详解

更多内容请见: 备考信息系统项目管理师-专栏介绍和目录 文章目录 【第1题】【第2题】【第3题】【第4题】【第5题】【第6题】【第7题】【第8题】【第9~10题】【第11题】【第12题】【第13题】【第14题】【第15题】【第16题】【第17题】【第18题】【第19题】【第20题】【第21题】…...

1.Template Method 模式

模式定义 定义一个操作中的算法的骨架(稳定),而将一些步骤延迟(变化)到子类中。Template Method 使得子类可以不改变(复用)一个算法的结构即可重定义(override 重写)该算法的某些特…...

【PyTorch】5.张量索引操作

目录 1. 简单行、列索引 2. 列表索引 3. 范围索引 4. 布尔索引 5. 多维索引 个人主页:Icomi 在深度学习蓬勃发展的当下,PyTorch 是不可或缺的工具。它作为强大的深度学习框架,为构建和训练神经网络提供了高效且灵活的平台。神经网络作为…...

力扣25.k个一组翻转链表

给你链表的头节点 head ,每 k 个节点一组进行翻转,请你返回修改后的链表。k 是一个正整数,它的值小于或等于链表的长度。如果节点总数不是 k 的整数倍,那么请将最后剩余的节点保持原有顺序。你不能只是单纯的改变节点内部的值&…...

[EAI-023] FAST: Efficient Action Tokenization for Vision-Language-Action Models

Paper Card 论文标题:FAST: Efficient Action Tokenization for Vision-Language-Action Models 论文作者:Karl Pertsch, Kyle Stachowicz, Brian Ichter, Danny Driess, Suraj Nair, Quan Vuong, Oier Mees, Chelsea Finn, Sergey Levine 论文链接&…...

2025年AI手机集中上市,三星Galaxy S25系列上市

2025年被认为是AI手机集中爆发的一年,各大厂商都会推出搭载人工智能的智能手机。三星Galaxy S25系列全球上市了。 三星Galaxy S25系列包含S25、S25和S25 Ultra三款机型,起售价为800美元(约合人民币5800元)。全系搭载骁龙8 Elite芯…...

八股文 (一)

文章目录 项目地址一、前端1.1 大文件上传,预览1.2 首页性能优化1.2 流量染色,灰度发布1.3 Websock心跳机制,大数据实时数据优化1.4 Gpu 加速 fps优化1.5 echarts包大小优化和组件封装1.6 前端监控系统1.7 超大虚拟列表卡顿1. 实现2. 相关问题(1) 什么是虚拟化列表,为什么要…...