基于对抗性后训练的快速文本到音频生成:stable-audio-open-small 模型论文速读
Fast Text-to-Audio Generation with Adversarial Post-Training 论文解析
一、引言与背景
-
文本到音频系统的局限性:当前文本到音频生成系统性能虽佳,但推理速度慢(需数秒至数分钟),限制了其在创意领域的应用。
-
研究目标:加速高斯流模型(扩散模型或修正流模型),避免传统蒸馏方法的缺陷。
-
现有加速方法的不足:
-
蒸馏方法需大量资源(在线方法需同时存储多个模型,离线方法需预生成轨迹-输出对),且可能继承教师模型的低多样性和过饱和伪影。
-
非蒸馏的对抗式后训练方法在图像领域有一定探索,但在音频领域尚未有成熟方案。
-
二、ARC 方法论
(一)修正流预训练
-
目标:学习在文本条件 c 下,将数据分布 p0 和先验分布 p1(如各向同性高斯噪声)之间的转换模型,以从 p1 生成 p0 样本。
-
前向腐蚀过程:通过添加噪声将数据转化为噪声表示(公式 1)。
-
逆向生成过程:解常微分方程(ODE,公式 2),预测流的瞬时速度(公式 3)进行训练。
(二)对抗相对论-对比后训练(ARC)
-
核心思想:用对抗损失替代基于 l2 的条件均值损失,利用判别器提供分布级反馈,减少所需采样步骤。
-
优势:避免蒸馏方法的高成本,无需生成和存储轨迹-输出对,也无需依赖预训练教师模型性能。
-
联合优化目标(公式 4):结合对抗相对论损失(LR)和对比损失(LC)。
(三)对抗相对论损失(LR)
-
训练流程(图 1):
-
对真实样本 x0 添加噪声得 xt,经生成器得生成样本 ˆx0。
-
再对 ˆx0 和 x0 添加噪声,输入判别器。
-
计算真实样本和生成样本在判别器空间的相对差异(公式 5 至 7)。
-
-
关键特性:与标准 GAN 不同,LR 基于成对数据计算,生成器使生成样本在判别器空间相对真实样本更真实,判别器则相反。因文本条件任务中成对样本共享相同文本提示,提供更强梯度信号。
(四)对比损失(LC)
-
提出背景:对抗损失单独使用会导致文本遵循性变差。
-
实现方式(图 2):将判别器训练为音频-文本对比模型,最大化正确和错误提示对应真实样本在判别器空间的差异(公式 8)。
-
作用:使判别器关注语义特征,提升提示遵循性,且无需使用 Classifier-Free Guidance(CFG),避免其对多样性和输出过饱和的负面影响。
(五)乒乓采样
-
适用场景:ARC 后训练模型直接估计不同噪声水平下的干净输出,而非预测瞬时速度。
-
工作原理:交替进行去噪和重新加噪,逐步优化样本质量。从初始噪声样本开始,反复去噪和加噪,最终逼近干净数据。
(六)加速作为奖励建模
- 与语言模型偏好后训练的联系:ARC 的相对论目标类似于语言模型基于人类偏好对赢得-输掉样本对训练偏好模型。判别器隐式作为奖励模型,生成器则最大化相对奖励。
三、实验与评估
(一)模型架构
-
生成模型:基于 Stable Audio Open(SAO),包含预训练自动编码器、T5 文本嵌入器和在潜在空间操作的扩散 Transformer(DiT)。对 DiT 进行改进以提升效率。
-
判别器:基于预训练修正流初始化,包含输入嵌入层、部分 DiT 块和轻量级判别器头部。
(二)训练与采样细节
-
数据集:使用 Freesound 样本(6,330 小时,472,618 音频),排除长形式 FMA 音乐。
-
训练迭代:修正流模型训练 670k 迭代,每个加速算法在 8 个 H100 GPU 上微调 100k 迭代,批次大小 256,学习率 5×10−7。
-
噪声分布:pgen(t) 为从 -6 到 2 的对数信噪比空间中的均匀分布;pdisc(s) 为移位对数正态分布,侧重中高信噪比区域。
(三)客观评估指标
-
音频质量与语义对齐:采用 FDopenl3、KLpasst 和 CLAP 分数指标。
-
多样性评估:
-
现有指标:报告 recall 和 coverage 指标(Rpasst 和 Cpasst),衡量 PASST 空间中的分布多样性。
-
新提出指标:CLAP 条件多样性分数(CCDS),计算相同提示生成样本对的 CLAP 余弦距离平均值,距离低表示多样性低,反之则高。
-
-
速度评估:报告实时因子(RTF,生成音频时长除以延迟)和 H100 上的 VRAM 峰值使用量。
(四)主观评估
-
评估方式:使用 webMUSHRA 进行听力测试,参与者对多样性、音频质量和提示遵循性进行 5 分制评分。
-
评估重点:关注与音乐制作相关的提示(如 “拉丁放克鼓组 115 BPM”)和空间复杂场景(如 “跑车经过”),以及更广泛、更模糊的提示(如 “燃烧的火焰” 和 “水”)以评估多样性。
(五)基线模型
-
Stable Audio Open(SAO):质量基线和加速参考点,模型较大且未针对速度优化。
-
预训练修正流(RF):基础加速模型。
-
Presto:基于蒸馏的音频扩散加速方法,使用基模型和辅助分数模型最小化逆向 KL 损失并结合 GAN 损失。
-
消融实验:对 ARC 进行消融,分别省略 LC 或用标准最小二乘对抗损失(LLS)替换 LR。
(六)结果与讨论
-
性能对比:SAO 虽质量最佳但速度慢;加速模型(ARC、Presto 等)速度提升显著(比 SAO 快 100 倍,比预训练 RF 快 10 倍),指标表现相近。
-
Presto 的权衡:提升基 RF 模型质量,但严重损害多样性且恶化 FDopenl3。
-
ARC 的表现:进一步提升生成多样性,FDopenl3 表现最佳,但 MOS 质量评分略低于预训练 RF。其输出多样性更高,但提示遵循性稍低。
-
消融实验结果:
-
仅用 LR 训练导致提示遵循性差,此时多样性高因生成器变成无条件模型。
-
相对论损失在对抗加对比后训练中优于最小二乘损失。
-
模型在 8 步时表现最佳,与小加速模型可能比大模型需要更多步数的发现一致。
-
-
CCDS 指标有效性:CCDS 与听力测试多样性结果完全一致,表明其可用于自动评估多样性。
(七)边缘设备优化
-
优化手段:使用 Arm 的 KleidiAI 库(通过 XNNPACK 库集成到 LiteRT 运行时),对 Vivo X200 pro 手机进行动态 Int8 量化,仅对部分层进行量化,运行时动态量化激活。
-
优化效果:推理时间从 15.3 秒(原始 F32)降至 6.6 秒,峰值运行时 RAM 使用量从 6.5GB 降至 3.6GB。高端(H100)和消费级(3090)GPU 分别实现 75ms 和 187ms 的速度。
(八)创意应用
-
响应速度要求:为在创意工作流中作为“乐器”,文本到音频模型需响应迅速。降低消费级 GPU 延迟至 200ms 以下,提升音效设计灵感。
-
音频到音频能力:利用乒乓采样实现风格迁移,无需额外训练。可通过语音录音初始化初始噪声样本实现语音到音频控制,或用强节奏录音初始化进行节拍对齐生成。
-
局限性:模型内存和存储需求高(占数 GB RAM 和磁盘空间),对集成到多应用和高效分发构成挑战。
四、结论
-
ARC 的创新性:首个不依赖蒸馏或 CFG 的文本到音频模型加速方法,通过扩展对抗相对论损失并结合新颖对比判别器损失,大幅提升高斯流模型运行速度,同时保持质量并提升生成多样性。
-
评估指标贡献:提出的 CCDS 多样性评估指标与感知评估一致,为自动评估多样性提供合理工具。
-
未来展望:期望更高效和多样性的文本到音频模型能支持更广泛的创意应用。认识到此类模型的创意潜力,论文还探索音频到音频实验,并建议未来工作可聚焦于用针对性数据集微调以实现更精确的声音设计。
五、核心技术汇总表格
相关文章:

基于对抗性后训练的快速文本到音频生成:stable-audio-open-small 模型论文速读
Fast Text-to-Audio Generation with Adversarial Post-Training 论文解析 一、引言与背景 文本到音频系统的局限性:当前文本到音频生成系统性能虽佳,但推理速度慢(需数秒至数分钟),限制了其在创意领域的应用。 研究…...
BUFDS_GTE2,IBUFDS,BUFG缓冲的区别
1、IBUFDS_GTE2 这是 Xilinx FPGA 中专门为 高速收发器(SerDes/GTX/GTH/GTY)参考时钟设计的差分输入缓冲器。 主要功能是将外部的差分时钟信号(如LVDS、LVPECL等)转换为FPGA内部的单端时钟信号,并保证信号的完整性和高…...

ADC深入——SNR、SFDR、ENOB等概念
目录 SNR(Spurious‑Free Dynamic Range 信噪比) ENOB(Effective Number Of Bits 有效位) SFDR(Spurious‑Free Dynamic Range) 感觉SNR和SFDR差不多?看看下图 输入带宽 混叠 带通采样/欠…...
ThinkPad X250电池换电池芯(理论技术储备)
参考:笔记本电池换电芯的经验与心得分享 - 经典ThinkPad专区 - 专门网 换电池芯,需要克服以下问题: 1 拆电池。由于是超声波焊接,拆解比较费力,如果暴力撬,有可能导致电池壳变形... 2 替换电池芯的时候如…...

硬件厂商的MIB文档详解 | 如何查询OID? | MIB Browser实战指南-优雅草卓伊凡
硬件厂商的MIB文档详解 | 如何查询OID? | MIB Browser实战指南-优雅草卓伊凡 一、硬件厂商的MIB文档是什么? 1. MIB的本质:设备的”数据字典” MIB(Management Information Base) 是SNMP协议的核心数据库,定义了设备…...

阿里开源通义万相 Wan2.1-VACE,开启视频创作新时代
0.前言 阿里巴巴于2025年5月14日正式开源了其最新的AI视频生成与编辑模型——通义万相Wan2.1-VACE。这一模型是业界功能最全面的视频生成与编辑工具,能够同时支持多种视频生成和编辑任务,包括文生视频、图像参考视频生成、视频重绘、局部编辑、背景延展…...

小学数学题批量生成及检查工具
软件介绍 今天给大家介绍一款近期发现的小工具,它非常实用。 软件特点与出题功能 这款软件体积小巧,不足两兆,具备强大的功能,能够轻松实现批量出题。使用时,只需打开软件,输入最大数和最小数,…...

5.13/14 linux安装centos及一些操作命令随记
一、环境准备 VMware Workstation版本选择建议 CentOS 7 ISO镜像下载指引 虚拟机硬件配置建议(内存/处理器/磁盘空间) 二、系统基础命令 一、环境准备 1.VMware Workstation版本选择建议 版本选择依据 选择VMware Workstation的版本时,…...
OpenCV 背景建模详解:从原理到实战
在计算机视觉领域,背景建模是一项基础且重要的技术,它能够从视频流中分离出前景目标,广泛应用于运动目标检测、视频监控、人机交互等场景。OpenCV 作为计算机视觉领域最受欢迎的开源库之一,提供了多种高效的背景建模算法。本文将深…...
Transformer 模型与注意力机制
目录 Transformer 模型与注意力机制 一、Transformer 模型的诞生背景 二、Transformer 模型的核心架构 (一)编码器(Encoder) (二)解码器(Decoder) 三、注意力机制的深入剖析 …...
卡顿检测与 Choreographer 原理
一、卡顿检测的原理 卡顿的本质是主线程(UI 线程)未能及时完成某帧的渲染任务(超过 16.6ms,以 60Hz 屏幕为例),导致丢帧(Frame Drop)。检测卡顿的核心思路是监控主线程任务的执行时…...

Baklib加速企业AI数据智理转型
Baklib智理AI数据资产 在AI技术深度渗透业务场景的背景下,Baklib通过构建企业级知识中台架构,重塑了数据资产的治理范式。该平台采用智能分类引擎与语义分析模型,将分散在邮件、文档、数据库中的非结构化数据转化为标准化的知识单元…...

基于协同过滤的文学推荐系统设计【源码+文档+部署】
基于协同过滤的文学推荐系统设计 摘要 随着信息技术的飞速发展和文学阅读需求的日益多样化,构建一个高效、精准的文学推荐系统变得尤为重要。本文采用Spring Boot框架,结合协同过滤算法,设计并实现了一个基于用户借阅行为和社交论坛互动的文学…...
在c/c++中,如何使用链表进行插入、删除和遍历功能。
首先,链表由节点组成,每个节点应该包含数据和指向下一个节点的指针。 结构体可以包含数据域和指针域。 比如,假设链表存储整数,那节点的结构体应该有一个int类型的数据和一个指向同样结构体的指针。结构体定义大概是这样的&…...

数据结构与算法——单链表(续)
单链表(续) 查找在指定位置之前插入结点在指定位置之后插入结点删除pos位置的结点删除pos位置之后的结点销毁 查找 遍历:pcur指向头结点,循环,当pucr不为空进入循环,pucr里面指向的数据为要查找的值的时候…...

全面且深度学习c++类和对象(上)
文章目录 过程和对象类的引入,类的定义类的访问限定符及封装类的访问限定符封装 类的实例化类大小内存对齐规则: this指针this特性 过程和对象 C语言面向过程设计,c面向对象设计, 举例:洗衣服 C语言:放衣服…...

开源情报如何成为信息攻防的关键资源
相比于传统情报,开源情报具有情报数量大、情报质量好、情报成本低、情报可用性强等优势。这是开源情报能够成为信息攻防关键资源的主要原因。 海量信息让开源情报具有更大潜力。一是开源情报体量巨大。信息化时代是信息爆炸的时代,网络上发布的各种信息…...

【风控】用户特征画像体系
一、体系架构概述 1.1 核心价值定位 风控特征画像体系是通过多维度数据融合分析,构建客户风险全景视图的智能化工具。其核心价值体现在: 全周期覆盖:贯穿客户生命周期的营销、贷前、贷中、贷后四大场景立体化刻画:整合基础数据…...
Android开发-文本输入
在Android应用开发中,文本输入是用户与应用交互的最常见方式之一。无论是登录界面、搜索框还是表单填写,都需要处理用户的文本输入。本文将介绍如何在Android应用中实现和管理文本输入,包括基本控件的使用、事件监听、输入验证以及一些高级功…...

Unity:场景管理系统 —— SceneManagement 模块
目录 🎬 什么是 Scene(场景)? Unity 项目中的 Scene 通常负责什么? 🌍 一个 Scene 包含哪些元素? Scene 的切换与管理 📁 如何创建与管理 Scenes? 什么是Scene Man…...
elementUI源码学习
学习笔记。 最近在看element的table表格优化,又去看了一下element源码框架。element 的架构是很优秀,通过大量的脚本实现工程化,让组件库的开发者专注于事情本身,比如新加组件,一键生成组件所有文件,并完成…...

SZU 编译原理
总结自 深圳大学《编译原理》课程所学相关知识。 文章目录 文法语法分析自顶向下的语法分析递归下降分析LL(1) 预测分析法FIRST 集合FOLLOW 集合 文法 乔姆斯基形式语言理论: 表达能力:0型文法 > 1型文法 > 2型文法 > 3型文法。 0 型文法&am…...
实时技术方案对比:SSE vs WebSocket vs Long Polling
早期网站仅展示静态内容,而如今我们更期望:实时更新、即时聊天、通知推送和动态仪表盘。 那么要如何实现实时的用户体验呢?三大经典技术各显神通: SSE(Server-Sent Events):轻量级单向数据流WebSocket:双向全双工通信Long Polling(长轮询):传统过渡方案假设目前有三…...

【程序员AI入门:模型】19.开源模型工程化全攻略:从选型部署到高效集成,LangChain与One-API双剑合璧
一、模型选型与验证:精准匹配业务需求 (一)多维度评估体系 通过量化指标权重实现科学选型,示例代码计算模型综合得分: # 评估指标权重与模型得分 requirements {"accuracy": 0.4, "latency": …...
北斗导航 | 基于深度学习的卫星导航数据训练——检测识别故障卫星
深度学习+故障卫星识别 **1. 数据准备与预处理****2. 模型选择与设计****3. 训练策略****4. 模型优化与验证****5. 实时部署与集成****6. 持续学习与更新****示例模型架构(LSTM + Attention)****挑战与解决方案**🥦🥦🥦🥦🥦🥦🥦🥕🥦🥦🥦🥦🥦🥦�…...

ARM Cortex-M3内核详解
目录 一、ARM Cortex-M3内核基本介绍 (一)基本介绍 (二)主要组成部分 (三)调试系统 二、ARM Cortex-M3内核的内核架构 三、ARM Cortex-M3内核的寄存器 四、ARM Cortex-M3内核的存储结构 五、ARM Co…...
基于Unity的简单2D游戏开发
基于Unity的简单2D游戏开发 摘要 本文围绕基于Unity的简单2D游戏开发进行深入探讨,旨在分析其开发过程中的技术架构与实现策略。通过文献综述与市场分析,研究发现,近年来Unity引擎因其优秀的跨平台特性及可视化编程理念,成为2D游戏开发的主要工具。文章首先梳理了游戏开发的…...
Linux系统编程——exec族函数
我们来完整、系统、通俗地讲解 Linux 系统编程中非常重要的一类函数:exec 族函数(也叫 exec family)。 一、什么是 exec? exec 系列函数的作用是: 用一个新的程序,替换当前进程的内容。 也就是说…...

ThinkStation图形工作站进入BIOS方法
首先视频线需要接在独立显卡上,重新开机,持续按F1,或者显示器出来lenovo的logo的时候按F1,这样就进到bios里了。联*想*坑,戴尔贵。靠。...

go 集成base64Captcha 支持多种验证码
base64Captcha 是一个基于 Go 语言开发的验证码生成库,主要用于在 Web 应用中集成验证码功能,以增强系统的安全性。以下是其主要特点和简介: base64Captcha主要功能 验证码类型丰富:支持生成多种类型的验证码,包括纯…...