【论文学习】基于规模化Transformer模型的低比特率高质量语音编码
以下文章基于所提供的文档内容撰写,旨在对该论文“Scaling Transformers for Low-Bitrate High-Quality Speech Coding”进行较为系统和深入的分析与总结。
论文地址:https://arxiv.org/pdf/2411.19842
一、研究背景与动机
自20世纪70年代以来,音频与语音数据的数字化压缩编码一直是通信与信号处理领域的活跃研究方向。尤其在1990年代末期,诸如mp3等广泛流行的音乐压缩格式引起了极大关注。这些早期编解码器大多依赖传统信号处理手段,通过频谱变换、时域特征提取、量化与熵编码等步骤,实现音频数据体积的显著压缩。
然而,随着深度学习技术的崛起,人们开始尝试将机器学习算法应用于音频编解码领域。“神经音频编解码器”(Neural Audio Codec, NAC)一词应运而生。最初,神经网络在音频编解码中的应用延续了传统编解码器的目标:即在较低的比特率下尽量保持较高的音质,并兼顾计算成本的可行性。然而,最新一代的大规模生成式模型则提出了新的需求:**它们所需的音频“标记化”或“离散化”**不仅是为了更高的压缩率或者单纯追求高保真度,还要考虑如何为后续的大型生成模型提供适合的离散表示。也就是说,NAC在新需求下更看重如何活动化“语音token”的潜在分布,使大型生成模型在理解或生成音频时更具灵活性与准确度。
在此背景下,该论文所提出的模型围绕“极低比特率”和“可与强大生成式模型配合”这两大核心诉求进行设计。为进一步提高音频标记化质量,作者们认为可以牺牲一部分模型的计算复杂度,以换取更强的编码和生成能力。这种思路与传统编解码器“追求极低计算开销”的理念不同,属于一种范式转变:当下的大模型时代,编解码器在整个语音生成或理解流水线中只占很小一部分参数量,因此具备向单体参数规模更大、表示能力更强的方向演进的“空间”。
基于上述认识,该论文将Transformer架构大规模应用于语音编解码器主干网络,并引入了一种基于有限标量量化(Finite Scalar Quantization, FSQ)的量化方法,试图在400bps至700bps的超低码率下实现高质量语音的波形重建。相较传统的残差矢量量化(RVQ),FSQ能减少层级并行带来的复杂性,也能在极低比特率的场景中带来更好的码本利用率。
二、神经音频编解码器概述
2.1 传统NAC的发展
根据文档中所述,早期的神经音频编解码研究主要集中在VQ-VAE(Vector Quantized Variational AutoEncoder)的结构上,遵循“编码器-量化-解码器”的三段式流水。Soundstream、EnCodec等工作通过残差矢量量化(RVQ)方法,利用多个层级的码本来增强对输入特征空间的表示能力。随着研究的深入,这类模型在语音、通用音频(如音乐、环境音)等多种类型的任务中均有不错的表现。
不过,随着“生成式模型”在音频领域大放异彩,仅具备“压缩-重建”功能的编解码器已经无法满足一些新需求。例如,用于多模态的文本到音频生成任务,需要编解码器提供能反映音频中语义与声学信息的离散token,以便大模型对其进行操控。
2.2 低比特率语音编码的新挑战
文档指出,如何在1kbps甚至更低比特率下实现高保真度语音重建,是当前一个颇具挑战性的目标。一些模型(如SingleCodec、SemantiCodec等)采用将音频先转换为语谱图再进行VQ或扩散式生成的思路,在极低码率时亦能维持一定的语音可懂度。但也出现了对高频成分和复杂声学结构失真的现象。
另一方面,一些端到端波形级神经编解码器则通过提升数据规模(例如Mimi用于英语语音的700万小时训练数据)来缓解低比特率编码的泛化不足。但这些大数据模型通常需要更长的训练周期和更高的硬件资源。
该论文主张,通过大规模Transformer与FSQ结合,可在语音范围内取得比以往RVQ模型更优的平衡——既能在400-700bps维度保持好的重建质量,又不完全依赖数百万小时级别的数据量。
三、所提方法:大规模Transformer与FSQ
3.1 整体结构与动机
论文所提出的模型称为“TAAE”(Transformer Audio AutoEncoder),其核心是一个以Transformer为主的编解码结构,而非以卷积层或混合卷积—Transformer层为主导。动机在于进一步“规模化”Transformer,从而在时域上下文建模、注意力机制等方面充分挖掘信息编码潜力。
此外,作者提到,目前大多数模型在量化环节采用“残差矢量量化”(RVQ),这会引入多重层级并行的token序列,使得后续生成式模型(尤其是因果结构)需要在推理和训练过程中处理相互依赖的多条token流,变得复杂且容易产生码本利用率不足等问题。FSQ则通过有限标量量化的方式,将潜在向量分解为更简洁的低阶标量子空间,便于后续统一建模。
3.2 编码器-解码器架构
TAAE的Encoder部分首先对输入波形进行下采样或分块处理(论文中提到20ms为一块),再将其映射到较高维度(文档中并未提供具体维度的精确数值,但提到1024维嵌入是常用规模)。随后,通过分层Transformer块进行时序依赖的建模。Transformer块中嵌入了滑动窗口注意力(window-size = 128)等技术,以控制计算量并有效地捕捉局部上下文。
Decoder部分则与Encoder保持对称结构,通过相同或相似规模的Transformer反向进行特征还原,最终与波形重建模块相结合,以恢复最终音频信号。文档中还提到,该模型在非因果和因果两种版本间进行了比较,因果版本仅带来极小的性能退化,却能支持实时流式场景——这一点对实际通信及实时生成都很关键。
3.3 有限标量量化(FSQ)
相较于RVQ,FSQ将潜在空间分解为若干标量通道,每个通道可通过一个有限离散集进行量化。作者同时提出一种**后训练阶段的“低阶残差分解”**策略,以提高FSQ的精细度并保持码率可控。据文档所述,FSQ能带来如下好处:
- 简化token流:避免多层级的并行VQ码本导致的复杂依赖关系。
- 增强码本利用率:通过后训练的方式可更好地覆盖潜在空间,减少无效码字。
- 灵活可调比特率:在400bps到700bps区间可依动态需求进行快速切换。
四、训练过程与实验设置
4.1 训练数据与损失函数
论文并未在文档中给出详细的语料规模或语种覆盖范围,但存在提及Mimi使用700万小时英语语音,EnCodec、Soundstream经常采用DNS、CommonVoice等多源数据进行多任务训练等背景。就该模型而言,作者主要强调了两个训练阶段:
- 主训练阶段:以对抗损失和重构损失(如STFT或GAN Feature Matching)为核心,保证波形质量与逼真度。
- 微调阶段:引入WavLM-Large等额外感知损失,进一步提高听觉主观评分。
在损失权重设置上,作者并未详细列举,但提到对抗损失与感知损失同样重要,彼此需平衡。
4.2 评价指标与主客观测试
为衡量压缩质量、感知清晰度与比特率效果,论文使用了多种指标,包括:
- 客观指标:如SI-SDR(其中>0一般表示一定程度保真,数值越大越好)、PESQ、梅尔距离等。
- 主观听感测试:采用MUSHRA形式,让测试者对模型重建音频和参考音频进行相似度评定,评分范围为0到100。
作者在实验中同时对若干已有模型(Encodec、DAC、Mimi等)做了对比,并特别关注了“比特率与音质”的关系。当比特率降低到不足1kbps时,如果能保持相对清晰可懂的语言特征,就已算极具突破性成果。
五、结果与发现
5.1 重建质量与比特率
根据上传文档信息,TAAE在400bps或700bps的场景下仍能取得被称为“良好”甚至“高质量”的语音重建效果。尤其相比一些在1kbps上下的其他模型,TAAE以更低比特率、更少token数量达到了更佳的主客观指标。这一点在下表(文档中示例的表格略见端倪)得以体现:
- TAAE在700bps时,SI-SDR可达4.73左右,PESQ和MUSHRA得分也相对较高。
- EnCodec、DAC或者Mimi等模型虽然在高比特率下音质不错,但其在超低比特率(如700bps及以下)时,往往音质有明显下降。
5.2 模型规模化带来的收益
作者针对不同参数量(约2.5亿、5亿和10亿)的TAAE进行了对比试验。结果显示:增大模型规模,可以线性或甚至超线性地提升语音重建效果与压缩能力。 这与该论文所强调的“编解码器在现代生成式管线中仅占少部分参数量”这一思路高度吻合。也就是说,在现有的大模型系统中,适度提升编解码器的规模是可行的,并且带来的收益显著。
5.3 其他扩展结果
文档提及了对因果版本、其它语言支持及不同时长语音的适应性测试:
- 因果版TAAE:相较非因果版仅有小幅度性能损失,却具备实时流式应用能力。
- 多语言或跨语言测试:最初的英文数据训练模型在面对一些其他语言的测试集时,结果“优于或可比”某些多语言训练的基线。在低比特率下保持了相对稳健的解码质量,显示了模型一定程度上的跨语言泛化潜力。
- 不同音频时长:模型在更长或更短的语音段落上依旧维持了与训练时相似的重建质量,说明了Transformer注意力机制对变长输入的适应能力。
六、与现有研究的比较
在文档中,作者也回顾了其他音频编解码与生成技术的发展状况。其中,VQ-VAE家族(SoundStream, EnCodec, SpeechTokenizer等)和结合扩散模型或其他生成模型(如SemantiCodec,AudioLDM系列)成为对比重点。
- SoundStream/EnCodec类模型:主要依赖较多的卷积网络和分层RVQ,并在中高比特率(通常>1kbps)获得优质重建。
- 扩散式语谱图生成:如SemantiCodec或AudioLDM的(Mel-spectrogram→扩散→声码器Vocoder)流程,码率虽然可低至0.31kbps上下,但多步生成的时域失真问题仍待解决,而且依赖外部高质量vocoder以完成波形重建。
在这些工作里,TAAE的突出点在于直接在波形级完成压缩与重建,不需要额外的vocoder。再者,FSQ的使用也让作者得以简化多层VQ层叠带来的复杂性,便于后续生成式模型逐token进行推断。
七、局限性与未来展望
7.1 论文局限与未解决问题
尽管在超低比特率下取得了出色的语音重建质量,该模型在超宽带音乐或环境声等更复杂的音频维度上是否同样能保持高水准尚未完全证实。文档中提到频率越高或声学成分越丰富时,低比特率编码会遇到更大的挑战。此外,FSQ与大规模Transformer训练势必带来推断时的计算消耗,也需要在移动端或低算力场景仔细权衡。
7.2 未来工作方向
文档给出的一些思路包括:
- 进一步的因果结构优化:减少延迟、提升流式性能,使之能与实时交互需求对接。
- 拓展到多语种或跨模态:在扩充训练语料的同时,研究如何让音频编解码器与图像或文本生成模型更好地融合。
- 探索更低码率边界:作者在附录中提到曾尝试200bps,但训练较慢且效果明显下滑。或许改进网络结构后,仍有进一步冲击的可能性。
- 与自监督音频表示结合:文档提到与WavLM-Large等模型的整合,或许可以深化这类自监督预训练方法与NAC的跨模型协同。
八、总结
通过对论文“Scaling Transformers for Low-Bitrate High-Quality Speech Coding”及其提供的实验细节和架构说明,我们可以看到,大规模Transformer与FSQ相结合确实为极低比特率语音编码带来了新的可能性。它的核心理念在于:与其在编解码器段过度强调计算负载的限制,不如在当今大模型时代下适度提升编解码器自身的参数量与网络深度,从而获得更优的压缩率与音质平衡。这一思路与传统音频编码技术形成了鲜明的对比,也为后续研究提供了一个创新范式。
从结果上看,TAAE在400bps与700bps区间依旧能维持相对良好的语音信息保真度,客观测度(如SI-SDR、PESQ)与主观测度(MUSHRA)均达到了或逼近更高比特率模型的表现。同时,通过对比因果与非因果版本的结果,作者也进一步证明了实时性与高保真度之间并非不可兼顾。
然而,该论文仍然面临一些挑战,如极低码率下如何兼顾多语言或通用音频(包括音乐、环境声等),以及在硬件资源受限场合如何高效部署。尽管如此,本研究不失为一项对神经编解码器思路的大胆拓展,为未来大模型与神经音频标记化的结合指出了一条可行路径。随着代码和模型开源,学术和工业界将有机会共同验证它的适用性与可扩展性,也可能催生更多基于Transformer与FSQ的新一代音频编解码器。
综上所述,该论文的贡献主要在以下几个方面:
- 首次大规模地将Transformer应用于音频编解码主干结构,并将参数规模扩展至数亿乃至10亿量级,突破了先前主要依赖卷积或混合网络的限制。
- 提出了改进的有限标量量化(FSQ)方法,取代常用的RVQ以简化并行token流并提高码本利用率,且通过后训练的残差分解策略进一步增强了模型在极低码率下的压缩能力和生成质量。
- 实验证明其在400bps-700bps超低比特率区域既能保持较优的重建质量,也为生成式模型提供了紧凑而富含语义的离散token,适应多种下游场景。
- 开放式的研究视角:在附录中对因果模式、多语言适配、长短语音段处理的扩展分析为后续工作指明了方向。
对于有志于深入探索低比特率语音编解码技术的读者而言,这篇论文不仅是一份详实的技术报告,也是一次前瞻性的思维启示:当生成式AI逐渐左右语音处理领域的未来,编解码器的角色已不再局限于“压缩效率”这一点,而是成为了庞大多模态语音生成体系中的一环。如何在这个体系的“前端”环节里大幅提升建模能力,与后续的复杂生成器无缝衔接,正是该论文积极尝试并取得一定成果的重大贡献。
项目地址:github.com/Stability-AI/stable-codec
相关文章:

【论文学习】基于规模化Transformer模型的低比特率高质量语音编码
以下文章基于所提供的文档内容撰写,旨在对该论文“Scaling Transformers for Low-Bitrate High-Quality Speech Coding”进行较为系统和深入的分析与总结。 论文地址:https://arxiv.org/pdf/2411.19842 一、研究背景与动机 自20世纪70年代以来ÿ…...

Pretraining Language Models with Text-Attributed Heterogeneous Graphs
Pretraining Language Models with Text-Attributed Heterogeneous Graphs EMNLP 推荐指数:#paper/⭐⭐# 贡献: 我们研究了在更复杂的数据结构上预训练LM的问题,即,TAHG。与大多数只能从每个节点的文本描述中学习的PLM不同&…...
什么是将应用放在边缘服务器上创建?应用不是在用户手机上吗?边缘计算究竟如何优化?通过两个问题来辨析
元宇宙应用虽然可以在用户的手机等终端设备上运行,但大部分的计算和数据处理任务并不是完全在手机上完成的。元宇宙的运行需要庞大的计算资源和大量的数据交互,而这些是手机等终端设备难以独自承担的。因此,元宇宙应用需要借助边缘数据中心等…...

uni-app 系统学习,从入门到实战(二)—— 项目结构解析
全篇大概 2000 字(含代码),建议阅读时间 10min 一、UniApp 目录结构详解 UniApp 基于 Vue.js 开发,其目录结构遵循约定大于配置的原则,以下是一个标准项目的核心目录结构: pages # 页面目录(核…...
滴水逆向_引用_友元函数_运算符重载
作业: 运算符号重载实现。 struct Person { public:int x;int y; public:Person(){this->x 10;this->y 20;}Person(int x, int y){this->x x;this->y y;}//申明友元函数void Printf(const Person& p){printf("%d %d",p.x,p.y);}/…...

java医院多维度综合绩效考核源码,医院绩效管理系统,支持一键核算和批量操作,设有审核机制,允许数据修正
医院绩效考核管理系统,java医院绩效核算系统源码,采用多维度综合绩效考核的形式,针对院内实际情况分别对工作量、KPI指标、科研、教学、管理等进行全面考核。医院可结合实际需求,对考核方案中各维度进行灵活配置,对各维…...
科普:HTTP端口80和HTTPS端口443
你会发现,有的网址不带端口号,怎么回事? HTTP协议默认端口:HTTP协议的默认端口是80。当用户在浏览器中输入一个没有指定端口的以http://开头的网址时,浏览器会自动使用80端口与服务器建立连接,进行超文本数…...

uniapp打包生产证书上架IOS全流程
第一步:生成生产证书 上传CSR文件,windows系统电脑无法上传csr文件可以参考这个: windows下创建ios打包证书的详细流程_香蕉云编 下载生产证书 下载下来的cer生产证书在香蕉云编cer文件上传栏上传,然后生成p12文件 生成p12文件…...

山东大学软件学院nosql实验一环境配置
环境:前端vue后端springboot 软件环境: MongoDB MongoDBCompass 实验步骤与内容: 在官网下载安装包(最新版) 配置环境环境变量 在“高级系统设置-环境变量”中,可以将MongoDB添加到环境变量Path中(D:\…...

【2024 CSDN博客之星】大学四年,我如何在CSDN实现学业与事业的“双逆袭”?
前言: Hello大家好,我是Dream。不知不觉2024年已经过去,自己也马上迈入23岁,感慨时间飞快,从19岁刚入大学加入CSDN,到现在大学毕业已经整整四年了。CSDN陪伴我走过了最青涩的四年大学时光,在这里…...

【Windows 同时安装 MySQL5 和 MySQL8 - 详细图文教程】
目录 建议 8.0的版本用图形化工具安装 0.下载 1.安装 2.配置环境变量 1. 下载 mysql8.0 和 mysql5.7的压缩包 2. 解压到本地 3. 安装MySQL8.xx.xx 第一步 配置环境变量 第二步 新建配置文件 第三步 MySQL 数据库初始化 第四步 临时密码 第五步 安装并开启mysql80服…...

[Python学习日记-83] 操作系统的介绍
[Python学习日记-83] 操作系统的介绍 简介 操作系统介绍 简介 本篇开始我们要学习网络编程的进阶知识,即并发编程(多进程编程),从字面意思可以看出,进程就是正在执行的一个过程,也就是说进程是对正在运行…...

软考——WWW与HTTP
1.万维网(world wide web) 是一个规模巨大的、可以资源互联的资料空间。由URL进行定位,通过HTTP协议传送给使用者,又由HTML来进行文件的展现。 它的主要组成部分是:URL、HTTP、HTML。 (1)URL…...
算法-数据结构-图-邻接表构建
邻接表的基本概念 顶点(Vertex): 图中的每个顶点用一个节点表示。 每个顶点存储一个链表或数组,用于记录与该顶点直接相连的其他顶点。 边(Edge): 如果顶点 A 和顶点 B 之间有一条边…...

Docker(Nginx)部署Vue
简介:目标使用docker将vue生成的dist文件,结合nginx生成镜像,然后运行; 1、首选确保vue项目正确运行,并能正确打包dist文件; 2、查看已经生成的dist文件 3、将dist文件打包为rar文件或者zip文件…...

ubuntu22.04的docker容器中安装ssh服务
ubuntu22.04的docker容器中安装ssh服务,以便外部可以连接到容器中操作。 rootnode15:~# cat /etc/issue Ubuntu 22.04.5 LTS \n \l rootnode15:~# docker ps|grep qwen 7d3c36c37d36 vllm/vllm-openai:v0.7.3 "python3 -m …...
卷积这个词在卷积神经网络中应该怎么理解
卷积的定义 数学概念: 在数学上,卷积是一种操作,通常用于两个函数之间的运算。对于图像处理而言,这些函数通常是输入图像和一个称为“卷积核”或“滤波器”的小矩阵。 在CNN中的应用: 卷积操作是通过滑动窗口…...
设计模式教程:迭代器模式(Iterator Pattern)
迭代器模式(Iterator Pattern)是设计模式中的一种行为型模式,它允许顺序访问一个集合对象中的元素,而无需暴露集合对象的内部结构。换句话说,迭代器模式提供了一个方法,能让你遍历集合中的元素,…...

C语言学习【1】C语言关于寄存器的封装
目录 1.封装寄存的C语言的语法volatile:unsigned int:*pGpiobOdrvolatile unsigned int * 2.进一步C语言的封装 在嵌入式中,底层一定是操作寄存器,我有一个理念,凡事一定要想清楚,把任何知识点融入自己的理解之中&…...
鸿蒙app 开发中的 == 和 === 的区别
在鸿蒙 App 开发中,如果你使用 JavaScript 或 TypeScript 进行编码, 和 是用于比较值的运算符,它们的主要区别在于比较的严格程度,下面为你详细介绍: 1. (宽松相等运算符) 比较规则࿱…...

C++实现分布式网络通信框架RPC(3)--rpc调用端
目录 一、前言 二、UserServiceRpc_Stub 三、 CallMethod方法的重写 头文件 实现 四、rpc调用端的调用 实现 五、 google::protobuf::RpcController *controller 头文件 实现 六、总结 一、前言 在前边的文章中,我们已经大致实现了rpc服务端的各项功能代…...

树莓派超全系列教程文档--(61)树莓派摄像头高级使用方法
树莓派摄像头高级使用方法 配置通过调谐文件来调整相机行为 使用多个摄像头安装 libcam 和 rpicam-apps依赖关系开发包 文章来源: http://raspberry.dns8844.cn/documentation 原文网址 配置 大多数用例自动工作,无需更改相机配置。但是,一…...
pam_env.so模块配置解析
在PAM(Pluggable Authentication Modules)配置中, /etc/pam.d/su 文件相关配置含义如下: 配置解析 auth required pam_env.so1. 字段分解 字段值说明模块类型auth认证类模块,负责验证用户身份&am…...

页面渲染流程与性能优化
页面渲染流程与性能优化详解(完整版) 一、现代浏览器渲染流程(详细说明) 1. 构建DOM树 浏览器接收到HTML文档后,会逐步解析并构建DOM(Document Object Model)树。具体过程如下: (…...
OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别
OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别 直接训练提示词嵌入向量的核心区别 您提到的代码: prompt_embedding = initial_embedding.clone().requires_grad_(True) optimizer = torch.optim.Adam([prompt_embedding...

IoT/HCIP实验-3/LiteOS操作系统内核实验(任务、内存、信号量、CMSIS..)
文章目录 概述HelloWorld 工程C/C配置编译器主配置Makefile脚本烧录器主配置运行结果程序调用栈 任务管理实验实验结果osal 系统适配层osal_task_create 其他实验实验源码内存管理实验互斥锁实验信号量实验 CMISIS接口实验还是得JlINKCMSIS 简介LiteOS->CMSIS任务间消息交互…...

QT: `long long` 类型转换为 `QString` 2025.6.5
在 Qt 中,将 long long 类型转换为 QString 可以通过以下两种常用方法实现: 方法 1:使用 QString::number() 直接调用 QString 的静态方法 number(),将数值转换为字符串: long long value 1234567890123456789LL; …...

基于TurtleBot3在Gazebo地图实现机器人远程控制
1. TurtleBot3环境配置 # 下载TurtleBot3核心包 mkdir -p ~/catkin_ws/src cd ~/catkin_ws/src git clone -b noetic-devel https://github.com/ROBOTIS-GIT/turtlebot3.git git clone -b noetic https://github.com/ROBOTIS-GIT/turtlebot3_msgs.git git clone -b noetic-dev…...

免费PDF转图片工具
免费PDF转图片工具 一款简单易用的PDF转图片工具,可以将PDF文件快速转换为高质量PNG图片。无需安装复杂的软件,也不需要在线上传文件,保护您的隐私。 工具截图 主要特点 🚀 快速转换:本地转换,无需等待上…...
NPOI操作EXCEL文件 ——CAD C# 二次开发
缺点:dll.版本容易加载错误。CAD加载插件时,没有加载所有类库。插件运行过程中用到某个类库,会从CAD的安装目录找,找不到就报错了。 【方案2】让CAD在加载过程中把类库加载到内存 【方案3】是发现缺少了哪个库,就用插件程序加载进…...