当前位置：首页 > news >正文

nnAudio的简单介绍

news 2026/2/9 19:58:39

官方实现
https://github.com/KinWaiCheuk/nnAudio；

论文实现：
nnAudio: An on-the-Fly GPU Audio to Spectrogram Conversion Toolbox Using 1D Convolutional Neural Networks；

以下先对文章解读：

abstract

在本文中，我们提出了nnAudio，这是一种新的基于神经网络的音频处理框架，具有图形处理单元（GPU）支持，利用1D卷积神经网络执行时域到频域转换。由于速度快，它允许实时提取光谱图，而无需在磁盘上存储任何光谱图。此外，这种方法还允许在波形到谱图转换层上进行反向传播，因此，转换过程可以进行训练，从而进一步优化神经网络所训练的特定任务的波形到谱线图转换。

所有谱线图实现都按输入长度的线性时间的Big-O缩放。然而，nnAudio利用了PyTorch的一维卷积神经网络的计算统一设备架构（CUDA），其短时傅里叶变换（STFT）、梅尔谱图和常数Q变换（CQT）实现比仅使用中央处理单元（CPU）的其他实现快了一个数量级。我们使用NVIDIA GPU在三台不同的机器上测试了我们的框架，考虑到录音长度相同，我们的框架将谱图提取时间从几秒（使用流行的python库librosa）减少到几毫秒。当将nnAudio应用于可变输入音频长度时，使用librosa从MusicNet数据集中提取具有不同参数的34种谱图类型平均需要11.5小时。nnAudio平均需要2.8小时，速度仍然是librosa的四倍。我们提出的框架在处理速度方面也优于现有的GPU处理库，如Kapre和Torchaudio。

1. introduction

自20世纪80年代以来，光谱作为音频信号的时频表示，一直被用作神经网络模型的输入[1-3]。不同类型的光谱图针对不同的应用进行定制。例如，Mel频谱图和Mel频率倒谱系数（MFCC）是为语音相关应用设计的[4，5]，而常数Q变换最适合音乐相关应用[6，7]。尽管最近在音频领域的端到端学习方面取得了进展，如WaveNet[8]和SampleCNN[9]，这使得对原始音频数据进行模型训练成为可能，但许多最近的出版物仍然使用声谱图作为各种应用的模型的输入[10]。这些应用包括语音识别[11，12]、语音情感检测[13]、语音到语音翻译[14]、语音增强[15]、语音分离[16]、歌声转换[17]、音乐标记[18]、覆盖检测[19]、旋律提取[20]和复调音乐转录[21]。在原始音频数据上训练端到端模型的一个缺点是训练时间较长。

本文的主要贡献是开发了一种基于GPU的音频处理框架，该框架直接集成到神经网络中并利用了神经网络的力量。这提供了以下好处：

1）使用动态时频转换层进行端到端神经网络训练（即，可以直接使用原始波形作为神经网络的输入）。

2）与ibrosa[23]等传统音频处理方法相比，处理速度明显更快。

3）基于可以在GPU上运行的神经网络的CQT算法（在撰写本文时，没有可以在GPU中运行的基于神经网络的CQT算法。）

4）可训练的傅立叶、梅尔和CQT内核，可以根据手头的问题自动调整。

比较（A）：现有（慢速）方法[32-40]和（b）：我们提出的（如图11a所示快得多）基于神经网络的音频处理框架（nnAudio）的流程图。我们提出的神经网络以黄色突出显示。我们现在可以直接将波形前馈到神经网络，而不是对波形进行预处理，并且可以在训练过程中动态生成频谱图。红色箭头表示反向传播ŞL可以走多远，这允许在训练期间对初始化的内核进行微调，从而产生专门定制的新表示。

在下面的小节中，我们将简要总结离散傅立叶变换（DFT）的数学原理。

然后，我们将讨论如何初始化神经网络来执行第II节中的STFT、Mel谱图和常数Q变换（CQT）。

在第四节中，我们比较了nnAudio与流行的python信号处理库librosa的速度和输出。最后，我们介绍了我们库的潜在应用。

nnAudio的简单介绍

abstract

1. introduction

2. signal processing:

相关文章：

nnAudio的简单介绍

【id:134】【20分】B. 求最大值最小值（引用）

Java 面向对象

五、传输层

Thinkphp 6.0一对一关联查询

基于51单片机的自动打铃打鸣作息报时系统AT89C51数码管三极管时钟电路

算法详解-双指针算法的魅力-一种简单而高效的编程思想

网页审查元素

gpt2 adapter finetune

Day14_文件操作

leetcode 轮转数组 189

Leetcode.1849 将字符串拆分为递减的连续值

Android布局层级过深为什么会对性能有影响？为什么Compose没有布局嵌套问题？

【UR机械臂CB3 网络课程】

dp-统计字典序元音字符串的数目

LFM雷达实现及USRP验证【章节3：连续雷达测距测速】

COLMAP多视角视图数据可视化

2023年全国最新高校辅导员精选真题及答案36

ThreeJS-全屏和退出全屏、自适应大小(五)

等级保护2.0要求及所需设备清单

前端倒计时误差!

使用分级同态加密防御梯度泄漏

k8s业务程序联调工具-KtConnect

深入解析C++中的extern关键字：跨文件共享变量与函数的终极指南

如何在最短时间内提升打ctf（web)的水平？

华硕a豆14 Air香氛版，美学与科技的馨香融合

七、数据库的完整性

莫兰迪高级灰总结计划简约商务通用PPT模版

并发编程 - go版

NPOI Excel用OLE对象的形式插入文件附件以及插入图片