当前位置：首页 > news >正文

音频入门（二）：音频数据增强

news 2025/7/14 18:53:50

本文介绍了一些常见的音频数据增强方法，并给出了代码实现。

一、简介

二、代码

1. 安装必要的库

2. 代码

3. 各函数的介绍

4. 使用方法

参考：

一、简介

音频数据增强是机器学习和深度学习领域中用于改善模型性能和泛化能力的技术。

使用数据增强的好处有：

泛化能力：提高模型对未见数据的处理能力。
减少过拟合：通过增加数据多样性来降低训练误差。
模拟真实性：模拟现实世界中的音频变化。
提升鲁棒性：使模型对噪声和失真更加不敏感。
小数据集扩展：在数据量有限时增加有效样本。
性能提升：通常能提高模型的测试性能。
适应录音条件：适应不同的录音环境和设备。
半监督/无监督学习：增强未标记数据的利用。
可解释性：帮助理解模型决策。
跨领域应用：增强模型在不同领域的适用性。

二、代码

1. 安装必要的库

pip install librosa soundfile

2. 代码

这里介绍几种常用的数据增强，代码如下：


import librosa
import numpy as np
import soundfile as sf# 载入音频文件
def load_audio_file(file_path, sr=None):audio, sample_rate = librosa.load(file_path, sr=sr)return audio, sample_rate# 时间拉伸
def time_stretch(audio, rate):return librosa.effects.time_stretch(audio, rate=rate)# 音高变换
def pitch_shift(audio, sample_rate, n_steps):return librosa.effects.pitch_shift(audio, sr=sample_rate, n_steps=n_steps)# 添加噪声
def add_noise(audio, noise_factor):noise = np.random.normal(0, 1, audio.shape)noisy_audio = audio + noise_factor * noisereturn noisy_audio# 保存音频
def save_audio(file_path, audio, sample_rate):sf.write(file_path, audio, sample_rate)

3. 各函数的介绍

load_audio_file(file_path, sr=None)：
- 载入指定路径 file_path 的音频文件。
- sr 参数用于指定音频的采样率（sampling rate）。如果未指定，将使用原始音频文件的采样率。
- 返回音频信号 audio 和其采样率 sample_rate。
time_stretch(audio, rate)：
- 对音频信号 audio 进行时间拉伸，改变其持续时间而不改变音高。
- rate 参数控制拉伸的程度，例如 rate=1.2 表示音频播放速度提高到原来的1.2倍。
pitch_shift(audio, sample_rate, n_steps)：
- 对音频信号 audio 进行音高变换，改变音高而不改变播放速度。
- sample_rate 是音频的采样率。
- n_steps 是半音阶的步长，正值表示提高音高，负值表示降低音高。
add_noise(audio, noise_factor)：
- 向音频信号 audio 添加高斯噪声。
- noise_factor 参数控制噪声的强度，较大的值会导致更多的噪声被添加到音频中。
save_audio(file_path, audio, sample_rate)：
- 将处理后的音频信号 audio 保存到文件 file_path。
- sample_rate 是音频的采样率，确保保存的音频文件具有正确的采样率。

4. 使用方法

使用上述的函数可以创建一个音频增强的pipeline，以提高音频分类模型的泛化能力和鲁棒性，以下是一个简单的使用pipeline：

# 加载音频文件
audio_path = 'path_to_your_audio_file.wav'
audio, sr = load_audio_file(audio_path)# 时间拉伸：播放速度提高20%
stretched_audio = time_stretch(audio, rate=1.2)# 音高变换：降低半音
pitch_shifted_audio = pitch_shift(audio, sr, n_steps=-1)# 添加噪声：噪声强度为原始音频幅度的0.01倍
noisy_audio = add_noise(audio, noise_factor=0.01)# 保存增强后的音频
save_audio('enhanced_audio.wav', stretched_audio, sr)
save_audio('pitch_shifted_audio.wav', pitch_shifted_audio, sr)
save_audio('noisy_audio.wav', noisy_audio, sr)

增强后的音频，可以用于音频分类/声纹识别等模型的训练中，比如我们上一篇博客《音频入门（一）：音频基础知识与分类的基本流程》中介绍的音频分类算法，就可以使用这些增强的数据来提高模型的泛化能力：

数据增强使得模型能够学习到在不同条件下音频特征的一致性，从而提高其对新情况的适应能力。
数据增强使模型在训练过程中接触到各种扰动，迫使模型学习到更加鲁棒的特征表示，这些特征与音频的本质属性相关，而不受具体录音条件的影响。
当原始数据集较小或包含的样本多样性不足时，模型可能会学习到数据中的特定噪声或异常值，导致过拟合。数据增强通过增加样本数量和多样性，帮助模型捕捉到更一般化的特征。
现实世界中的音频记录会受到多种因素的影响，如背景噪声、不同的录音设备和环境。增强后的音频更贴近真实世界的复杂性，使模型在面对实际应用时更加稳定。
通过增强技术，模型学习到的类内样本的分布更加紧凑，减少了类内方差，有助于模型更好地区分不同类别。
增强后的样本可能在特征空间中分布得更广，有助于增加不同类别之间的距离，从而提高分类的准确性。
数据增强有助于模型学习到更加清晰和准确的决策边界，使得模型在面对边缘样本或困难样本时，能够做出更准确的分类决策。
数据增强有助于模型学习到更加清晰和准确的决策边界，使得模型在面对边缘样本或困难样本时，能够做出更准确的分类决策。

5. 增强效果可视化

原始音频（两通道）：

增强后的音频（单通道）：

参考：

1. Librosa： https://librosa.org/

2. python-soundfile — python-soundfile 0.11.0 documentation

音频入门（二）：音频数据增强

本文介绍了一些常见的音频数据增强方法，并给出了代码实现。目录一、简介二、代码 1. 安装必要的库 2. 代码 3. 各函数的介绍 4. 使用方法参考： 一、简介音频数据增强是机器学习和深度学习领域中用于改善模型性能和泛化能力的技术。使用数据…...

编程日记 2025/1/23 16:17:39

MySQL管理事务处理

目录 1、事务处理是什么 2、控制事务处理 （1）事务的开始和结束 （2）回滚事务 （3）使用COMMIT （4）使用保留点 （5）结合存储过程的完整事务例子 3、小结 …...

编程日记 2025/1/23 16:14:36

MySQL数值型函数详解

简介本文主要讲解MySQL数值型函数，包括：ROUND、RAND、ABS、MOD、TRUNCATE、CEIL、CEILING、FLOOR、POW、POWER、SQRT、LOG、LOG2、LOG10、SIGN、PI。本文所有示例中，双横杠左边为执行的SQL语句，右边为执行语句的返回值。 ROU…...

编程日记 2025/1/23 16:13:35

54.DataGrid数据框图 C#例子 WPF例子

首先是绑定一个属性，属性名称无所谓。到时候看属性设置的啥，可能要改。 <DataGrid ItemsSource"{Binding Index_instance}"/> 然后创建INotifyPropertyChanged的类，并把相关固定的代码粘贴上去。然后把这个目录类建好&am…...

编程日记 2025/1/23 16:12:31

总结6..

背包问题的解决过程在解决问题之前，为描述方便，首先定义一些变量：Vi表示第 i 个物品的价值，Wi表示第 i 个物品的体积，定义V(i,j)：当前背包容量 j，前 i 个物品最佳组合对应的价值，同…...

编程日记 2025/1/23 16:11:29

复位信号的同步与释放（同步复位、异步复位、异步复位同步释放）

文章目录背景前言一、复位信号的同步与释放1.1 同步复位1.1.1 综述1.1.2 优缺点 1.2 recovery time和removal time1.3 异步复位1.3.1 综述1.3.2 优缺点 1.4 同步复位与异步复位1.5 异步复位、同步释放1.5.1 总述1.5.2 机理1.5.3 复位网络二、思考与补充2.1 复…...

编程日记 2025/1/23 16:09:25

Gartner发布2025年网络治理、风险与合规战略路线图

新型网络风险和合规义务，日益成为网络治理、风险与合规实践面临的问题。安全和风险管理领导者可以参考本文，实现从被动、专注于合规的方法到主动、进一步自动化方法的转型。主要发现不断变化的监管环境和不断扩大的攻击面，使企业机构难以实…...

编程日记 2025/1/23 16:08:24

基于STM32的智能空气质量监测与净化系统设计

目录引言系统设计硬件设计软件设计系统功能模块空气质量检测模块自动净化模块数据显示与用户交互模块远程监控与数据上传模块控制算法空气质量检测与判断算法净化设备控制算法数据记录与远程反馈算法代码实现空气质量检测与显示代码自动净化与调节代码数据上传与远程控…...

编程日记 2025/1/23 16:06:21

人工智能之数学基础：线性代数中的线性相关和线性无关

本文重点在线性代数的广阔领域中，线性相关与线性无关是两个核心概念，它们对于理解向量空间、矩阵运算、线性方程组以及人工智能等问题具有至关重要的作用。定义与直观理解当存在一组不全为0的数x1，x2，...,xn使得上式成立的时候，那么此时我们可以说向量组a1，a2...,an…...

编程日记 2025/1/23 16:04:19

08 工欲善其事必先利其器—常用类

1 字符串相关 1.1 String 所属包：java.lang 代表不可变的字符序列注意：Java中，String是一个final类 1）创建字符串方式 String a "hello"; // 开辟内存空间 String b new String("hello"); String d…...

编程日记 2025/1/23 16:02:17

Redis实战-初识Redis

初识Redis 1、Redis简介2、 Redis数据结构简介3、 Redis命令3.1 字符串3.2 列表3.3 集合3.4 散列3.5 有序集合3.6 发布与订阅3.7 其他命令3.7.1 排序3.7.2 过期时间如有侵权，请联系～ 如有错误，也欢迎批评指正～ 本篇文章大部分是来…...

编程日记 2025/1/23 16:00:14

spring boot中实现手动分页

手动分页 UserMapper.xml <?xml version"1.0" encoding"UTF-8"?> <!DOCTYPE mapper PUBLIC "-//mybatis.org//DTD Mapper 3.0//EN" "http://mybatis.org/dtd/mybatis-3-mapper.dtd" > <mapper namespace"cn.m…...

编程日记 2025/1/23 15:59:09

【优选算法】5----有效三角形个数

又是一篇算法题，今天早上刚做的热乎的~ 其实我是想写博客但不知道写些什么（就水一下啦） -------------------------------------begin----------------------------------------- 题目解析: 这道题的题目算是最近几道算法题里面题目最短的&a…...

编程日记 2025/1/23 15:58:05

改进于文宇炽筱_潜水 c版的打字效果_c自动打字-CSDN博客https://blog.csdn.net/2401_84159494/article/details/141023898?ops_request_misc%257B%2522request%255Fid%2522%253A%25227f97863ddc9d1b2ae9526f45765b1744%2522%252C%2522scm%2522%253A%252220140713.1301023…...

编程日记 2025/1/23 15:56:02

UML-对象图（Object Diagram）

一、定义 UML对象图用于描述系统中对象的状态和相互关系，是类图的一个实例化版本，主要展示了类图中定义的关系在特定时间点的实际体现。它帮助开发者在设计阶段理解对象之间的实际关系、属性值和状态，从而支持系统设计的准确性与有效性。二、组成要素 UML对象图主要由以…...

编程日记 2025/1/23 15:45:51

Jmeter 动态参数压力测试时间段预定接口

🎯 本文档详细介绍了如何使用Apache JMeter进行压力测试，以评估预定接口在高并发场景下的性能表现。通过创建线程组模拟不同数量的用户并发请求，利用CSV文件动态配置时间段ID和用户token，确保了测试数据的真实性和有效性。文档中还…...

编程日记 2025/1/23 15:44:49

超大型集团合并报表数智管理转型

摘要：数字经济时代，数字化技术已成为驱动财务管理价值释放的重要引擎，数智化能力的提升是当前一流财务信息化建设的最新趋势。财务部门是企业的“数据交汇中心”和“信息加工中心”，通过对企业各项财务数据的分类、汇总和清晰呈现…...

编程日记 2025/1/23 15:40:45

[MCAL]Mcu配置

PostBuild: PreCompile: 选择时钟来源； 选择初始McuInitClock() 函数电路手册里有晶振频率，如上所示；...

编程日记 2025/1/23 15:38:41

Qt基础项目篇——Qt版Word字处理软件

一、核心功能本软件为多文档型程序，界面是标准的 Windows 主从窗口拥有：主菜单、工具栏、文档显示区和状态栏。所要实现的东西，均在下图了。开发该软件，主要分为下面三个阶段 1）界面设计开发多窗口 MDI 程序…...

编程日记 2025/1/23 15:37:39

边缘计算医疗风险自查APP开发方案

核心目标：在便携设备（智能手表/家用检测仪）部署轻量化疾病预测模型，实现低延迟、隐私安全的实时健康风险评估。一、技术架构设计 #mermaid-svg-iuNaeeLK2YoFKfao {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg…...

编程新知 2025/7/12 12:01:45

Linux相关概念和易错知识点（42）（TCP的连接管理、可靠性、面临复杂网络的处理）

目录 1.TCP的连接管理机制（1）三次握手①握手过程②对握手过程的理解 （2）四次挥手（3）握手和挥手的触发（4）状态切换①挥手过程中状态的切换②握手过程中状态的切换 2.TCP的可靠性&…...

编程新知 2025/7/13 11:53:51

在 Nginx Stream 层“改写”MQTT ngx_stream_mqtt_filter_module

1、为什么要修改 CONNECT 报文？ 多租户隔离：自动为接入设备追加租户前缀，后端按 ClientID 拆分队列。零代码鉴权：将入站用户名替换为 OAuth Access-Token，后端 Broker 统一校验。灰度发布：根据 IP/地理位写…...

编程新知 2025/6/27 14:22:50

镜像里切换为普通用户

如果你登录远程虚拟机默认就是 root 用户，但你不希望用 root 权限运行 ns-3（这是对的，ns3 工具会拒绝 root），你可以按以下方法创建一个非 root 用户账号并切换到它运行 ns-3。一次性解决方案：创建非 roo…...

编程新知 2025/7/12 10:16:37

C# 类和继承(抽象类)

抽象类抽象类是指设计为被继承的类。抽象类只能被用作其他类的基类。不能创建抽象类的实例。抽象类使用abstract修饰符声明。抽象类可以包含抽象成员或普通的非抽象成员。抽象类的成员可以是抽象成员和普通带实现的成员的任意组合。抽象类自己可以派生自另一个抽象类。例…...

编程新知 2025/7/12 21:20:12

【python异步多线程】异步多线程爬虫代码示例

claude生成的python多线程、异步代码示例，模拟20个网页的爬取，每个网页假设要0.5-2秒完成。代码 Python多线程爬虫教程核心概念多线程：允许程序同时执行多个任务，提高IO密集型任务（如网络请求）的效率…...

编程新知 2025/7/6 2:44:56

Java入门学习详细版（一）

大家好，Java 学习是一个系统学习的过程，核心原则就是“理论实践坚持”，并且需循序渐进，不可过于着急，本篇文章推出的这份详细入门学习资料将带大家从零基础开始，逐步掌握 Java 的核心概念和编程技能。 …...

编程新知 2025/7/10 17:02:29

Android 之 kotlin 语言学习笔记三（Kotlin-Java 互操作）

参考官方文档：https://developer.android.google.cn/kotlin/interop?hlzh-cn 一、Java（供 Kotlin 使用） 1、不得使用硬关键字不要使用 Kotlin 的任何硬关键字作为方法的名称或字段。允许使用 Kotlin 的软关键字、修饰符关键字和特殊标识…...

编程新知 2025/7/12 15:59:41

三分算法与DeepSeek辅助证明是单峰函数

前置单峰函数有唯一的最大值，最大值左侧的数值严格单调递增，最大值右侧的数值严格单调递减。单谷函数有唯一的最小值，最小值左侧的数值严格单调递减，最小值右侧的数值严格单调递增。三分的本质三分和二分一样都是通过不断缩…...

编程新知 2025/7/14 0:41:18

PHP 8.5 即将发布：管道操作符、强力调试

前不久，PHP宣布了即将在 2025 年 11 月 20 日正式发布的 PHP 8.5！作为 PHP 语言的又一次重要迭代，PHP 8.5 承诺带来一系列旨在提升代码可读性、健壮性以及开发者效率的改进。而更令人兴奋的是，借助强大的本地开发环境 ServBay&am…...

编程新知 2025/7/9 7:27:47

音频入门（二）：音频数据增强

一、简介

二、代码

1. 安装必要的库

2. 代码

3. 各函数的介绍

4. 使用方法

5. 增强效果可视化

参考：

相关文章：

音频入门（二）：音频数据增强

MySQL管理事务处理

MySQL数值型函数详解

54.DataGrid数据框图 C#例子 WPF例子

总结6..

复位信号的同步与释放（同步复位、异步复位、异步复位同步释放）

Gartner发布2025年网络治理、风险与合规战略路线图

基于STM32的智能空气质量监测与净化系统设计

人工智能之数学基础：线性代数中的线性相关和线性无关

08 工欲善其事必先利其器—常用类

Redis实战-初识Redis

spring boot中实现手动分页

【优选算法】5----有效三角形个数

C++打字模拟

最新版pycharm如何配置conda环境

UML-对象图（Object Diagram）

Jmeter 动态参数压力测试时间段预定接口

超大型集团合并报表数智管理转型

[MCAL]Mcu配置

Qt基础项目篇——Qt版Word字处理软件

边缘计算医疗风险自查APP开发方案

Linux相关概念和易错知识点（42）（TCP的连接管理、可靠性、面临复杂网络的处理）

在 Nginx Stream 层“改写”MQTT ngx_stream_mqtt_filter_module

镜像里切换为普通用户

C# 类和继承(抽象类)

【python异步多线程】异步多线程爬虫代码示例

Java入门学习详细版（一）

Android 之 kotlin 语言学习笔记三（Kotlin-Java 互操作）

三分算法与DeepSeek辅助证明是单峰函数

PHP 8.5 即将发布：管道操作符、强力调试