音频入门(二):音频数据增强
本文介绍了一些常见的音频数据增强方法,并给出了代码实现。
目录
一、简介
二、代码
1. 安装必要的库
2. 代码
3. 各函数的介绍
4. 使用方法
参考:
一、简介
音频数据增强是机器学习和深度学习领域中用于改善模型性能和泛化能力的技术。
使用数据增强的好处有:
- 泛化能力:提高模型对未见数据的处理能力。
- 减少过拟合:通过增加数据多样性来降低训练误差。
- 模拟真实性:模拟现实世界中的音频变化。
- 提升鲁棒性:使模型对噪声和失真更加不敏感。
- 小数据集扩展:在数据量有限时增加有效样本。
- 性能提升:通常能提高模型的测试性能。
- 适应录音条件:适应不同的录音环境和设备。
- 半监督/无监督学习:增强未标记数据的利用。
- 可解释性:帮助理解模型决策。
- 跨领域应用:增强模型在不同领域的适用性。
二、代码
1. 安装必要的库
pip install librosa soundfile
2. 代码
这里介绍几种常用的数据增强,代码如下:
import librosa
import numpy as np
import soundfile as sf# 载入音频文件
def load_audio_file(file_path, sr=None):audio, sample_rate = librosa.load(file_path, sr=sr)return audio, sample_rate# 时间拉伸
def time_stretch(audio, rate):return librosa.effects.time_stretch(audio, rate=rate)# 音高变换
def pitch_shift(audio, sample_rate, n_steps):return librosa.effects.pitch_shift(audio, sr=sample_rate, n_steps=n_steps)# 添加噪声
def add_noise(audio, noise_factor):noise = np.random.normal(0, 1, audio.shape)noisy_audio = audio + noise_factor * noisereturn noisy_audio# 保存音频
def save_audio(file_path, audio, sample_rate):sf.write(file_path, audio, sample_rate)
3. 各函数的介绍
-
load_audio_file(file_path, sr=None):- 载入指定路径
file_path的音频文件。 sr参数用于指定音频的采样率(sampling rate)。如果未指定,将使用原始音频文件的采样率。- 返回音频信号
audio和其采样率sample_rate。
- 载入指定路径
-
time_stretch(audio, rate):- 对音频信号
audio进行时间拉伸,改变其持续时间而不改变音高。 rate参数控制拉伸的程度,例如rate=1.2表示音频播放速度提高到原来的1.2倍。
- 对音频信号
-
pitch_shift(audio, sample_rate, n_steps):- 对音频信号
audio进行音高变换,改变音高而不改变播放速度。 sample_rate是音频的采样率。n_steps是半音阶的步长,正值表示提高音高,负值表示降低音高。
- 对音频信号
-
add_noise(audio, noise_factor):- 向音频信号
audio添加高斯噪声。 noise_factor参数控制噪声的强度,较大的值会导致更多的噪声被添加到音频中。
- 向音频信号
-
save_audio(file_path, audio, sample_rate):- 将处理后的音频信号
audio保存到文件file_path。 sample_rate是音频的采样率,确保保存的音频文件具有正确的采样率。
- 将处理后的音频信号
4. 使用方法
使用上述的函数可以创建一个音频增强的pipeline,以提高音频分类模型的泛化能力和鲁棒性,以下是一个简单的使用pipeline:
# 加载音频文件
audio_path = 'path_to_your_audio_file.wav'
audio, sr = load_audio_file(audio_path)# 时间拉伸:播放速度提高20%
stretched_audio = time_stretch(audio, rate=1.2)# 音高变换:降低半音
pitch_shifted_audio = pitch_shift(audio, sr, n_steps=-1)# 添加噪声:噪声强度为原始音频幅度的0.01倍
noisy_audio = add_noise(audio, noise_factor=0.01)# 保存增强后的音频
save_audio('enhanced_audio.wav', stretched_audio, sr)
save_audio('pitch_shifted_audio.wav', pitch_shifted_audio, sr)
save_audio('noisy_audio.wav', noisy_audio, sr)
增强后的音频,可以用于音频分类/声纹识别等模型的训练中,比如我们上一篇博客《音频入门(一):音频基础知识与分类的基本流程》中介绍的音频分类算法,就可以使用这些增强的数据来提高模型的泛化能力:
- 数据增强使得模型能够学习到在不同条件下音频特征的一致性,从而提高其对新情况的适应能力。
- 数据增强使模型在训练过程中接触到各种扰动,迫使模型学习到更加鲁棒的特征表示,这些特征与音频的本质属性相关,而不受具体录音条件的影响。
- 当原始数据集较小或包含的样本多样性不足时,模型可能会学习到数据中的特定噪声或异常值,导致过拟合。数据增强通过增加样本数量和多样性,帮助模型捕捉到更一般化的特征。
- 现实世界中的音频记录会受到多种因素的影响,如背景噪声、不同的录音设备和环境。增强后的音频更贴近真实世界的复杂性,使模型在面对实际应用时更加稳定。
- 通过增强技术,模型学习到的类内样本的分布更加紧凑,减少了类内方差,有助于模型更好地区分不同类别。
- 增强后的样本可能在特征空间中分布得更广,有助于增加不同类别之间的距离,从而提高分类的准确性。
- 数据增强有助于模型学习到更加清晰和准确的决策边界,使得模型在面对边缘样本或困难样本时,能够做出更准确的分类决策。
- 数据增强有助于模型学习到更加清晰和准确的决策边界,使得模型在面对边缘样本或困难样本时,能够做出更准确的分类决策。
5. 增强效果可视化
原始音频(两通道):

增强后的音频(单通道):



参考:
1. Librosa: https://librosa.org/
2. python-soundfile — python-soundfile 0.11.0 documentation
相关文章:
音频入门(二):音频数据增强
本文介绍了一些常见的音频数据增强方法,并给出了代码实现。 目录 一、简介 二、代码 1. 安装必要的库 2. 代码 3. 各函数的介绍 4. 使用方法 参考: 一、简介 音频数据增强是机器学习和深度学习领域中用于改善模型性能和泛化能力的技术。 使用数据…...
MySQL管理事务处理
目录 1、事务处理是什么 2、控制事务处理 (1)事务的开始和结束 (2)回滚事务 (3)使用COMMIT (4)使用保留点 (5)结合存储过程的完整事务例子 3、小结 …...
MySQL数值型函数详解
简介 本文主要讲解MySQL数值型函数,包括:ROUND、RAND、ABS、MOD、TRUNCATE、CEIL、CEILING、FLOOR、POW、POWER、SQRT、LOG、LOG2、LOG10、SIGN、PI。 本文所有示例中,双横杠左边为执行的SQL语句,右边为执行语句的返回值。 ROU…...
54.DataGrid数据框图 C#例子 WPF例子
首先是绑定一个属性,属性名称无所谓。到时候看属性设置的啥,可能要改。 <DataGrid ItemsSource"{Binding Index_instance}"/> 然后创建INotifyPropertyChanged的类,并把相关固定的代码粘贴上去。 然后把这个目录类建好&am…...
总结6..
背包问题的解决过程 在解决问题之前,为描述方便,首先定义一些变量:Vi表示第 i 个物品的价值,Wi表示第 i 个物品的体积,定义V(i,j):当前背包容量 j,前 i 个物品最佳组合对应的价值,同…...
复位信号的同步与释放(同步复位、异步复位、异步复位同步释放)
文章目录 背景前言一、复位信号的同步与释放1.1 同步复位1.1.1 综述1.1.2 优缺点 1.2 recovery time和removal time1.3 异步复位1.3.1 综述1.3.2 优缺点 1.4 同步复位 与 异步复位1.5 异步复位、同步释放1.5.1 总述1.5.2 机理1.5.3 复位网络 二、思考与补充2.1 复…...
Gartner发布2025年网络治理、风险与合规战略路线图
新型网络风险和合规义务,日益成为网络治理、风险与合规实践面临的问题。安全和风险管理领导者可以参考本文,实现从被动、专注于合规的方法到主动、进一步自动化方法的转型。 主要发现 不断变化的监管环境和不断扩大的攻击面,使企业机构难以实…...
基于STM32的智能空气质量监测与净化系统设计
目录 引言系统设计 硬件设计软件设计 系统功能模块 空气质量检测模块自动净化模块数据显示与用户交互模块远程监控与数据上传模块 控制算法 空气质量检测与判断算法净化设备控制算法数据记录与远程反馈算法 代码实现 空气质量检测与显示代码自动净化与调节代码数据上传与远程控…...
人工智能之数学基础:线性代数中的线性相关和线性无关
本文重点 在线性代数的广阔领域中,线性相关与线性无关是两个核心概念,它们对于理解向量空间、矩阵运算、线性方程组以及人工智能等问题具有至关重要的作用。 定义与直观理解 当存在一组不全为0的数x1,x2,...,xn使得上式成立的时候,那么此时我们可以说向量组a1,a2...,an…...
08 工欲善其事必先利其器—常用类
1 字符串相关 1.1 String 所属包:java.lang 代表不可变的字符序列 注意:Java中,String是一个final类 1)创建字符串方式 String a "hello"; // 开辟内存空间 String b new String("hello"); String d…...
Redis实战-初识Redis
初识Redis 1、Redis简介2、 Redis数据结构简介3、 Redis命令3.1 字符串3.2 列表3.3 集合3.4 散列3.5 有序集合3.6 发布与订阅3.7 其他命令3.7.1 排序3.7.2 过期时间 如有侵权,请联系~ 如有错误,也欢迎批评指正~ 本篇文章大部分是来…...
spring boot中实现手动分页
手动分页 UserMapper.xml <?xml version"1.0" encoding"UTF-8"?> <!DOCTYPE mapper PUBLIC "-//mybatis.org//DTD Mapper 3.0//EN" "http://mybatis.org/dtd/mybatis-3-mapper.dtd" > <mapper namespace"cn.m…...
【优选算法】5----有效三角形个数
又是一篇算法题,今天早上刚做的热乎的~ 其实我是想写博客但不知道写些什么(就水一下啦) -------------------------------------begin----------------------------------------- 题目解析: 这道题的题目算是最近几道算法题里面题目最短的&a…...
C++打字模拟
改进于 文宇炽筱_潜水 c版的打字效果_c自动打字-CSDN博客https://blog.csdn.net/2401_84159494/article/details/141023898?ops_request_misc%257B%2522request%255Fid%2522%253A%25227f97863ddc9d1b2ae9526f45765b1744%2522%252C%2522scm%2522%253A%252220140713.1301023…...
最新版pycharm如何配置conda环境
首先在conda prompt里创建虚拟环境,比如 conda create --prefix E:/projects/myenv python3.8然后激活 conda activate E:/projects/myenv往里面安装点自己的包,比如 conda install pytorch1.7.1 torchvision0.8.2 -c pytorch打开pycharm 注意&#x…...
UML-对象图(Object Diagram)
一、定义 UML对象图用于描述系统中对象的状态和相互关系,是类图的一个实例化版本,主要展示了类图中定义的关系在特定时间点的实际体现。它帮助开发者在设计阶段理解对象之间的实际关系、属性值和状态,从而支持系统设计的准确性与有效性。 二、组成要素 UML对象图主要由以…...
Jmeter 动态参数压力测试时间段预定接口
🎯 本文档详细介绍了如何使用Apache JMeter进行压力测试,以评估预定接口在高并发场景下的性能表现。通过创建线程组模拟不同数量的用户并发请求,利用CSV文件动态配置时间段ID和用户token,确保了测试数据的真实性和有效性。文档中还…...
超大型集团合并报表数智管理转型
摘要:数字经济时代,数字化技术已成为驱动财务管理价值释放的重要引擎,数智化能力的提升是当前一流财务信息化建设的最新趋势。财务部门是企业的“数据交汇中心”和“信息加工中心”,通过对企业各项财务数据的分类、汇总和清晰呈现…...
[MCAL]Mcu配置
PostBuild: PreCompile: 选择时钟来源; 选择初始McuInitClock() 函数 电路手册里有晶振频率,如上所示;...
Qt基础项目篇——Qt版Word字处理软件
一、核心功能 本软件为多文档型程序,界面是标准的 Windows 主从窗口 拥有:主菜单、工具栏、文档显示区 和 状态栏。 所要实现的东西,均在下图了。 开发该软件,主要分为下面三个阶段 1)界面设计开发 多窗口 MDI 程序…...
Linux-特殊权限SUID,SGID,SBIT
SUIDSet UID:当字母s出现在文件拥有这的x权限位上的时候,例如/usr/bin/passwd这个文件的权限是[-rwsr-xr-x],此时就被称为Set UID,简称为SUID的特殊权限。SUID的权限有以下这样的功能和限制。SUID权限仅对二进制程序(binary progr…...
超越序列:让AI以“面向对象”的方式理解与规划物理世界
从下一个token预测到下一个对象预测,我们如何重新思考AI生成与机器人控制 引言:大模型的“顺序陷阱” 在人工智能领域,以GPT为代表的大语言模型通过预测下一个token(文本片段)的方式,展现了令人惊叹的文本理解和生成能力。然而,这种自回归生成范式本质上是一种顺序处理…...
从零设计一个AXI Master:手把手教你为Xilinx MIG DDR4控制器编写自定义测试逻辑
从零设计AXI Master:构建Xilinx DDR4控制器的定制化测试引擎 在FPGA开发领域,高效访问DDR4内存是提升系统性能的关键。本文将带您深入AXI总线协议的核心,通过Verilog/SystemVerilog实现一个功能完备的AXI Master模块,突破现成IP核…...
WarcraftHelper:让经典魔兽争霸3在现代电脑上完美运行的终极解决方案
WarcraftHelper:让经典魔兽争霸3在现代电脑上完美运行的终极解决方案 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 你是否还在为魔兽争霸…...
2025届必备的五大降AI率神器实测分析
Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 人工智能生成文本普及起来后,各种各样的AI检测系统被创造出来,为了应…...
实现鼠标滚轮在容器滚动到底部后无缝过渡到页面滚动
本文介绍如何通过 javascript 检测固定高度溢出容器的滚动边界,在用户滚至底部时立即触发页面滚动,消除原生行为中约1秒的延迟等待,实现平滑、无中断的滚动接力。 本文介绍如何通过 javascript 检测固定高度溢出容器的滚动边界ÿ…...
DDrawCompat:让经典软件重获新生的兼容性解决方案
DDrawCompat:让经典软件重获新生的兼容性解决方案 【免费下载链接】DDrawCompat DirectDraw and Direct3D 1-7 compatibility, performance and visual enhancements for Windows Vista, 7, 8, 10 and 11 项目地址: https://gitcode.com/gh_mirrors/dd/DDrawCompa…...
ThinkPad散热控制新境界:TPFanCtrl2全方位应用指南
ThinkPad散热控制新境界:TPFanCtrl2全方位应用指南 【免费下载链接】TPFanCtrl2 ThinkPad Fan Control 2 (Dual Fan) for Windows 10 and 11 项目地址: https://gitcode.com/gh_mirrors/tp/TPFanCtrl2 一、核心价值解析:为何选择TPFanCtrl2 突破…...
MaixinVoiceAI 3.0 助力高校后勤报修自动化
在校园规模不断扩大、后勤服务需求持续攀升的当下,报修服务已成为高校保障教学秩序、提升师生满意度、塑造校园管理口碑的关键环节。但现实中,高校后勤报修体系普遍面临诸多难题:报修渠道分散、响应不及时,师生需反复描述故障情况…...
【单片机】STM32晶振引脚不连晶振时的做法
STM32不使用外部晶振时,OSC_IN和 OSC_OUT接法:1、对于100脚或者144脚的产品,OSC_IN应接地,OSC_OUT应悬空;2、对于少于100脚的产品,有两种接法:OSC_IN和OSC_OUT分别通过10K电阻接地,此方法可提高…...
