当前位置: 首页 > article >正文

绘制音频信号的各种频谱图,包括Mel频谱图、STFT频谱图等。它不仅能够绘制频谱图librosa.display.specshow

`librosa.display.specshow` 是一个非常方便的函数,用于绘制音频信号的各种频谱图,包括Mel频谱图、STFT频谱图等。它不仅能够绘制频谱图,还能自动设置轴标签和刻度,使得生成的图像更加直观和易于理解。

### 函数签名
```python
librosa.display.specshow(data, x_coords=None, y_coords=None, x_axis=None, y_axis=None, sr=22050, hop_length=512, fmin=0, fmax=None, bins_per_octave=12, key='C:maj', ax=None, **kwargs)
```

### 参数说明
- **`data`**:二维数组,表示频谱数据。例如,`librosa.feature.melspectrogram` 或 `librosa.stft` 的输出。
- **`x_coords`**:一维数组,表示x轴的坐标。如果提供,`x_axis` 参数将被忽略。
- **`y_coords`**:一维数组,表示y轴的坐标。如果提供,`y_axis` 参数将被忽略。
- **`x_axis`**:字符串,指定x轴的类型。常见值包括:
  - `'time'`:时间轴(默认值)。
  - `'s'`:秒。
  - `'ms'`:毫秒。
  - `'lag'`:延迟轴。
  - `'lag_s'`:延迟轴(秒)。
  - `'lag_ms'`:延迟轴(毫秒)。
  - `'cqt_note'`:基于CQT的音符轴。
  - `'cqt_hz'`:基于CQT的频率轴。
  - `'chroma'`:音阶轴。
  - `'tonnetz'`:Tonnetz轴。
  - `'off'`:关闭x轴标签。
- **`y_axis`**:字符串,指定y轴的类型。常见值包括:
  - `'linear'`:线性频率轴(默认值)。
  - `'log'`:对数频率轴。
  - `'mel'`:Mel频率轴。
  - `'cqt_note'`:基于CQT的音符轴。
  - `'cqt_hz'`:基于CQT的频率轴。
  - `'chroma'`:音阶轴。
  - `'off'`:关闭y轴标签。
- **`sr`**:采样率,默认值为22050 Hz。
- **`hop_length`**:帧移,默认值为512。
- **`fmin`**:最小频率,默认值为0 Hz。
- **`fmax`**:最大频率,默认值为`None`,表示采样率的一半(Nyquist频率)。
- **`bins_per_octave`**:每八度的二进制数量,默认值为12。
- **`key`**:键名,默认值为`'C:maj'`。
- **`ax`**:`matplotlib`的轴对象,默认值为`None`。如果提供,将在指定的轴上绘制图像。
- **`**kwargs`**:其他关键字参数,将传递给`matplotlib.pyplot.imshow`。

### 返回值
- 返回一个`matplotlib.image.AxesImage`对象,表示绘制的图像。

### 示例代码
以下是一个完整的示例,展示如何使用`librosa.display.specshow`绘制Mel频谱图:

```python
import librosa
import librosa.display
import matplotlib.pyplot as plt
import numpy as np

# 加载音频文件
y, sr = librosa.load('example.wav', sr=16000)

# 计算Mel频谱
mel = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128)
log_mel = librosa.power_to_db(mel, ref=np.max)

# 绘制Mel频谱图
plt.figure(figsize=(10, 4))
librosa.display.specshow(log_mel, sr=sr, x_axis='time', y_axis='mel')
plt.colorbar(label='Log Mel Spectrogram (dB)')
plt.xlabel('Time')
plt.ylabel('Mel Frequency')
plt.title('Mel Spectrogram')
plt.tight_layout()
plt.show()
```

### 详细解释

1. **加载音频文件**
   ```python
   y, sr = librosa.load('example.wav', sr=16000)
   ```
   - 使用`librosa.load`加载音频文件,`sr`表示采样率。

2. **计算Mel频谱**
   ```python
   mel = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128)
   log_mel = librosa.power_to_db(mel, ref=np.max)
   ```
   - 使用`librosa.feature.melspectrogram`计算Mel频谱。
   - 使用`librosa.power_to_db`将Mel频谱转换为对数尺度。

3. **绘制频谱图**
   ```python
   plt.figure(figsize=(10, 4))
   librosa.display.specshow(log_mel, sr=sr, x_axis='time', y_axis='mel')
   ```
   - 创建一个`matplotlib`图形。
   - 使用`librosa.display.specshow`绘制频谱图。`x_axis='time'`表示x轴为时间轴,`y_axis='mel'`表示y轴为Mel频率轴。

4. **添加颜色条和标签**
   ```python
   plt.colorbar(label='Log Mel Spectrogram (dB)')
   plt.xlabel('Time')
   plt.ylabel('Mel Frequency')
   plt.title('Mel Spectrogram')
   ```
   - 添加颜色条,表示频谱的对数幅度。
   - 设置x轴和y轴的标签。
   - 设置图形的标题。

5. **调整布局并显示**
   ```python
   plt.tight_layout()
   plt.show()
   ```
   - 使用`plt.tight_layout()`调整布局,避免标签和颜色条的重叠。
   - 使用`plt.show()`显示图形。

### 保存图像
如果需要将图像保存到文件中,可以使用`plt.savefig`:
```python
plt.savefig('mel_spectrogram.png')
plt.close()
```

### 总结
`librosa.display.specshow` 是一个非常强大的工具,用于绘制音频信号的各种频谱图。它不仅能够自动处理轴标签和刻度,还能通过参数灵活配置。通过结合`matplotlib`的功能,可以生成高质量的频谱图,适用于数据分析和可视化。

错误的代码,注释部分,   第一个参数需要的是  librosa.load 读取后的二维数组
而不是 经过处理后的数据,频谱数据

# 生成Mel频谱
mel = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=Config.n_mels,n_fft=2048, hop_length=512, power=2
)
log_mel = librosa.power_to_db(mel, ref=np.max)

def save_mel_as_image(filepath, output_dir, denoise=False):mel = audio_to_mel(filepath, denoise)"""将梅尔频谱图保存为PNG图片"""plt.figure(figsize=(10, 4))# librosa提供的功能来自动处理对数转换和轴标签# 这里不需要 ,第一个参数是原始数据,# librosa.display.specshow(mel, sr=Config.sr, x_axis='time', y_axis='mel')plt.colorbar(format='%+2.0f dB')plt.tight_layout()plt.savefig(output_dir)plt.close()

`librosa.feature.melspectrogram` 是一个用于计算Mel频谱图的函数。Mel频谱图是一种将音频信号的频谱表示在Mel频率尺度上的方法,广泛应用于音频处理和机器学习任务中。Mel频率尺度是一种非线性频率尺度,更接近人类听觉系统的感知特性。

### 函数签名
```python
librosa.feature.melspectrogram(
    y=None,
    sr=22050,
    S=None,
    n_fft=2048,
    hop_length=512,
    win_length=None,
    window='hann',
    center=True,
    pad_mode='constant',
    power=2.0,
    n_mels=128,
    fmin=0.0,
    fmax=None,
    htk=False,
    norm='slaney',
    dtype=np.float32
)
```

### 参数说明

#### 输入参数
- **`y`**:音频时间序列。如果提供了`S`,则`y`可以为`None`。
- **`sr`**:采样率,默认值为22050 Hz。
- **`S`**:频谱图(STFT)。如果提供了`S`,则`y`可以为`None`。`S`应该是通过`librosa.stft`计算得到的频谱图。
- **`n_fft`**:FFT窗口大小,默认值为2048。
- **`hop_length`**:帧移,默认值为512。
- **`win_length`**:窗口长度,默认值为`n_fft`。
- **`window`**:窗口函数,默认值为`'hann'`。
- **`center`**:是否将音频时间序列居中,默认值为`True`。
- **`pad_mode`**:填充模式,默认值为`'constant'`。
- **`power`**:功率,默认值为2.0。表示频谱图的功率,通常为2(能量谱)或1(幅度谱)。

#### Mel滤波器参数
- **`n_mels`**:Mel频带的数量,默认值为128。
- **`fmin`**:最小频率,默认值为0.0 Hz。
- **`fmax`**:最大频率,默认值为`None`,表示采样率的一半(Nyquist频率)。
- **`htk`**:是否使用HTK算法计算Mel滤波器,默认值为`False`。
- **`norm`**:归一化方式,默认值为`'slaney'`。可以设置为`None`或`'slaney'`。
- **`dtype`**:数据类型,默认值为`np.float32`。

### 返回值
- 返回一个二维数组,表示Mel频谱图。其形状为`(n_mels, t)`,其中`t`是时间轴的长度。

### 示例代码
以下是一个完整的示例,展示如何使用`librosa.feature.melspectrogram`计算Mel频谱图并绘制:

```python
import librosa
import librosa.display
import matplotlib.pyplot as plt
import numpy as np

# 加载音频文件
y, sr = librosa.load('example.wav', sr=16000)

# 计算Mel频谱图
mel = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128)

# 将Mel频谱图转换为对数尺度
log_mel = librosa.power_to_db(mel, ref=np.max)

# 绘制Mel频谱图
plt.figure(figsize=(10, 4))
librosa.display.specshow(log_mel, sr=sr, x_axis='time', y_axis='mel')
plt.colorbar(label='Log Mel Spectrogram (dB)')
plt.xlabel('Time')
plt.ylabel('Mel Frequency')
plt.title('Mel Spectrogram')
plt.tight_layout()
plt.show()
```

### 详细解释

1. **加载音频文件**
   ```python
   y, sr = librosa.load('example.wav', sr=16000)
   ```
   - 使用`librosa.load`加载音频文件,`sr`表示采样率。

2. **计算Mel频谱图**
   ```python
   mel = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128)
   ```
   - 使用`librosa.feature.melspectrogram`计算Mel频谱图。`n_mels=128`表示生成128个Mel频带。

3. **转换为对数尺度**
   ```python
   log_mel = librosa.power_to_db(mel, ref=np.max)
   ```
   - 使用`librosa.power_to_db`将Mel频谱图转换为对数尺度。`ref=np.max`表示以频谱图的最大值为参考值。

4. **绘制频谱图**
   ```python
   plt.figure(figsize=(10, 4))
   librosa.display.specshow(log_mel, sr=sr, x_axis='time', y_axis='mel')
   ```
   - 创建一个`matplotlib`图形。
   - 使用`librosa.display.specshow`绘制频谱图。`x_axis='time'`表示x轴为时间轴,`y_axis='mel'`表示y轴为Mel频率轴。

5. **添加颜色条和标签**
   ```python
   plt.colorbar(label='Log Mel Spectrogram (dB)')
   plt.xlabel('Time')
   plt.ylabel('Mel Frequency')
   plt.title('Mel Spectrogram')
   ```
   - 添加颜色条,表示频谱的对数幅度。
   - 设置x轴和y轴的标签。
   - 设置图形的标题。

6. **调整布局并显示**
   ```python
   plt.tight_layout()
   plt.show()
   ```
   - 使用`plt.tight_layout()`调整布局,避免标签和颜色条的重叠。
   - 使用`plt.show()`显示图形。

### 保存图像
如果需要将图像保存到文件中,可以使用`plt.savefig`:
```python
plt.savefig('mel_spectrogram.png')
plt.close()
```

### 总结
`librosa.feature.melspectrogram` 是一个非常强大的函数,用于计算Mel频谱图。它通过Mel频率尺度将音频信号的频谱表示得更加符合人类听觉系统的感知特性。通过结合`librosa.power_to_db`和`librosa.display.specshow`,可以生成高质量的Mel频谱图,适用于音频分析和机器学习任务。

相关文章:

绘制音频信号的各种频谱图,包括Mel频谱图、STFT频谱图等。它不仅能够绘制频谱图librosa.display.specshow

librosa.display.specshow 是一个非常方便的函数,用于绘制音频信号的各种频谱图,包括Mel频谱图、STFT频谱图等。它不仅能够绘制频谱图,还能自动设置轴标签和刻度,使得生成的图像更加直观和易于理解。 ### 函数签名 python libros…...

Linux `>`/`>>` 重定向操作符深度解析与高阶应用指南

Linux `>`/`>>` 重定向操作符深度解析与高阶应用指南 一、核心功能解析1. 基础重定向2. 标准流描述符二、高阶重定向技巧1. 多流重定向2. 文件描述符操作3. 特殊设备操作三、企业级应用场景1. 日志管理系统2. 数据管道处理3. 自动化运维四、安全与权限管理1. 防误操作…...

【自定义类型-联合和枚举】--联合体类型,联合体大小的计算,枚举类型,枚举类型的使用

目录 一.联合体类型 1.1--联合体类型的声明 1.2--联合体的特点 1.3--相同成员的结构体和联合体对比 1.4--联合体大小的计算 1.5--联合体练习 二.枚举类型 2.1--枚举类型的声明 2.2--枚举类型的优点 2.3--枚举类型的使用 🔥个人主页:草莓熊Lotso…...

李宏毅《深度学习》:Self-attention 自注意力机制

一,问题分析: 什么情况下需要使用self-attention架构,或者说什么问题是CNN等经典网络架构解决不了的问题,我们需要开发新的网络架构? 要解决什么问题《——》对应开发self-attention架构的目的? 1&#…...

C++初阶-list的使用1

目录 1.std::list简介 2.成员函数 2.1构造函数的使用 2.2list::operator的使用 3.迭代器 4.容量 4.1list::empty函数的使用 4.2list::size函数的使用 4.3list::max_size函数的使用 5.元素访问 6.修饰符 6.1list::assign函数的使用 6.2push_back和pop_back和push_fr…...

Linux中的tty与login之间的关系

agetty 进程和 login 进程之间的关系: 一、简要概括 agetty 是登录前的终端初始化程序。 login 是处理用户登录认证的程序。 关系:agetty 启动后等待用户输入用户名,然后调用 login 进程进行用户认证。 二、详细过程 1. agetty 的作用 a…...

Python web 开发 Flask HTTP 服务

Flask 是一个轻量级的 Web 应用框架,它基于 Python 编写,特别适合构建简单的 Web 应用和 RESTful API。Flask 的设计理念是提供尽可能少的约定和配置,从而让开发者能够灵活地构建自己的 Web 应用。 https://andi.cn/page/622189.html...

分享|16个含源码和数据集的计算机视觉实战项目

本文将分享16个含源码和数据集的计算机视觉实战项目。具体包括: 1. 人数统计工具 2. 颜色检测 3. 视频中的对象跟踪 4. 行人检测 5. 手势识别 6. 人类情感识别 7. 车道线检测 8. 名片扫描仪 9. 车牌识别 10. 手写数字识别 11.鸢尾花分类 12. 家庭照片人脸检测 13. 乐…...

二十三、面向对象底层逻辑-BeanDefinitionParser接口设计哲学

一、引言:Spring XML配置的可扩展性基石 在Spring框架的演进历程中,XML配置曾长期作为定义Bean的核心方式。虽然现代Spring应用更倾向于使用注解和Java Config,但在集成第三方组件、兼容遗留系统或实现复杂配置逻辑的场景下,XML配…...

[Vue]路由基础使用和路径传参

实际项目中不可能就一个页面,会有很多个页面。在Vue里面,页面与页面之间的跳转和传参会使用我们的路由: vue-router 基础使用 要使用我们需要先给我们的项目添加依赖:vue-router。使用命令下载: npm install vue-router 使用路由会涉及到下面几个对象:…...

使用VGG-16模型来对海贼王中的角色进行图像分类

动漫角色识别是计算机视觉的典型应用场景,可用于周边商品分类、动画制作辅助等。 这个案例是一个经典的深度学习应用,用于图像分类任务,它使用了一个自定义的VGG-16模型来对《海贼王》中的七个角色进行分类,演示如何将经典CNN模型…...

OSI 网络七层模型中的物理层、数据链路层、网络层

一、OSI 七层模型 物理层、数据链路层、网络层、传输层、会话层、表示层、应用层 1. 物理层(Physical Layer) 功能:传输原始的比特流(0和1),通过物理介质(如电缆、光纤、无线电波)…...

WooCommerce缓存教程 – 如何防止缓存破坏你的WooCommerce网站?

我们在以前的文章中探讨过如何加快你的WordPress网站的速度,并研究过各种形式的缓存。 然而,像那些使用WooCommerce的动态电子商务网站,在让缓存正常工作方面往往会面临重大挑战。 在本指南中,我们将告诉你如何为WooCommerce设置…...

AtCoder Beginner Contest 406(ABCD)

前言 我仿佛在梦游…… 一、A - Not Acceptable #include <bits/stdc.h> using namespace std;typedef long long ll; typedef pair<int,int> pii;void solve() {int dueH,dueM,upH,upM;cin>>dueH>>dueM>>upH>>upM;if(upH>dueH){cou…...

第J2周:ResNet50V2 算法实战与解析

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 学习目标 ✅ 根据TensorFlow代码&#xff0c;编写出相应的Python代码 ✅ 了解ResNetV2和ResNet模型的区别 一、环境配置 二、数据预处理 三、创建、划分数据…...

Live Search API :给大模型装了一个“实时搜索引擎”的插件

6月5号前免费使用。 Live Search 是一项xAI API功能&#xff0c;允许 LLM 在生成响应时查询和考虑实时数据。通过此功能&#xff0c;您可以直接从 API 获得包含实时数据的聊天响应&#xff0c;而无需自己协调网络搜索和大型语言模型&#xff08;LLM&#xff09;工具调用。 可以…...

每天分钟级别时间维度在数据仓库的作用与实现——以Doris和Hive为例(开箱即用)

在现代数据仓库建设中,时间维度表是不可或缺的基础维表之一。尤其是在金融、电力、物联网、互联网等行业,分钟级别的时间维度表对于高频数据的统计、分析、报表、数据挖掘等场景具有极其重要的作用。本文将以 Doris 为例,详细讲解每天分钟级别时间维度表在数据仓库中的作用、…...

虚拟机Centos7:Cannot find a valid baseurl for repo: base/7/x86_64问题解决

问题 解决&#xff1a;更新yum仓库源 # 备份现有yum配置文件 sudo cp -r /etc/yum.repos.d /etc/yum.repos.d.backup# 编辑CentOS-Base.repo文件 vi /etc/yum.repos.d/CentOS-Base.repo[base] nameCentOS-$releasever - Base baseurlhttp://mirrors.aliyun.com/centos/$relea…...

IP风险度自检,多维度守护网络安全

如今IP地址不再只是网络连接的标识符&#xff0c;更成为评估安全风险的核心维度。IP风险度通过多维度数据建模&#xff0c;量化IP地址在网络环境中的安全威胁等级&#xff0c;已成为企业反欺诈、内容合规、入侵检测的关键工具。据Gartner报告显示&#xff0c;2025年全球78%的企…...

NV066NV074美光固态颗粒NV084NV085

NV066NV074美光固态颗粒NV084NV085 在存储技术的快速发展浪潮中&#xff0c;美光科技&#xff08;Micron Technology&#xff09;始终扮演着引领者的角色。其NV系列闪存颗粒凭借创新设计和卓越性能&#xff0c;成为技术爱好者、硬件开发者乃至企业级用户关注的焦点。本文将围绕…...

C++ 日志系统实战第六步:性能测试

全是通俗易懂的讲解&#xff0c;如果你本节之前的知识都掌握清楚&#xff0c;那就速速来看我的项目笔记吧~ 本文项目结束&#xff01; 性能测试 下面对日志系统做一个性能测试&#xff0c;测试一下平均每秒能打印多少条日志消息到文件。 主要的测试方法是&#xff1a;每秒能…...

低代码平台搭建

学习低代码平台搭建需要掌握几个核心模块,尤其是动态表单引擎和DSL(领域特定语言)设计,以下是系统化的知识总结: 一、低代码平台的核心模块 低代码平台的核心是让用户通过可视化交互快速生成应用,核心模块包括: 可视化设计器(拖拽布局、组件配置)DSL(领域特定语言)…...

AI编程对传统软件开发的冲击和思考

2025年&#xff0c;如果你所在的软件公司还活着&#xff0c;恭喜&#xff0c;你的老板很坚挺&#xff0c;很有福报。 不过&#xff0c;25年年底的时候&#xff0c;就不好说了&#xff01; Claude说年底的时候&#xff0c;Claude就可以实现不间断一直编程模式。 一个比996还狠…...

Java桌面应用开发详解:自制截图工具从设计到打包的全流程【附源码与演示】

&#x1f525; 本文详细介绍一个Java/JavaFX学习项目——轻量级智能截图工具的开发实践。通过这个项目&#xff0c;你将学习如何使用Java构建桌面应用&#xff0c;掌握JavaFX界面开发、系统托盘集成、全局快捷键注册等实用技能。本文主要关注基础功能实现&#xff0c;适合Java初…...

手写一个简单的线程池

手写一个简单的线程池 项目仓库&#xff1a;https://gitee.com/bossDuy/hand-tearing-thread-pool 基于一个b站up的课程&#xff1a;https://www.bilibili.com/video/BV1cJf2YXEw3/?spm_id_from333.788.videopod.sections&vd_source4cda4baec795c32b16ddd661bb9ce865 理…...

AI开发实习生面试总结(持续更新中...)

1.广州视宴&#xff08;ai开发实习生&#xff09; 首先是自我介绍~ 1.第二个项目中的热力图是用怎么样的方式去做的&#xff1f; 2.在第二个项目中&#xff0c;如何用热力图去实现它的实时变化 答&#xff1a;我这里直接说我项目里面其实静态的热力图&#xff0c;不是动态的…...

python实战:Python脚本后台运行的方法

在Linux/Unix系统中,有几种方法可以让Python脚本在后台运行: 1. 使用 & 符号 最简单的后台运行方式是在命令末尾添加 &: python your_script.py &这样会将脚本放入后台运行,但关闭终端时脚本可能会被终止。 2. 使用 nohup 命令 nohup 可以让脚本在退出终端…...

siparmyknife:SIP协议渗透测试的瑞士军刀!全参数详细教程!Kali Linux教程!

简介 SIP Army Knife 是一个模糊测试器&#xff0c;用于搜索跨站点脚本、SQL 注入、日志注入、格式字符串、缓冲区溢出等。 安装 源码安装 通过以下命令来进行克隆项目源码&#xff0c;建议请先提前挂好代理进行克隆。 git clone https://github.com/foreni-packages/sipa…...

【Hexo】2.常用的几个命令

new 在根目录下执行 hexo new "文章标题" 命令&#xff0c;会在 source/_posts 目录下生成一个 .md 文件。 hexo new "文章标题"clean 在根目录下执行 hexo clean 命令&#xff0c;会清除 public 目录下的所有文件。 hexo cleangenerate 在根目录下执…...

OceanBase 系统表查询与元数据查询完全指南

文章目录 一、OceanBase 元数据基础概念1.1 元数据的定义与重要性1.2 OceanBase 元数据分类体系二、系统表查询核心技术2.1 核心系统表详解2.1.1 集群管理表2.1.2 租户资源表2.2 高级查询技巧2.2.1 跨系统表关联查询2.2.2 历史元数据查询三、元数据查询实战应用3.1 日常运维场景…...