当前位置：首页 > news >正文

音频信号处理笔记（二）

news 2026/2/11 0:59:33

文章目录

- - 1.1.3 过零率
  - 1.1.4 谱质心和子带带宽
  - 1.1.5 短时傅里叶分析法
  - 1.1.6 小波变换

相关课程：音频信号处理及深度学习教程
傅里叶分析之掐死教程（完整版）更新于2014.06.06 - 知乎 (zhihu.com)

1.1.3 过零率

过零率：是一个信号符号变化的比率，即在每中语音信号从正变为负或从负变为正的次数。（语音识别、音乐信息检索，过零率越大，频率近似越高）

计算第t帧信号过零点数：

代码如下：

# 信号的过零率
# 0. 预设环境
import librosa
import numpy as np
from matplotlib import pyplot as plt
import librosa.display# 1.加载信号
wave_path_absolute = r"E:\VoiceDev\audio_data\speech_this_song.wav"
wave_path = "../audio_data/music_piano.wav"
waveform, sample_rate = librosa.load(wave_path_absolute, sr=None)# 2.定义函数，功能：计算每一帧的过零率
def Calc_ZCR(waveform, frame_length, hop_length):# 如果按照帧长来分割信号，余下部分不能形成一个帧则需要补0if len(waveform) % hop_length != 0:frame_num = int((len(waveform) - frame_length) / hop_length) + 1pad_num = frame_num * hop_length + frame_length - len(waveform)  # 补0个数waveform = np.pad(waveform, pad_width=(0, pad_num), mode="wrap")  # 补0操作frame_num = int((len(waveform) - frame_length) / hop_length) + 1waveform_zcr = []for t in range(frame_num):current_frame = waveform[t * (frame_length - hop_length):t * (frame_length - hop_length) + frame_length]a = np.sign(current_frame[0:frame_length-1, ])b = np.sign(current_frame[1:frame_length, ])current_zcr = np.sum(np.abs(a-b))/2/frame_lengthwaveform_zcr.append(current_zcr)return np.array(waveform_zcr)# 3. 设置参数：每一帧长1024，以50%的重叠率分帧，调用该函数
frame_size = 1024
hop_size = int(frame_size * 0.5)
waveform_ZCR = Calc_ZCR(waveform=waveform, frame_length=frame_size, hop_length=hop_size)# 4.绘制图像
frame_scale = np.arange(0,len(waveform_ZCR),step=1)
time_scale = librosa.frames_to_time(frame_scale,hop_length=hop_size)
plt.figure(figsize=(20, 10))
plt.plot(time_scale, waveform_ZCR, color='red')
plt.title("Zero-Cross-rate")
plt.show()# 5. 利用librosa.feature
waveform_ZCR_librosa = librosa.feature.zero_crossing_rate(y=waveform, frame_length=frame_size, hop_length=hop_size).T[1:,0]
plt.figure(figsize=(20, 10))
plt.plot(time_scale, waveform_ZCR_librosa, color='red')
plt.title("Zero-Cross-rate-librosa")
plt.show()bias = waveform_ZCR_librosa - waveform_ZCR
print(f"the bias is {bias}\n Congratulation!")

运行结果：

使用自己写的函数结果图：

使用librosa库函数：

1.1.4 谱质心和子带带宽

谱质心 Spectral centroid

频率成分的重心，是频谱中在一定频率范围内通过能量加权平均的频率，其单位是Hz。（声音的明亮度，低沉的声音谱质心低，欢快明亮的声音谱质心高，声色）

子带带宽 Bandwidth

在Spectral centroid的频谱范围，计算每一点到谱质心的距离的加权平均值（音频识别）

代码如下：

# 信号的频域特征
import librosa
import numpy as np
from matplotlib import pyplot as plt# 1. 加载信号
jazz_path = r"E:\VoiceDev\audio_data\jazz.wav"
jazz, sr = librosa.load(jazz_path, sr=None)rock_path = r"E:\VoiceDev\audio_data\rock.wav"
rock, sr = librosa.load(rock_path, sr=None)blues_path = r"E:\VoiceDev\audio_data\blues.wav"
blues, sr = librosa.load(blues_path, sr=None)orchestra_path = r"E:\VoiceDev\audio_data\orchestra.wav"
orchestra, sr = librosa.load(orchestra_path, sr=None)# 2. 获取信号的Spectral centroid（谱质心）
sc_jazz = librosa.feature.spectral_centroid(y=jazz, n_fft=1024).T[:, 0]
sc_rock = librosa.feature.spectral_centroid(y=rock, n_fft=1024).T[:, 0]
sc_blues = librosa.feature.spectral_centroid(y=blues, n_fft=1024).T[:, 0]
sc_orchestra = librosa.feature.spectral_centroid(y=orchestra, n_fft=1024).T[:, 0]fig, aix = plt.subplots(2, 2)
aix[0, 0].plot(np.arange(0, len(sc_jazz)), sc_jazz, linewidth=1)
aix[0, 0].set_title("Jazz")
aix[0, 1].plot(np.arange(0, len(sc_rock)), sc_rock, linewidth=1)
aix[0, 1].set_title("Rock")
aix[1, 0].plot(np.arange(0, len(sc_blues)), sc_blues, linewidth=1)
aix[1, 0].set_title("Blues")
aix[1, 1].plot(np.arange(0, len(sc_orchestra)), sc_orchestra, linewidth=1)
aix[1, 1].set_title("Orchestra")
fig.suptitle("Spectral centroid")
plt.show()# 3. 获取信号的Spectral bandwidth
sw_jazz = librosa.feature.spectral_bandwidth(y=jazz, n_fft=1024).T[:, 0]
sw_blues = librosa.feature.spectral_bandwidth(y=blues, n_fft=1024).T[:, 0]
sw_rock = librosa.feature.spectral_bandwidth(y=rock, n_fft=1024).T[:, 0]
sw_orchestra = librosa.feature.spectral_bandwidth(y=orchestra, n_fft=1024).T[:, 0]figure, aix = plt.subplots(2, 2)
aix[0, 0].plot(np.arange(0, len(sw_jazz)), sw_jazz, linewidth=1)
aix[0, 0].set_title("Jazz")
aix[0, 1].plot(np.arange(0, len(sw_rock)), sw_rock, linewidth=1)
aix[0, 1].set_title("Rock")
aix[1, 0].plot(np.arange(0, len(sw_blues)), sw_blues, linewidth=1)
aix[1, 0].set_title("Blues")
aix[1, 1].plot(np.arange(0, len(sw_orchestra)), sw_orchestra, linewidth=1)
aix[1, 1].set_title("Orchestra")
figure.suptitle("Spectral bandwidth")
plt.show()

运行结果：

加窗处理：

1.1.5 短时傅里叶分析法

由于声信号往往是随时间变化的，在短时间内可以近似看做平稳(对于语音来说是几十毫秒的量级)所以我们希望把长的声音切短，来观察其随时间的变化情况，由此产生STFT分析方式。

FFT与STFT对比
STFT在时域中对信号进行加窗处理 (分)，所以最终结果是有关时域频域的信息，时域的信息是每一帧帧长 (窗函数的长度)

关系:如果窗函数带宽长，则包络中的精细结构较少，疏松，得到窄带语谱图，有较好的频域分辨率，但时域分辨率较差，如果窗函数带宽窄，则包络中的精细结构较多，密集，得到宽带语谱图，有较好的时域分辨率，但频域分辨率较差;

获取不同时刻、不同频率的频谱图（能量分布情况）

代码如下：

import librosa
import numpy as np
from matplotlib import pyplot as plt# 1.加载信号
wave_path = r"E:\VoiceDev\audio_data\music_piano.wav"
waveform, sample_rate = librosa.load(wave_path, sr=None)# 2.信号分帧：补零->分帧->加窗
frame_size, hop_size = 1024, 512
if len(waveform) % hop_size != 0:frame_num = int((len(waveform) - frame_size) / hop_size) + 1pad_num = frame_num * hop_size + frame_size - len(waveform)waveform = np.pad(waveform, pad_width=(0, pad_num), mode="wrap")
frame_num = int((len(waveform) - frame_size) / hop_size) + 1
# 分帧 ?
row = np.tile(np.arange(0, frame_size), (frame_num, 1))
column = np.tile(np.arange(0, frame_num * (frame_size - hop_size), (frame_size - hop_size)), (frame_size, 1)).T
index = row + column
waveform_frame = waveform[index]
# 加窗 ?
waveform_frame = waveform_frame * np.hanning(frame_size)# 3.信号做傅里叶变换np.fft.rfft(waveform_frame,n _fft)
n_fft = 1024
waveform_stft = np.fft.rfft(waveform_frame, n_fft)# 4.功率谱函数
waveform_pow = np.abs(waveform_stft)**2/n_fft
waveform_db = 20 * np.log10(waveform_pow) # 分贝# 5.绘制波形
plt.figure(figsize=(10,10))
plt.imshow(waveform_db)
y_ticks = np.arange(0,int(n_fft/2),100)
plt.yticks(ticks=y_ticks,labels=y_ticks*sample_rate/n_fft)
plt.title("Waveform_STFT")
plt.show()

运行结果如下：

得到语谱图

我们也可以使用librosa库提供的函数获取语谱图，代码如下：

# 语谱图
def plot_spectrogram(spectrogram, title="spectrogram(dB)"):plt.imshow(librosa.amplitude_to_db(spectrogram))plt.title(title)plt.xlabel("Frame/s")plt.ylabel("Frequency/hz")plt.colorbar()plt.show()# 设置参数，调用librosa.stft函数
n_fft = 1024
hop_size = 512
waveform_stft = librosa.stft(y=waveform,n_fft=n_fft,hop_length=hop_size)
plot_spectrogram(np.abs(waveform_stft))

1.1.6 小波变换

音频信号处理笔记（二）

文章目录1.1.3 过零率1.1.4 谱质心和子带带宽1.1.5 短时傅里叶分析法1.1.6 小波变换相关课程： 音频信号处理及深度学习教程傅里叶分析之掐死教程（完整版）更新于2014.06.06 - 知乎 (zhihu.com)1.1.3 过零率过零率：是一个信号符号…...

编程日记 2023/2/21 7:34:59

钓鱼网站+bypassuac提权

本实验实现1 ：要生成一个钓鱼网址链接，诱导用户点击，实验过程是让win7去点击这个钓鱼网站链接，则会自动打开一个文件共享服务器的文件夹，在这个文件夹里面会有两个文件，当用户分别点击执行后，则…...

编程日记 2023/2/21 7:33:39

合并两个有序链表——递归解法

题目描述21. 合并两个有序链表难度简单2922收藏分享切换为英文接收动态反馈将两个升序链表合并为一个新的升序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。示例 1：输入：l1 [1,2,4], l2 [1,3,4]输出：[1,1,2,3,4,4]示例…...

编程日记 2023/2/21 7:32:24

ADRC自抗扰控制总结

目录前言 1.ADRC形式 1.1形一 1.2形二 2.被控对象 3.仿真分析 3.1仿真模型 3.2仿真结果 4.学习问题前言前面的3篇文章依次介绍了微分跟踪器TD、状态观测器ESO和非线性状态误差反馈NLSEF三部分内容，至此ADRC的结构已经介绍完毕，现在对分块学习…...

编程日记 2023/2/21 7:31:09

3年工作之后是不是还在“点点点”，3年感悟和你分享....

经常都有人问我软件测试前景怎么样，每年也都帮助很多朋友做职业分析和学习规划，也很欣慰能够通过自己的努力帮到一些人进入到大厂。 2023年软件测试行业的发展现状以及未来的前景趋势最近很多测试人在找工作的时候，明显的会发现功能测试很…...

编程日记 2023/2/21 7:29:52

【自动化测试】web自动化测试验证码如何测？如何处理验证码问题？解决方案......

目录：导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结（尾部小惊喜）前言在对安全性有要求的…...

编程日记 2023/2/21 7:28:35

面试浅谈之 C++ STL 篇

面试浅谈之 C STL 篇一 🏠 概述 HELLO，各位博友好，我是阿呆 🙈🙈🙈 这里是面试浅谈系列，收录在专栏面试中 😜😜😜 本系列将记录一些阿呆个人整理的面试题…...

编程日记 2023/2/21 7:27:11

【PTA Advanced】1144 The Missing Number（C++）

目录题目 Input Specification: Output Specification: Sample Input: Sample Output: 思路代码题目 Given N integers, you are supposed to find the smallest positive integer that is NOT in the given list. Input Specification: Each input file contains…...

编程日记 2023/2/21 7:25:58

oracle的sqlnet.ora文件配置传输加密算法

sqlnet.ora文件位于ORACLE_HOME/network/admin目录中。sqlnet.ora文件中增加如下：SQLNET.ENCRYPTION_SERVER REQUIRED SQLNET.ENCRYPTION_TYPES_SERVER (RC4_256) SQLNET.CRYPTO_CHECKSUM_SERVER REQUIRED SQLNET.CRYPTO_CHECKSUM_TYPES_SERVER MD5SQLNET.ENCRYP…...

编程日记 2023/2/21 7:24:41

RK3568存储性能测试

USBU盘储存性能参数(USB3.0接口)参数测试条件最小典型最大单位说明写速度写入1GB数据—32.6—MB/sU盘型号：KODAK，32GB USB3.0读速度读取1GB数据—66.7—MB/s 备注HW356X-CORE-4GB-32GBHW356X-GKA，操作系统：LinuxU盘储存性能参数(U…...

编程日记 2023/2/21 7:23:21

Homekit智能家居一智能灯泡

一、什么是智能灯传统的灯泡是通过手动打开和关闭开关来工作。有时，它们可以通过声控、触控、红外等方式进行控制，或者带有调光开关，让用户调暗或调亮灯光。智能灯泡内置有芯片和通信模块，可与手机、家庭智能助手、或其他智能…...

编程日记 2023/2/21 7:22:07

轻量级 Java 权限认证框架——Sa-Token

文章目录Sa-Token 介绍SpringBoot 集成 Sa-TokenSa-Token 功能登录认证会话查询Token 查询权限认证权限校验角色校验注解鉴权注册 Sa-Token 拦截器关闭注解校验路由拦截鉴权注册 Sa-Token 路由拦截器[记住我] 模式密码加密Sa-Token 集成 Redis方式1、使用 jdk 默认序列化方式方…...

编程日记 2023/2/21 7:20:52

算法复习（四、五、六）

动态规划动态规划算法的有效性依赖于问题本身所具有的两个重要性质：最优子结构、重叠子问题关于动态规划算法和备忘录方法的适用条件： 要求： 用分治法和动态规划法分别解决最大子段和问题（第四步求最优解不需要掌握&#xff…...

编程日记 2023/2/21 7:19:31

SORT与DeepSORT简介

一、MOT( mutil-object tracking)步骤在《DEEP LEARNING IN VIDEO MUTIL-OBJECT TEACKING: A SURVEY》这篇基于深度学习多目标跟踪综述中，描绘了MOT问题的四个主要步骤 1.跟定视频原始帧 2.使用目标检测器如Faster-rcnn, YOLO, SSD等进行检测，获取目标…...

编程日记 2023/2/21 7:18:02

TCP/IP网络编程——多播与广播

完整版文章请参考： TCP/IP网络编程完整版文章文章目录第 14 章多播与广播14.1 多播14.1.1 多播的数据传输方式以及流量方面的优点14.1.2 路由（Routing）和 TTL（Time to Live,生存时间），以及加入组的办法14…...

编程日记 2023/2/21 7:16:39

K8S DNS解析过程和延迟问题

一、Linux DNS查询解析原理（对于调用glibc库函数gethostbyname的程序）我们在浏览器访问www.baidu.com这个域名，dns怎么查询到这台主机呢？　　1、在浏览器中输入www.baidu.com域名，操作系统会先查找本地DNS解析器缓存&a…...

编程日记 2023/2/21 7:15:26

【JavaScript】js实现深拷贝的方法

前言在js中我们想要实现深拷贝，首先要了解深浅拷贝的区别。浅拷贝：只是拷贝数据的内存地址，而不是在内存中重新创建一个一模一样的对象（数组） 深拷贝：在内存中开辟一个新的存储空间，完完全全…...

编程日记 2023/2/21 7:13:58

RK3288 GPIO记录

1、引脚对应的GPIO 编号第一种使用/sys/kernel/debug/gpio查询所有gpio引脚的基数第二种 cat /sys/class/gpio/gpiochip248/label对应的label就是GPIO引脚，例如下图GPIO8对应的基数就是2482、计算编号编号基数 PIN脚如GPIO8的基数是248， GPIO8_A6的编…...

编程日记 2023/2/21 7:12:39

MongoDB介绍及使用教程

文章目录一、MongoDB介绍1. 什么是MongoDB2. 为什么要用MongoDB3. MongoDB的应用场景4. MongoDB基本概念二、MongoDB使用教程1.下载安装（Windows）2.MongoDB Conpass简单使用（选学）3.使用navicat连接MongoDB4.JAVA项目中使用MongoD…...

编程日记 2023/2/21 7:11:24

51单片机开发环境搭建 - VS Code 从编写到烧录

我安装并测试成功的环境： 操作系统：Windows 10 (22H2)单片机：STC89C52RCPython version: 3.7.6 在这之前，给51单片机写程序是用 Keil 5（编写编译）、STC-ISP（烧录），由于…...

编程日记 2023/2/21 7:10:12

ubuntu搭建nfs服务centos挂载访问

在Ubuntu上设置NFS服务器在Ubuntu上，你可以使用apt包管理器来安装NFS服务器。打开终端并运行： sudo apt update sudo apt install nfs-kernel-server创建共享目录创建一个目录用于共享，例如/shared： sudo mkdir /shared sud…...

编程新知 2026/2/6 23:18:59

从WWDC看苹果产品发展的规律

WWDC 是苹果公司一年一度面向全球开发者的盛会，其主题演讲展现了苹果在产品设计、技术路线、用户体验和生态系统构建上的核心理念与演进脉络。我们借助 ChatGPT Deep Research 工具，对过去十年 WWDC 主题演讲内容进行了系统化分析，形成了这份…...

编程新知 2026/2/2 21:52:33

Mybatis逆向工程，动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件

今天呢，博主的学习进度也是步入了Java Mybatis 框架，目前正在逐步杨帆旗航。那么接下来就给大家出一期有关 Mybatis 逆向工程的教学，希望能对大家有所帮助，也特别欢迎大家指点不足之处，小生很乐意接受正确的建议&…...

编程新知 2026/1/31 15:00:15

NLP学习路线图（二十三）：长短期记忆网络（LSTM）

在自然语言处理（NLP）领域，我们时刻面临着处理序列数据的核心挑战。无论是理解句子的结构、分析文本的情感，还是实现语言的翻译，都需要模型能够捕捉词语之间依时序产生的复杂依赖关系。传统的神经网络结构在处理这种序列依赖时显得力不从心，而循环神经网络（RNN）曾被视为…...

编程新知 2026/2/1 7:05:28

Java求职者面试指南：Spring、Spring Boot、MyBatis框架与计算机基础问题解析

Java求职者面试指南：Spring、Spring Boot、MyBatis框架与计算机基础问题解析一、第一轮提问（基础概念问题） 1. 请解释Spring框架的核心容器是什么？它在Spring中起到什么作用？ Spring框架的核心容器是IoC容器&#…...

编程新知 2025/10/4 21:24:40

NXP S32K146 T-Box 携手 SD NAND（贴片式TF卡）：驱动汽车智能革新的黄金组合

在汽车智能化的汹涌浪潮中，车辆不再仅仅是传统的交通工具，而是逐步演变为高度智能的移动终端。这一转变的核心支撑，来自于车内关键技术的深度融合与协同创新。车载远程信息处理盒（T-Box）方案：NXP S32K146 与…...

编程新知 2026/1/24 14:43:35

并发编程 - go版

1.并发编程基础概念进程和线程 A. 进程是程序在操作系统中的一次执行过程，系统进行资源分配和调度的一个独立单位。B. 线程是进程的一个执行实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位。C.一个进程可以创建和撤销多个线程;同一个进程中…...

编程新知 2026/1/31 6:50:52

tomcat指定使用的jdk版本

说明有时候需要对tomcat配置指定的jdk版本号，此时，我们可以通过以下方式进行配置设置方式找到tomcat的bin目录中的setclasspath.bat。如果是linux系统则是setclasspath.sh set JAVA_HOMEC:\Program Files\Java\jdk8 set JRE_HOMEC:\Program Files…...

编程新知 2025/6/10 21:11:28

springboot 日志类切面，接口成功记录日志，失败不记录

springboot 日志类切面，接口成功记录日志，失败不记录自定义一个注解方法 import java.lang.annotation.ElementType; import java.lang.annotation.Retention; import java.lang.annotation.RetentionPolicy; import java.lang.annotation.Target;/***…...

编程新知 2026/2/1 13:59:09

十九、【用户管理与权限 - 篇一】后端基础：用户列表与角色模型的初步构建

【用户管理与权限 - 篇一】后端基础：用户列表与角色模型的初步构建前言准备工作第一部分：回顾 Django 内置的 `User` 模型第二部分：设计并创建 `Role` 和 `UserProfile` 模型第三部分：创建 Serializers第四部分：创建 ViewSets第五部分：注册 API 路由第六部分：后端初步测…...

编程新知 2026/1/9 3:08:54

文章目录

1.1.3 过零率

1.1.4 谱质心和子带带宽

1.1.5 短时傅里叶分析法

1.1.6 小波变换

相关文章：