极客时间-《搞定音频技术》-学习笔记
极客时间-《搞定音频技术》-学习笔记
语音基础知识
https://www.zhangzhenhu.com/audio/feature.html
序章-0
作者说这个语音技术啊,未来肯定前景大好啊,大家都来学习,然后给出了课程的脑图

音频基础
什么是声音
声音的三要素是指响度、音调和音色,它们都是声音的主观属性,用来描述声音的特征。
响度指声音的强弱,音调指声音的高低,音色指声音的质量或特征。
- 响度(Loudness):
-
指声音的强弱,由振幅决定。
-
振幅越大,响度越大;振幅越小,响度越小。
-
响度还跟距离发声体远近有关。
-
单位是分贝(dB)。
- 音调(Pitch):
-
指声音的高低,由频率决定。
-
频率越高,音调越高;频率越低,音调越低。
-
单位是赫兹(Hz)。
-
人耳能听到的频率范围大约是20Hz 到20000Hz。
- 音色(Timbre):
-
指声音的质量、特征,由声源的材料、结构、形状等决定。
-
不同发声体的音色不同,可以帮助我们区分不同的声源。
-
音色也与声波的波形有关
01|声音是如何保存成数字信号的?
这章我觉得这个介绍得更好:数字音频基础-从PCM说起
声音本质是空气振动,数字音频是这种振动的数学表达。如果声音的三大构成是响度,音高,音色。
那么理解数字音频信号的三大核心指标——就是采样位深、采样率、通道数
模拟到数字:PCM编码链路
声音采集遵循经典的模数转换流程。麦克风将声波转换为电信号(模拟信号),ADC再通过PCM脉冲编码调制完成数字化。这个过程包含三个关键步骤:抽样、量化、编码。
graph LRA[声波] --> B[麦克风振膜]B --> C[模拟电信号]C --> D[ADC转换器(硬件)]D --> E[PCM数字信号(软件)]E --> F[音频裸数据]
关于模拟信号到数字信号的部分:
PCM文件即未封装的音频原始数据,也称"裸数据"。所有压缩格式的源头都是PCM。
-
什么是ADC 模数转换器
-
什么是PCM脉冲编码
-
什么是DAC 数模转换器
采样位深:振幅精度的量化标尺
位深决定每个采样点的存储精度,直接影响动态范围和失真度。16位提供96dB动态范围,足够电话通信;32位达到192dB,满足专业音乐制作需求。
位深与精度关系:
- 8位:256个量化级别,早期设备标准,明显失真
- 16位:65536个级别,消费级音频主流
- 24位:1677万个级别,专业录音标准
- 32位:42亿个级别,后期处理无损
采样率:频域完整性的奈奎斯特约束
采样率确定可还原的最高频率。我们在《计算机网络》里学过,根据奈奎斯特定理,采样率必须超过目标频率的2倍才能无失真重建信号。
常见采样率应用:
- 8kHz:电话通信(4kHz带宽)
- 16kHz:语音识别(8kHz带宽)
- 44.1kHz:CD音质(22.05kHz带宽)
- 48kHz:专业音频标准(24kHz带宽)
- 96kHz:高保真录音(48kHz带宽)
graph LRA[模拟信号] --> B[采样率 fs]B --> C{fs > 2×fmax?}C -->|是| D[完整重建]C -->|否| E[频谱混叠]
44.1kHz覆盖人耳20Hz-20kHz全频段,48kHz则为数字音频工作流提供更大余量,避免抗混叠滤波器设计复杂化。
通道数:空间音频的维度扩展
通道数定义同一时刻并行处理的独立音频流数量。每个通道对应一个物理扬声器或采集麦克风,决定音频系统的空间表现力。
典型通道配置:
- 单声道(Mono):实时通信、语音识别
- 立体声(Stereo):音乐播放、耳机体验
- 2.1声道:左右主音箱+低音炮
- 5.1声道:环绕声影院系统
立体声通过左右耳差异营造空间感,麦克风阵列通过多通道采集实现波束成形和噪声抑制。通道数直接影响存储需求和传输带宽。
PCM存储计算:从理论到实践
PCM文件大小遵循简单乘法法则:存储空间 = 位深 × 采样率 × 通道数 × 时长
实例计算:
- 音频参数:立体声,48kHz,16位,100秒
- 存储空间:16 × 48000 × 2 × 100 = 153,600,000位 = 18.31MB
- 传输带宽:16 × 48000 × 2 = 1,536,000bps = 1.5Mbps
这解释了为什么原始PCM文件如此庞大,也说明了音频压缩的必要性。
音频封装:有损与无损的权衡艺术
音频封装格式通过不同压缩策略在文件大小与音质间寻找平衡。理解压缩原理有助于选择适合的格式。
有损压缩(感知编码):
利用人耳听觉掩蔽效应,去除感知冗余信息。MP3、AAC属此类,压缩比高但存在不可逆失真。
无损压缩(统计编码):
仅去除统计冗余,保持完全可逆。FLAC、ALAC提供CD级音质,但文件仍较大。
原始格式:
WAV、AIFF本质是PCM的容器格式,添加文件头信息但不压缩音频数据。
选择策略取决于应用场景:存储受限选MP3,音质优先选FLAC,专业制作用WAV。
# to do
# 等待更新
相关文章:
极客时间-《搞定音频技术》-学习笔记
极客时间-《搞定音频技术》-学习笔记 语音基础知识 https://www.zhangzhenhu.com/audio/feature.html 序章-0 作者说这个语音技术啊,未来肯定前景大好啊,大家都来学习,然后给出了课程的脑图 音频基础 什么是声音 声音的三要素是指响度、…...
网络攻防技术十三:网络防火墙
文章目录 一、网络防火墙概述1、网络型防火墙(网络防火墙)2、Web应用防火墙3、数据库防火墙4、主机防火墙(个人防火墙)5、网络防火墙的功能 二、防火墙工作原理1、无状态包过滤防火墙2、有状态包过滤防火墙(状态检测/动…...
Express 集成Sequelize+Sqlite3 默认开启WAL 进程间通信 Conf 打包成可执行 exe 文件
代码:express-exe: 将Express开发的js打包成exe服务丢给客户端使用 实现目标 Express 集成 Sequelize 操作 Sqlite3 数据库; 启动 Sqlite3 时默认开启 WAL 模式,避免读写互锁,支持并发读; 利用 Conf 实现主进程与 Ex…...
CppCon 2015 学习:A C++14 Approach to Dates and Times
Big Picture — 日期库简介 扩展 标准库 这个库是对 C 标准库中 <chrono> 的自然延伸,专注于处理“日历”相关的功能(比如年月日、闰年、节假日等),而不仅仅是时间点和时长。极简设计 它是**单头文件(header-on…...
基于CNN的OFDM-IM信号检测系统设计与实现
基于CNN的OFDM-IM信号检测系统设计与实现 摘要 本文详细研究了基于卷积神经网络(CNN)的正交频分复用索引调制(OFDM-IM)信号检测方法。通过在不同信噪比(SNR)和信道条件下进行系统仿真,对比分析了CNN检测器与传统最大似然(ML)检测器的误码率(BER)性能和计算复杂度。实验结果表…...
macos常见且应该避免被覆盖的系统环境变量(避免用 USERNAME 作为你的自定义变量名)
文章目录 macos避免用 USERNAME 作为你的自定义变量名macos常见且应该避免被覆盖的系统环境变量 macos避免用 USERNAME 作为你的自定义变量名 问题: 你执行了:export USERNAME“admin” 然后执行:echo ${USERNAME} 输出却是:xxx …...
2024年认证杯SPSSPRO杯数学建模D题(第二阶段)AI绘画带来的挑战解题全过程文档及程序
2024年认证杯SPSSPRO杯数学建模 D题 AI绘画带来的挑战 原题再现: 2023 年开年,ChatGPT 作为一款聊天型AI工具,成为了超越疫情的热门词条;而在AI的另一个分支——绘图领域,一款名为Midjourney(MJÿ…...
深入理解CSS常规流布局
引言 在网页设计中,理解元素如何排列和相互作用至关重要。CSS提供了三种主要的布局方式:常规流、浮动和定位。本文将重点探讨最基础也是最常用的常规流布局(Normal Flow),帮助开发者掌握页面布局的核心机制。 什么是…...
DOCKER使用记录
1、拉取镜像 直接使用docker pull <image>,大概率会出现下面的报错信息: (base) jetsonyahboom:~$ docker pull ubuntu:18.04 Error response from daemon: Get "https://registry-1.docker.io/v2/": net/http: request canceled while …...
MYSQL中常见的函数和使用
字符串函数 CONCAT(str1,str2,...,strN) :用于将多个字符串连接成一个字符串。例如,SELECT CONCAT(SQL, , 函数) ,结果为 “SQL 函数”。 LOWER(str) :将字符串中的所有字母转换为小写。例如,SELECT LOWER(MySQL Fun…...
【深度学习相关安装及配环境】Anaconda搭建虚拟环境并安装CUDA、cuDVV和对应版本的Pytorch,并在jupyter notebook上部署
目录 1. 查看自己电脑的cuda版本2.安装cuda关于环境变量的配置测试一下,安装完成 3.安装cuDVV环境变量的配置测试一下,安装完成 4.创建虚拟环境先安装镜像源下载3.11版本py 5.在虚拟环境下,下载pytorch6.验证是否安装成功7.在jupyter noteboo…...
web3-区块链基础:从区块添加机制到哈希加密与默克尔树结构
区块链基础:从区块添加机制到哈希加密与默克尔树结构 什么是区块链 抽象的回答: 区块链提供了一种让多个参与方在没有一个唯一可信方的情况下达成合作 若有可信第三方 > 不需要区块链 [金融系统中常常没有可信的参与方] 像股票市场,或者一个国家的…...
TCP小结
1. 核心特性 面向连接:通过三次握手建立连接,四次挥手终止连接,确保通信双方状态同步。 TCP连接建立的3次握手 抓包: client发出连接请求; server回应client请求,并且同步发送syn连接; clien…...
django ssh登录 并执行命令
在Django开发环境中,通常不推荐直接通过SSH登录到服务器并执行命令,因为这违背了Django的架构设计原则,即前端与后端分离。Django主要负责处理Web请求、逻辑处理和数据库交互,而不直接执行系统级命令。然而,在某些情况…...
unix/linux,sudo,其高级使用
掌握了sudo的基石,现在是时候向更高阶的技巧和应用进发了!sudo的强大远不止于简单的sudo <command>。它的高级用法能让你在复杂的系统管理和安全场景中游刃有余,如同经验丰富的物理学家巧妙运用各种定律解决棘手问题。 sudo 的高级使用技巧与场景 精细化命令控制与参…...
Python 打包指南:setup.py 与 pyproject.toml 的全面对比与实战
在 Python 开发中,创建可安装的包是分享代码的重要方式。本文将深入解析两种主流打包方法——setup.py 和 pyproject.toml,并通过一个实际项目示例,展示如何使用现代的 pyproject.toml 方法构建、测试和发布 Python 包。 一、setup.py 与 pyp…...
计算机视觉与深度学习 | 基于OpenCV的实时睡意检测系统
基于OpenCV的实时睡意检测系统 下面是一个完整的基于OpenCV的睡意检测系统实现,该系统使用眼睛纵横比(EAR)算法检测用户是否疲劳或瞌睡。 import cv2 import numpy as np import dlib from scipy.spatial import distance as dist import pygame import time# 初始化pygame用…...
python打卡day44@浙大疏锦行
知识点回顾: 预训练的概念常见的分类预训练模型图像预训练模型的发展史预训练的策略预训练代码实战:resnet18 作业: 尝试在cifar10对比如下其他的预训练模型,观察差异,尽可能和他人选择的不同尝试通过ctrl进入resnet的…...
性能优化 - 案例篇:缓存_Guava#LoadingCache设计
文章目录 Pre引言1. 缓存基本概念2. Guava 的 LoadingCache2.1 引入依赖与初始化2.2 手动 put 与自动加载(CacheLoader)2.2.1 示例代码 2.3 缓存移除与监听(invalidate removalListener) 3. 缓存回收策略3.1 基于容量的回收&…...
NiceGUI 是一个基于 Python 的现代 Web 应用框架
NiceGUI 是一个基于 Python 的现代 Web 应用框架,它允许开发者直接使用 Python 构建交互式 Web 界面,而无需编写前端代码。以下是 NiceGUI 的主要功能和特点: 核心功能 1.简单易用的 UI 组件 提供按钮、文本框、下拉菜单、滑块、图表等常见…...
生动形象理解CNN
好的!我们把卷积神经网络(CNN)想象成一个专门识别图像的“侦探小队”,用破案过程来生动解释它的工作原理: 🕵️♂️ 案件:识别一张“猫片” 侦探小队(CNN)的破案流程&am…...
python入门(1)
第一章 第一个python程序 1.1 print函数 print方法的作用 : 把想要输出的内容打印在屏幕上 print("Hello World") 1.2 输出中文 在Python 2.x版本中,默认的编码方式是ASCII编码方式,如果程序中用到了中文,直接输出结果很可能会…...
【PDF提取表格】如何提取发票内容文字并导出到Excel表格,并将发票用发票号改名,基于pdf电子发票的应用实现
应用场景 该应用主要用于企业财务部门或个人处理大量电子发票,实现以下功能: 自动从 PDF 电子发票中提取关键信息(如发票号码、日期、金额、销售方等)将提取的信息整理并导出到 Excel 表格,方便进行财务统计和报销使…...
Hugging Face 最新开源 SmolVLA 小模型入门教程(一)
系列文章目录 目录 系列文章目录 前言 一、引言 二、认识 SmolVLA! 三、如何使用SmolVLA? 3.1 安装 3.2 微调预训练模型 3.3 从头开始训练 四、方法 五、主要架构 5.1 视觉语言模型(VLM) 5.2 动作专家:流匹…...
封闭内网安装配置VSCode Anconda3 并配置 PyQt5开发
封闭内网安装配置VSCode Anconda3 并配置 PyQt5开发 零一 vscode1.1 下载 vscode1.2 下载插件1.3 安装 二 anaconda 32.1 下载2.2 新建虚拟环境1 新建快捷方式,启动base2 新建虚拟环境 3 配置Qt designer3.1 designer.exe和uic.exe3.2 设置插件,3.4 ui文件转为py文件 4使用4.1 …...
大话软工笔记—组合要素2之逻辑
1. 逻辑的概念 逻辑,指的是思维的规律和规则,是对思维过程的抽象。 结合逻辑的一般定义以及信息系统的设计方法,对逻辑的概念进行抽提、定义为三个核心内涵,即:规律、顺序、规则。 (1)规律&a…...
浅谈边缘计算
(꒪ꇴ꒪ ),Hello我是祐言QAQ我的博客主页:C/C语言,数据结构,Linux基础,ARM开发板,网络编程等领域UP🌍快上🚘,一起学习,让我们成为一个强大的攻城狮࿰…...
宝塔专属清理区域,宝塔清理MySQL日志(高效释放空间)
1. 删除超过 365 天的积分变更记录 宝塔面板 → 数据库 → 选择数据库 → 点击 管理 进入 phpMyAdmin 后: 选择在用的数据库名 看到顶部的 SQL 点击 输入命令 然后点击执行 DELETE FROM pre_common_credit_log WHERE dateline < UNIX_TIMESTAMP(DATE_SUB(NO…...
7.Demo Js执行同步任务,微任务,宏任务的顺序(3)
一个包含 同步任务、微任务(Promise)、宏任务(setTimeout) 的例子,JS 是怎么调度这些任务的。 🎯 例子代码(建议复制到浏览器控制台运行) console.log(‘同步任务 1’); setTimeo…...
边缘计算网关赋能沸石转轮运行故障智能诊断的配置实例
一、项目背景 在环保行业,随着国家对大气污染治理要求的不断提高,VOCs废气处理成为了众多企业的重要任务。沸石转轮作为一种高效的VOCs治理设备,被广泛应用于石油化工、汽车制造、印刷包装等主流行业。这些行业生产规模大、废气排放量多&…...
