当前位置：首页 > article >正文

极客时间-《搞定音频技术》-学习笔记

article 2026/2/7 22:56:07

极客时间-《搞定音频技术》-学习笔记

语音基础知识

https://www.zhangzhenhu.com/audio/feature.html

序章-0

作者说这个语音技术啊，未来肯定前景大好啊，大家都来学习，然后给出了课程的脑图

音频基础

什么是声音

声音的三要素是指响度、音调和音色，它们都是声音的主观属性，用来描述声音的特征。

响度指声音的强弱，音调指声音的高低，音色指声音的质量或特征。

响度（Loudness）：

指声音的强弱，由振幅决定。
振幅越大，响度越大；振幅越小，响度越小。
响度还跟距离发声体远近有关。
单位是分贝(dB)。

音调（Pitch）：

指声音的高低，由频率决定。
频率越高，音调越高；频率越低，音调越低。
单位是赫兹(Hz)。
人耳能听到的频率范围大约是20Hz 到20000Hz。

音色（Timbre）：

指声音的质量、特征，由声源的材料、结构、形状等决定。
不同发声体的音色不同，可以帮助我们区分不同的声源。
音色也与声波的波形有关

01｜声音是如何保存成数字信号的？

这章我觉得这个介绍得更好：数字音频基础－从PCM说起

声音本质是空气振动，数字音频是这种振动的数学表达。如果声音的三大构成是响度，音高，音色。
那么理解数字音频信号的三大核心指标——就是采样位深、采样率、通道数

模拟到数字：PCM编码链路

声音采集遵循经典的模数转换流程。麦克风将声波转换为电信号（模拟信号），ADC再通过PCM脉冲编码调制完成数字化。这个过程包含三个关键步骤：抽样、量化、编码。

graph LRA[声波] --> B[麦克风振膜]B --> C[模拟电信号]C --> D[ADC转换器（硬件）]D --> E[PCM数字信号（软件）]E --> F[音频裸数据]

关于模拟信号到数字信号的部分：

PCM文件即未封装的音频原始数据，也称"裸数据"。所有压缩格式的源头都是PCM。

什么是ADC 模数转换器
什么是PCM脉冲编码
什么是DAC 数模转换器

采样位深：振幅精度的量化标尺

位深决定每个采样点的存储精度，直接影响动态范围和失真度。16位提供96dB动态范围，足够电话通信；32位达到192dB，满足专业音乐制作需求。

位深与精度关系：

8位：256个量化级别，早期设备标准，明显失真
16位：65536个级别，消费级音频主流
24位：1677万个级别，专业录音标准
32位：42亿个级别，后期处理无损

采样率：频域完整性的奈奎斯特约束

采样率确定可还原的最高频率。我们在《计算机网络》里学过，根据奈奎斯特定理，采样率必须超过目标频率的2倍才能无失真重建信号。

常见采样率应用：

8kHz：电话通信（4kHz带宽）
16kHz：语音识别（8kHz带宽）
44.1kHz：CD音质（22.05kHz带宽）
48kHz：专业音频标准（24kHz带宽）
96kHz：高保真录音（48kHz带宽）

graph LRA[模拟信号] --> B[采样率 fs]B --> C{fs > 2×fmax?}C -->|是| D[完整重建]C -->|否| E[频谱混叠]

44.1kHz覆盖人耳20Hz-20kHz全频段，48kHz则为数字音频工作流提供更大余量，避免抗混叠滤波器设计复杂化。

通道数：空间音频的维度扩展

通道数定义同一时刻并行处理的独立音频流数量。每个通道对应一个物理扬声器或采集麦克风，决定音频系统的空间表现力。

典型通道配置：

单声道（Mono）：实时通信、语音识别
立体声（Stereo）：音乐播放、耳机体验
2.1声道：左右主音箱+低音炮
5.1声道：环绕声影院系统

立体声通过左右耳差异营造空间感，麦克风阵列通过多通道采集实现波束成形和噪声抑制。通道数直接影响存储需求和传输带宽。

PCM存储计算：从理论到实践

PCM文件大小遵循简单乘法法则：存储空间 = 位深 × 采样率 × 通道数 × 时长

实例计算：

音频参数：立体声，48kHz，16位，100秒
存储空间：16 × 48000 × 2 × 100 = 153,600,000位 = 18.31MB
传输带宽：16 × 48000 × 2 = 1,536,000bps = 1.5Mbps

这解释了为什么原始PCM文件如此庞大，也说明了音频压缩的必要性。

音频封装：有损与无损的权衡艺术

音频封装格式通过不同压缩策略在文件大小与音质间寻找平衡。理解压缩原理有助于选择适合的格式。

有损压缩（感知编码）：
利用人耳听觉掩蔽效应，去除感知冗余信息。MP3、AAC属此类，压缩比高但存在不可逆失真。

无损压缩（统计编码）：
仅去除统计冗余，保持完全可逆。FLAC、ALAC提供CD级音质，但文件仍较大。

原始格式：
WAV、AIFF本质是PCM的容器格式，添加文件头信息但不压缩音频数据。

选择策略取决于应用场景：存储受限选MP3，音质优先选FLAC，专业制作用WAV。

# to do
# 等待更新

极客时间-《搞定音频技术》-学习笔记

极客时间-《搞定音频技术》-学习笔记语音基础知识 https://www.zhangzhenhu.com/audio/feature.html 序章-0 作者说这个语音技术啊，未来肯定前景大好啊，大家都来学习，然后给出了课程的脑图音频基础什么是声音声音的三要素是指响度、…...

编程日记 2026/2/5 9:27:55

网络攻防技术十三：网络防火墙

文章目录一、网络防火墙概述1、网络型防火墙（网络防火墙）2、Web应用防火墙3、数据库防火墙4、主机防火墙（个人防火墙）5、网络防火墙的功能二、防火墙工作原理1、无状态包过滤防火墙2、有状态包过滤防火墙（状态检测/动…...

编程日记 2026/2/5 8:33:45

Express 集成Sequelize+Sqlite3 默认开启WAL 进程间通信 Conf 打包成可执行 exe 文件

代码：express-exe: 将Express开发的js打包成exe服务丢给客户端使用实现目标 Express 集成 Sequelize 操作 Sqlite3 数据库； 启动 Sqlite3 时默认开启 WAL 模式，避免读写互锁，支持并发读； 利用 Conf 实现主进程与 Ex…...

编程日记 2026/2/5 11:29:48

CppCon 2015 学习:A C++14 Approach to Dates and Times

Big Picture — 日期库简介扩展标准库这个库是对 C 标准库中 <chrono> 的自然延伸，专注于处理“日历”相关的功能（比如年月日、闰年、节假日等），而不仅仅是时间点和时长。极简设计它是**单头文件（header-on…...

编程日记 2025/11/20 14:00:37

基于CNN的OFDM-IM信号检测系统设计与实现

基于CNN的OFDM-IM信号检测系统设计与实现摘要本文详细研究了基于卷积神经网络(CNN)的正交频分复用索引调制(OFDM-IM)信号检测方法。通过在不同信噪比(SNR)和信道条件下进行系统仿真，对比分析了CNN检测器与传统最大似然(ML)检测器的误码率(BER)性能和计算复杂度。实验结果表…...

编程日记 2025/12/25 4:32:07

macos常见且应该避免被覆盖的系统环境变量（避免用 USERNAME 作为你的自定义变量名）

文章目录 macos避免用 USERNAME 作为你的自定义变量名macos常见且应该避免被覆盖的系统环境变量 macos避免用 USERNAME 作为你的自定义变量名问题： 你执行了：export USERNAME“admin” 然后执行：echo ${USERNAME} 输出却是：xxx …...

编程日记 2025/9/20 4:25:15

2024年认证杯SPSSPRO杯数学建模D题(第二阶段)AI绘画带来的挑战解题全过程文档及程序

2024年认证杯SPSSPRO杯数学建模 D题 AI绘画带来的挑战原题再现： 2023 年开年，ChatGPT 作为一款聊天型AI工具，成为了超越疫情的热门词条；而在AI的另一个分支——绘图领域，一款名为Midjourney（MJ&#xff…...

编程日记 2026/2/5 9:27:52

深入理解CSS常规流布局

引言在网页设计中，理解元素如何排列和相互作用至关重要。CSS提供了三种主要的布局方式：常规流、浮动和定位。本文将重点探讨最基础也是最常用的常规流布局（Normal Flow），帮助开发者掌握页面布局的核心机制。什么是…...

编程日记 2026/1/10 10:48:22

DOCKER使用记录

1、拉取镜像直接使用docker pull <image>，大概率会出现下面的报错信息： (base) jetsonyahboom:~$ docker pull ubuntu:18.04 Error response from daemon: Get "https://registry-1.docker.io/v2/": net/http: request canceled while …...

编程日记 2026/2/5 21:44:02

MYSQL中常见的函数和使用

字符串函数 CONCAT(str1,str2,...,strN) ：用于将多个字符串连接成一个字符串。例如，SELECT CONCAT(SQL, , 函数) ，结果为 “SQL 函数”。 LOWER(str) ：将字符串中的所有字母转换为小写。例如，SELECT LOWER(MySQL Fun…...

编程日记 2025/10/29 5:14:17

【深度学习相关安装及配环境】Anaconda搭建虚拟环境并安装CUDA、cuDVV和对应版本的Pytorch，并在jupyter notebook上部署

目录 1. 查看自己电脑的cuda版本2.安装cuda关于环境变量的配置测试一下，安装完成 3.安装cuDVV环境变量的配置测试一下，安装完成 4.创建虚拟环境先安装镜像源下载3.11版本py 5.在虚拟环境下，下载pytorch6.验证是否安装成功7.在jupyter noteboo…...

编程日记 2026/2/5 9:27:50

web3-区块链基础：从区块添加机制到哈希加密与默克尔树结构

区块链基础：从区块添加机制到哈希加密与默克尔树结构什么是区块链抽象的回答: 区块链提供了一种让多个参与方在没有一个唯一可信方的情况下达成合作若有可信第三方 > 不需要区块链 [金融系统中常常没有可信的参与方] 像股票市场，或者一个国家的…...

编程日记 2026/2/5 9:27:47

TCP小结

1. 核心特性面向连接：通过三次握手建立连接，四次挥手终止连接，确保通信双方状态同步。 TCP连接建立的3次握手抓包： client发出连接请求； server回应client请求，并且同步发送syn连接； clien…...

编程日记 2026/2/5 9:27:44

django ssh登录并执行命令

在Django开发环境中，通常不推荐直接通过SSH登录到服务器并执行命令，因为这违背了Django的架构设计原则，即前端与后端分离。Django主要负责处理Web请求、逻辑处理和数据库交互，而不直接执行系统级命令。然而，在某些情况…...

编程日记 2025/11/2 1:47:10

unix/linux，sudo，其高级使用

掌握了sudo的基石，现在是时候向更高阶的技巧和应用进发了！sudo的强大远不止于简单的sudo <command>。它的高级用法能让你在复杂的系统管理和安全场景中游刃有余，如同经验丰富的物理学家巧妙运用各种定律解决棘手问题。 sudo 的高级使用技巧与场景精细化命令控制与参…...

编程日记 2025/9/24 8:11:58

Python 打包指南：setup.py 与 pyproject.toml 的全面对比与实战

在 Python 开发中，创建可安装的包是分享代码的重要方式。本文将深入解析两种主流打包方法——setup.py 和 pyproject.toml，并通过一个实际项目示例，展示如何使用现代的 pyproject.toml 方法构建、测试和发布 Python 包。一、setup.py 与 pyp…...

编程日记 2026/2/7 18:23:54

计算机视觉与深度学习｜基于OpenCV的实时睡意检测系统

基于OpenCV的实时睡意检测系统下面是一个完整的基于OpenCV的睡意检测系统实现，该系统使用眼睛纵横比(EAR)算法检测用户是否疲劳或瞌睡。 import cv2 import numpy as np import dlib from scipy.spatial import distance as dist import pygame import time# 初始化pygame用…...

编程日记 2025/9/26 0:34:25

python打卡day44@浙大疏锦行

知识点回顾： 预训练的概念常见的分类预训练模型图像预训练模型的发展史预训练的策略预训练代码实战：resnet18 作业： 尝试在cifar10对比如下其他的预训练模型，观察差异，尽可能和他人选择的不同尝试通过ctrl进入resnet的…...

编程日记 2025/12/15 11:40:32

性能优化 - 案例篇：缓存_Guava#LoadingCache设计

文章目录 Pre引言1. 缓存基本概念2. Guava 的 LoadingCache2.1 引入依赖与初始化2.2 手动 put 与自动加载（CacheLoader）2.2.1 示例代码 2.3 缓存移除与监听（invalidate removalListener） 3. 缓存回收策略3.1 基于容量的回收&…...

编程日记 2026/2/5 9:27:39

NiceGUI 是一个基于 Python 的现代 Web 应用框架

NiceGUI 是一个基于 Python 的现代 Web 应用框架，它允许开发者直接使用 Python 构建交互式 Web 界面，而无需编写前端代码。以下是 NiceGUI 的主要功能和特点： 核心功能 1.简单易用的 UI 组件提供按钮、文本框、下拉菜单、滑块、图表等常见…...

编程日记 2025/11/9 8:24:35

生动形象理解CNN

好的！我们把卷积神经网络（CNN）想象成一个专门识别图像的“侦探小队”，用破案过程来生动解释它的工作原理： 🕵️♂️ 案件：识别一张“猫片” 侦探小队（CNN）的破案流程&am…...

编程日记 2026/1/13 16:31:08

python入门（1）

第一章第一个python程序 1.1 print函数 print方法的作用 : 把想要输出的内容打印在屏幕上 print("Hello World") 1.2 输出中文在Python 2.x版本中，默认的编码方式是ASCII编码方式，如果程序中用到了中文，直接输出结果很可能会…...

编程日记 2026/2/5 11:29:45

【PDF提取表格】如何提取发票内容文字并导出到Excel表格，并将发票用发票号改名，基于pdf电子发票的应用实现

应用场景该应用主要用于企业财务部门或个人处理大量电子发票，实现以下功能： 自动从 PDF 电子发票中提取关键信息（如发票号码、日期、金额、销售方等）将提取的信息整理并导出到 Excel 表格，方便进行财务统计和报销使…...

编程日记 2026/2/5 9:27:36

Hugging Face 最新开源 SmolVLA 小模型入门教程（一）

系列文章目录目录系列文章目录前言一、引言二、认识 SmolVLA！ 三、如何使用SmolVLA？ 3.1 安装 3.2 微调预训练模型 3.3 从头开始训练四、方法五、主要架构 5.1 视觉语言模型（VLM） 5.2 动作专家：流匹…...

编程日记 2026/2/5 11:29:40

封闭内网安装配置VSCode Anconda3 并配置 PyQt5开发

封闭内网安装配置VSCode Anconda3 并配置 PyQt5开发零一 vscode1.1 下载 vscode1.2 下载插件1.3 安装二 anaconda 32.1 下载2.2 新建虚拟环境1 新建快捷方式,启动base2 新建虚拟环境 3 配置Qt designer3.1 designer.exe和uic.exe3.2 设置插件,3.4 ui文件转为py文件 4使用4.1 …...

编程日记 2026/2/7 2:17:55

大话软工笔记—组合要素2之逻辑

1. 逻辑的概念逻辑，指的是思维的规律和规则，是对思维过程的抽象。结合逻辑的一般定义以及信息系统的设计方法，对逻辑的概念进行抽提、定义为三个核心内涵，即：规律、顺序、规则。 （1）规律&a…...

编程日记 2026/2/7 11:47:08

浅谈边缘计算

(꒪ꇴ꒪ )，Hello我是祐言QAQ我的博客主页：C/C语言，数据结构，Linux基础，ARM开发板，网络编程等领域UP🌍快上🚘，一起学习，让我们成为一个强大的攻城狮&#xff0…...

编程日记 2025/9/24 23:59:26

宝塔专属清理区域,宝塔清理MySQL日志（高效释放空间）

1. 删除超过 365 天的积分变更记录宝塔面板 → 数据库 → 选择数据库 → 点击管理进入 phpMyAdmin 后： 选择在用的数据库名看到顶部的 SQL 点击输入命令然后点击执行 DELETE FROM pre_common_credit_log WHERE dateline < UNIX_TIMESTAMP(DATE_SUB(NO…...

编程日记 2025/11/27 5:07:04