当前位置：首页 > article >正文

音视频小白系统入门课-2

article 2026/2/8 3:08:40

本系列笔记为博主学习李超老师课程的课堂笔记，仅供参阅

课程传送门：音视频小白系统入门课音视频基础+ffmpeg原理

往期课程笔记传送门：

音视频小白系统入门笔记-0
音视频小白系统入门笔记-1

课程实践代码仓库：传送门

音视频编解码

可以通过ffmpeg -f avfoundation -list_devices true -i "" 查看Mac设备支持的设备编号

编解码器

上下行网络一般是非对称的（下行带宽一般更大，因为大多数终端都是拉取数据）

压缩-质量 trade off

压缩方法：

消除冗余信息：有损压缩
- 剔除人类听觉范围外的音频（20Hz-20kHz)
- 被遮蔽的音频信号(心理声学模型)
  - 频域遮蔽
  - 时域遮蔽
无损压缩：熵编码
- 哈夫曼编码
- 算数编码
- 香农编码

常见的音频编解码器：

OPUS：新兴、延迟小、压缩率高，WebRTC
AAC：应用广泛，支持好，取代mp3
Ogg：收费
Speex：混音消除，以前流行
G.711：窄带音频，固定电话，声音损耗严重

压缩效果：OPUS > AAC > Ogg

请添加图片描述

AAC编解码器：

AAC LC（基础，128k）
AAC HE V1（废弃，按64k左右）+ SBR技术，按频谱分开保存
AAC HE V2（添加新技术）+ PS技术，多声道差异保存

AAC格式：

ADIF（Audio Data Interchange Format）：从头解码，多用在磁盘文件
ADTS（Audio Data Transport Stream）：每一帧有一个同步字，大一些，可以在音频流的任意位置解码

ADTS结构：7/9个字节，2字节CRC校验

请添加图片描述

Audio Object Types：

1 AAC Main
2 AAC LC

5 SBR : AAC HE V1

29 PS：AAC HE V2

Sampling Frequency Index：

4 44100 Hz

11 48000 HZ

ADTS头规范验证：http://p23.nl/projects/aac-header

ffmpeg -i demo.mp3 -vn -c:a libfdk_aac -ar 44100 -channel_layout mono/stereo -profile:a aac_he_v2 demo_mp3.aac
- -i 指定输入源
- -vn 过滤视频
- -c:a libfdk_aac codec:audio 音频编码器指定为fdk_aac
- -ar 44100 采样率44.1kHz
- -channel_layout stereo 立体声采样
- -profile:a aac_he_v2设置音频编码格式

为了支持libfdk_aac库，对于brew安装的ffmpeg需要使用homebrew-ffmpeg第三方库安装支持fdk-aac的版本；对于源码安装的ffmpeg，需要在configure时打开libfdk-aac选项重新编译

音频重采样：转换音频三元组（采样率、位深/采样大小、通道数）

什么是重采样？

目标：将音频从一种采样格式（如 48000Hz F32LE 单声道）转换为另一种（如 44100Hz S16LE 单声道）。
关键操作：
- 采样率转换（如 48kHz → 44.1kHz）：通过插值/抽取算法（如线性插值、sinc 滤波）调整样本数量。
- 格式转换（如 F32LE → S16LE）：量化位深，可能涉及缩放（如 float [-1,1] → int16 [-32768,32767]）。
- 声道布局调整（如立体声 → 单声道）：混合或选择声道。

为什么要重采样：

音频设备采集数据与编码器要求数据不一致
扬声器要求的音频数据和播放数据不一致
方便运算：混音消除等场景使用单声道会方便运算

如何知道对应设备要求的规格？

了解音频设备的参数
查看ffmpeg的源码

为什么不把swr_init合并到swr_alloc_set_opts2中？

(1) 灵活性：允许动态修改配置- 用户可能在 `alloc` 后需要 调整参数（例如根据实际输入动态修改声道布局），再调用 `swr_init()`。如果合并，每次修改都要重新分配内存，效率更低。(2) 延迟初始化：节省资源- 某些场景下，`SwrContext` 可能被创建但 不立即使用（如预初始化一组转换器）。合并会导致无用的计算（如滤波器系数）提前执行。(3) 错误处理的清晰性- 分离设计允许：- 先检查 `alloc` 是否成功（内存分配问题）。- 再检查 `init` 是否成功（参数兼容性问题）。合并后难以区分错误类型。

为什么可以逐帧处理？

- 状态保持：`SwrContext` 内部会缓存部分样本，处理跨帧的连续性（例如 48kHz → 44.1kHz 时，一帧输入可能对应不完整输出帧）。
- 增量处理：每次调用 `swr_convert()` 时：- 输入：当前帧的音频数据（如 `2048字节 F32LE`）。- 输出：尽可能多的重采样后数据（可能比输入少/多，取决于采样率比）。- 剩余未处理的样本会暂存在 `SwrContext` 中，等待下一帧输入。

nb_sample 的作用

（1）定义- `nb_sample` 表示 单次处理的音频样本数（注意是“样本数”而非“字节数”）。- 例如：若音频是单声道 `F32LE`（每个样本占4字节），`2048字节` 对应 `2048 / 4 = 512` 个样本，此时 `nb_sample = 512`。
- 它决定了每次调用 `swr_convert()` 时，输入/输出缓冲区的有效数据量。（2）为什么需要它？- 分块处理：音频数据通常是流式分块传输的（比如每次从设备读取一帧），`nb_sample` 告诉重采样器当前块有多少有效样本需要处理。
- 缓冲区管理：输入/输出缓冲区需要预分配足够空间，`nb_sample` 用于计算缓冲区大小（如 `av_samples_alloc_array_and_samples()`）。

为什么 swr_src_data 是 uint8_t**（二级指针）？

根本原因：FFmpeg 对多声道音频的通用设计FFmpeg 的音频处理 API（如 `swr_convert`、`av_samples_alloc_array_and_samples`）需要兼容 多声道音频的平面（Planar）存储格式。对于多声道音频（如立体声、5.1声道），数据可能按以下两种方式存储：- 交错（Interleaved）：`[LRLRLR...]`（左右声道数据交替排列）
- 平面（Planar）：`[LLLL...]` + `[RRRR...]`（每个声道单独连续存储）**内存布局示例**假设立体声（2声道）音频：- **Planar 模式**：```cswr_src_data[0] = 左声道数据指针 (LLLL...)swr_src_data[1] = 右声道数据指针 (RRRR...)```- **Interleaved 模式**：```cswr_src_data[0] = 所有声道交织数据指针 (LRLRLR...)swr_src_data[1] = NULL (未使用)```

AAC 编码器的输入要求

AAC 编码器（如 `libfdk_aac` 或 FFmpeg 内置的 `aac`）通常支持以下格式：**采样格式（Sample Format）**：- 必须为 **`AV_SAMPLE_FMT_S16`（16位整型）** 或 **`AV_SAMPLE_FMT_FLTP`（32位浮点平面格式）**。
- 如果设备采集的是其他格式（如 `AV_SAMPLE_FMT_U8`、`AV_SAMPLE_FMT_S32`），需转换。**声道布局（Channel Layout）**：- 支持单声道（`AV_CH_LAYOUT_MONO`）或立体声（`AV_CH_LAYOUT_STEREO`）。
- 若设备采集的是多声道（如5.1），需降混（Downmix）或明确编码器是否支持。**采样率（Sample Rate）**：- 常见支持 16kHz、32kHz、44.1kHz、48kHz。
- 若设备采集的采样率不匹配（如8kHz），需重采样。

AVFrame：编码前的数据

AVPacket：编码后的数据

调用libfdk_aac编码时运行报错：

[libfdk_aac @ 0x138e82c90] frame_size (2048) was not respected for a non-last frame
avcodec_send_frame error -22: Invalid argument

经过查阅资料发现，libfkd-aac编码器对每次发送帧的采样数有要求：

单通道：必须是2048个采样
双通道：必须是1024个采样

前两帧和最后一帧可以不满足条件。我们音频设备采集的一帧数据经过重采样转换往往不满足条件，因此必须做一定的缓冲处理。

Swift调用C++：https://juejin.cn/post/7265999062242033724

音视频小白系统入门课-2

本系列笔记为博主学习李超老师课程的课堂笔记，仅供参阅课程传送门：音视频小白系统入门课音视频基础ffmpeg原理往期课程笔记传送门： 音视频小白系统入门笔记-0音视频小白系统入门笔记-1 课程实践代码仓库：传送门音视频编解…...

编程日记 2026/2/6 6:23:37

Linux：安装 CentOS 7（完整教程）

文章目录一、简介二、安装 CentOS 72.1 虚拟机配置2.2 安装CentOS 7 三、结语一、简介 CentOS（Community ENTerprise Operating System）是一个基于 Linux 的发行版之一，旨在提供一个免费的、企业级的计算平台，因其稳定性、安全…...

编程日记 2026/1/24 10:48:35

MATLAB 控制系统设计与仿真 - 34

多变量系统知识回顾 - MIMO system 这一章对深入理解多变量系统以及鲁棒分析至关重要首先，对于如下系统： 当G(s)为单输入，单输出系统时： 如果： 则： 所以因此，对于SISO，系统的增…...

编程日记 2026/2/7 11:28:04

【网络】通过Samba实现Window挂在Linux服务器路径

有时候我们去进行内网部署时，会遇到客户或者甲方爸爸说，需要将Linux中的某个路径共享出去到Window上，挂载出比如Z:\这种盘符。通过打开Z盘，来查看服务器的指定目录下的数据。步骤1： 在Linux中安装samba yum install…...

编程日记 2026/1/22 15:23:41

DevOps 进阶指南：如何让工作流更丝滑？

DevOps 进阶指南：如何让工作流更丝滑？引言在 DevOps 世界里，我们追求的是高效、稳定、自动化。但现实总是充满挑战：代码部署失败、CI/CD 过程卡顿、环境不一致……这些痛点让开发和运维团队疲惫不堪。今天，我就来聊聊如何优化 DevOps 工作流，通过实战案例和代码示例，…...

编程日记 2025/12/9 4:02:57

架构思维：缓存层场景实战_读缓存（下）

文章目录 Pre业务场景缓存存储数据的时机与常见问题解决方案1. 缓存读取与存储逻辑2. 高并发下的缓存问题及解决方案3. 缓存预热（减少冷启动问题） 缓存更新策略（双写问题）1. 先更新缓存，再更新数据库（不推荐…...

编程日记 2026/2/6 8:25:19

uniapp微信小程序实现sse

微信小程序实现sse 注：因为微信小程序不支持sse请求，因为后台给的是分包的流，所以我们就使用接受流的方式，一直接受，然后把接受的数据拿取使用。这里还是使用uniapp的原生请求。上代码 //注意：一定要下…...

编程日记 2026/2/5 20:56:32

C#语言的区块链

C#语言在区块链开发中的应用引言区块链技术自比特币问世以来，逐渐发展成为一种革命性的技术，其在金融、供应链、物联网等各个领域都产生了深远的影响。随着区块链应用的不断增加，开发者对区块链技术的需求也在不断上升。在众多编程语言中…...

编程日记 2025/12/24 16:50:22

Ubuntu服务器日志满audit:backlog limit exceeded了会报错解决方案-Linux 审计系统 (auditd) 工具

auditd 是 Linux 系统中的审计守护进程，负责收集、记录和监控系统安全相关事件。以下是相关工具及其功能： 核心组件 auditd - 审计守护进程系统的审计服务主程序收集系统调用信息并写入日志文件通常存储在 /var/log/audit/audit.log auditctl - 审计控…...

编程日记 2025/12/7 17:29:38

新能源汽车能量流测试的传感器融合技术应用指南

第一部分：核心原理模块化拆解模块1：多源传感器物理层融合关键技术： 高精度同步采集架构采用PXIe-8840控制器同步定时模块（NI PXIe-6674T），实现CAN/LIN/模拟量信号的μs级同步光纤电压传感器&#xff0…...

编程日记 2026/2/7 12:48:40

人工智能与网络安全：AI如何预防、检测和应对网络攻击？

引言：网络安全新战场，AI成关键角色在数字化浪潮不断推进的今天，网络安全问题已经成为每一家企业、每一个组织无法回避的“隐形战场”。无论是电商平台、金融机构，还是政府机关、制造企业，都可能面临数据泄露、勒索病毒…...

编程日记 2026/2/2 13:08:32

链表知识回顾

类型：单链表，双链表、循环链表存储：在内存中不是连续存储删除操作：即让c的指针指向e即可，无需释放d，因为java中又内存回收机制添加节点： 链表的构造函数 public class ListNode {// 结点…...

编程日记 2026/2/7 17:33:18

FPGA学习(五)——DDS信号发生器设计

FPGA学习(五)——DDS信号发生器设计目录 FPGA学习(五)——DDS信号发生器设计一、FPGA开发中常用IP核——ROM/RAM/FIFO1、ROM简介2、ROM文件的设置（1）直接编辑法（2）用C语言等软件生成初始化文件 3、ROM IP核配置调用二、DDS信号发…...

编程日记 2026/1/30 4:18:39

【数据结构入门训练DAY-18】信息学奥赛一本通T1331-后缀表达式的值

文章目录前言一、题目二、解题思路总结前言本次训练内容： 栈的复习。栈模拟四则运算计算问题的练习。训练解题思维。一、题目从键盘读入一个后缀表达式（字符串），只含有0-9组成的运算数及加（）、减…...

编程日记 2025/12/5 19:03:04

目录一、透视变换的定义与作用二、透视变换的过程三、OpenCV 中的透视变换函数 1. cv2.getPerspectiveTransform(src, dst) 2. cv2.warpPerspective(src, H, dsize, dstNone, flagscv2.INTER_LINEAR, borderModecv2.BORDER_CONSTANT, borderValue0) 四、文档扫描校正&a…...

编程日记 2026/2/2 5:41:33

性能比拼: Go vs Bun

本内容是对知名性能评测博主 Anton Putra Go (Golang) vs. Bun: Performance (Latency - Throughput - Saturation - Availability) 内容的翻译与整理, 有适当删减, 相关指标和结论以原作为准我对 Bun 在之前的基准测试中的出色表现感到惊讶，因此我决定将它与 Go …...

编程日记 2026/2/7 15:19:20

定制化 Docsify 文档框架实战分享

🌟 定制化 Docsify 文档框架实战分享在构建前端文档平台时，我们希望拥有更友好的用户界面、便捷的搜索、清晰的目录导航以及实用的代码复制功能。借助 Docsify，我实现了以下几个方面的定制优化，分享给大家 🙌。 &…...

编程日记 2026/1/22 10:22:02

Qt中读写结构体字节数据

在Qt中读写结构体字节数据通常涉及将结构体转换为字节数组(QByteArray)或直接从内存中读写。以下是几种常见方法： 方法1：使用QDataStream读写结构体 cpp #include <QFile> #include <QDataStream>// 定义结构体 #pragma pack(push, 1) //…...

编程日记 2025/12/9 5:45:45

鸿蒙ArkUI之布局实战，线性布局（Column,Row）、弹性布局(Flex)、层叠布局(Stack)，详细用法

本文聚焦于ArkUI的布局实战，三种十分重要的布局，线性布局、弹性布局、层叠布局，在实际开发过程中这几种布局方法都十分常见，下面直接上手线性布局垂直布局（Column） 官方文档： Column-行列…...

编程日记 2026/1/22 15:06:30

测试基础笔记第七天

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、cat命令二、ls -al命令三、>重定向符号四、>>追加重定向符号五、less/more命令六、grep命令七、|管道符八、clear命令九、head命令十、tail命令十一、…...

编程日记 2026/1/22 16:46:41

[Windows] Adobe Camera Raw 17.2 win/Mac版本

[Windows] Adobe Camera Raw 链接：https://pan.xunlei.com/s/VOOIAXoyaZcKAkf_NdP-qw_6A1?pwdpd5k# Adobe Camera Raw，支持Photoshop，lightroom等Adobe系列软件，对相片无损格式进行编辑调色。支持PS LR 2022 2023 2024 2025版…...

编程日记 2026/2/7 17:45:10

开源模型应用落地-Podcastfy-从文本到声音的智能跃迁-Gradio（一）

一、前言在当今信息呈现方式越来越多样化的背景下，如何将文字、图片甚至视频高效转化为可听的音频体验，已经成为内容创作者、教育者和研究者们共同关注的重要话题。Podcastfy是一款基于Python的开源工具，它专注于将多种形式的内容智能转换成…...

编程日记 2026/1/28 11:21:18

深入剖析 Java Web 项目序列化：方案选型与最佳实践

在 Java Web 开发中，“序列化”是一个你无法绕过的概念。无论是缓存数据、共享 Session，还是进行远程过程调用（RPC）或消息传递，序列化都扮演着底层数据搬运工的角色。它负责将内存中的 Java 对象转换成可传输或可存储的…...

编程日记 2026/2/6 6:13:53

Python 深度学习实战第11章自然语言处理(NLP)实例

Python 深度学习实战第11章自然语言处理(NLP)实例内容概要第11章深入探讨了自然语言处理（NLP）的深度学习应用，涵盖了从文本预处理到序列到序列学习的多种技术。本章通过IMDB电影评论情感分类和英西翻译任务，详细介绍了如何使…...

编程日记 2026/1/23 12:13:13

零基础上手Python数据分析 (19)：Matplotlib 高级图表定制 - 精雕细琢，让你的图表脱颖而出！

写在前面 —— 超越默认样式，掌握 Matplotlib 精细控制，打造专业级可视化图表上一篇博客，我们学习了 Matplotlib 的基础绘图功能，掌握了如何绘制常见的折线图、柱状图、散点图和饼图，并进行了基本的图表元素定制，例如添加标题、标签、图例等。这些基础技能已经能让我…...

编程日记 2025/12/12 14:39:00

将 DeepSeek 集成到 Spring Boot 项目实现通过 AI 对话方式操作后台数据

文章目录项目简介本项目分两大模块 GiteeMCP 简介环境要求项目代码核心实现代码MCP 服务端MCP 客户端 DeepSeek APIDockersse 连接ws 连接（推荐）http 连接 vue2-chat-windowCherry Studio配置模型配置 MCP调用 MCP 项目简介在本项目中，我们…...

编程日记 2026/2/6 4:10:03

《前端面试题之 Vue 篇（第三集）》

目录 1、 nvm的常用命令①.Node.js 版本与 npm 版本的对应关系②Vue2 与 Vue3 项目的 Node.js 版本分界线③版本管理实践建议 2、Vue2 项目搭建（基于 vue-cli Webpack）① 环境准备② 安装 Vue CLI（脚手架）③.创建项目&#xff08…...

编程日记 2026/1/30 1:42:30

PHP实现图片自动添加水印效果

<?php // 设置原始图片路径和水印图片路径 $original_image original.jpg; $watermark_image watermark.png;// 创建图片资源 $original imagecreatefromjpeg($original_image); $watermark imagecreatefrompng($watermark_image);// 获取图片尺寸 $original_width im…...

编程日记 2025/12/9 12:03:32

嵌入式C语言位操作的几种常见用法

作为一名老单片机工程师，我承认，当年刚入行的时候，最怕的就是看那些密密麻麻的寄存器定义，以及那些让人眼花缭乱的位操作。尤其是遇到那种“明明改了寄存器，硬件就是不听话”的情况，简直想把示波器砸了&am…...

编程日记 2026/2/3 19:11:58

基于Djiango实现中药材数据分析与可视化系统

中药材数据分析与可视化系统项目截图登录注册首页药材Top20 药材价格产地占比历史价格新闻资讯后台管理一、项目概述中药材数据分析与可视化系统是一个基于Django框架开发的专业Web应用，致力于对各类中药材数据进行全面、系统的采集、分析和可视化展示…...

编程日记 2026/2/7 17:38:22

音视频小白系统入门课-2

音视频编解码

编解码器

相关文章：

音视频小白系统入门课-2

Linux：安装 CentOS 7（完整教程）

MATLAB 控制系统设计与仿真 - 34

【网络】通过Samba实现Window挂在Linux服务器路径

DevOps 进阶指南：如何让工作流更丝滑？

架构思维：缓存层场景实战_读缓存（下）

uniapp微信小程序实现sse

C#语言的区块链

Ubuntu服务器日志满audit:backlog limit exceeded了会报错解决方案-Linux 审计系统 (auditd) 工具

新能源汽车能量流测试的传感器融合技术应用指南

人工智能与网络安全：AI如何预防、检测和应对网络攻击？

链表知识回顾

FPGA学习(五)——DDS信号发生器设计

【数据结构入门训练DAY-18】信息学奥赛一本通T1331-后缀表达式的值

OpenCv高阶（六）——图像的透视变换

性能比拼: Go vs Bun

定制化 Docsify 文档框架实战分享

Qt中读写结构体字节数据

鸿蒙ArkUI之布局实战，线性布局（Column,Row）、弹性布局(Flex)、层叠布局(Stack)，详细用法

测试基础笔记第七天

[Windows] Adobe Camera Raw 17.2 win/Mac版本

开源模型应用落地-Podcastfy-从文本到声音的智能跃迁-Gradio（一）

深入剖析 Java Web 项目序列化：方案选型与最佳实践

Python 深度学习实战第11章自然语言处理(NLP)实例

零基础上手Python数据分析 (19)：Matplotlib 高级图表定制 - 精雕细琢，让你的图表脱颖而出！

将 DeepSeek 集成到 Spring Boot 项目实现通过 AI 对话方式操作后台数据

《前端面试题之 Vue 篇（第三集）》

PHP实现图片自动添加水印效果

嵌入式C语言位操作的几种常见用法

基于Djiango实现中药材数据分析与可视化系统