音视频基础理论
1. 音频基础
1.1 音频基本概念
1.1 频率:声波的频率,即声音的音调,人类听觉的频率(音调)范围为20Hz--20KHz
1.2 振幅:即声波的响度,通俗的讲就是声音的高低,一般男生的声音振幅(响度)大于女生。
1.3 波形:即声音的音色

采样就是只在时间轴上对信号进行数字化。如图:

1.3 采样和采样率:采样是把连续的时间信号,变成离散的数字信号采样率是指每秒钟采集多少个样本。采样频率为44.1kHz,44.1kHz就是代表1秒会采样44100次。
1.4 量化:量化就是采样的表示。量化是指在幅度轴上对信号进行数字化。
整个过程如图所示:

1.5 编码:按照一定的格式记录采样和量化后的数字数据。
音频裸数据格式就是脉冲编码调制(PCM)数据。
1.2 音频处理基础
1.1 噪声抑制
1.2 回声消除
1.3 自动增益控制
1.4 静音检测
1.5 舒适噪音产生
1.3 常见音频格式
1.wav格式:是最早的数字音频格式,被 Windows 平台及其应用程序广泛支持,压缩率低。
2.MP3格式:MP3 能够以 高音质、低采样率对数字音频文件进行压缩。应用最普遍。
3.RealAudio:可以实时传输音频信息,尤其是在网速较慢的情况下,仍然可以较为流畅地传送数据,因此RealAudio 主要适用于网络上的在线播放 。
4.AAC:更多种采样率和比特率、多种语言的兼容能力、更高的解码效率。AAC 可以在比 MP3 文件缩小 30%的前提下提供更好的音质。
5.APE :种无损压缩音频格式,在音质不降低的前提下,大小压缩到传统无损格式WAV 文件的一半。
1.4 混音技术
混音,顾名思义,就是把两路或者多路音频流混合在一起,形成一路音频流。
混流,则是指音视频流的混合,也就是视频画面和声音的对齐,也称混流。
音频重采样,重采样即是将音频进行重新采样得到新的采样率的音频。
比如在播放音乐的过程中,来了一个提示音,就需要把音乐和提示音都混合到 codec 输
出,音乐的原始采样率和提示音的原始采样率可能是不一致的。
问题来了,如果 codec 的采样率设置为音乐的原始采样率的话,那么提示音就会失真。
因此最简单见效的解决方法是:codec 的采样率固定一个值(44.1KHz/48KHz),所有
音轨都重采样到这个采样率,然后才送到 codec,保证所有音轨听起来都不失真。
2. 音频编码
2.1 音频编码
1.压缩编码 :压缩掉冗余的信号,冗余信号是指不能被人耳感知到的信号,包括人耳听觉范围之外的音频信号以及被掩蔽掉的音频信号。
量化的过程被称之为编码,根据不同的量化策略,产生了许多不同的编码方式,常见的编码方式有:PCM 和 ADPCM,这些数据代表着无损的原始数字音频信号。
音频编解码常用的三种实现方案:
1采用专用的音频芯片对语音信号进行采集和处理,音频编解码算法集成在硬件内部,如 MP3 编解码芯片、语音合成分析芯片等。使用这种方案的优点就是处理速度块,设计周期短;缺点是局限性比较大,不灵活,难以进行系统升级。
2是利用 A/D 采集卡加上计算机组成硬件平台,音频编解码算法由计算机上的软件来实现。使用这种方案的优点是价格便宜,开发灵活并且利于系统的升级;缺点是处理速度较慢,开发难度较大。
3使用高精度、高速度的 A/D 采集芯片来完成语音信号的采集,使用可编程的数据处理能力强的芯片来实现语音信号处理的算法,然后用 ARM 进行控制。采用这种方案的优点是系统升级能力强,可以兼容多种音频压缩格式甚至未来的音频压缩格式,系统成本较低;缺点是开发难度较大,设计者需要移植音频的解码算法到相应的 ARM 芯片中去。
2.2 音频编码三类方法
1.波形编码是尽量保持输入波形不变,即重建的语音信号基本上与原始语音信号波形相同,压缩比较低;
2.参数编码是要求重建的信号听起来与输入语音一样,但其波形可以不同,它是以语音信号所产生的数学模型为基础的一种编码方法,压缩比较高;
3.混合编码是综合了波形编码的高质量潜力和参数编码的高压缩效率的混合编码的方法,这类方法也是目前低码率编码的方向。
3. 视频基础
3.1 视频基础概念
图像,是由很多“带有颜色的点”组成的。这个点,就是“像素点”。

像素是图像显示的基本单位。
我们说一幅图片的大小例如是 1920×1080,就是宽度为 1920 个像素点,高度为1080 个像素点。
1. 视频文件格式
常见的视频文件格式如 1.avi,2.mpg 这些都叫做视频的文件格式。
2. 视频封装格式
AVI,MPEG,VOB 是一种视频封装格式,相当于一种储存视频信息的容器。
3. 视频编码方式
(1)H26X系列,MPEG系列
4.ffmpeg使用
1.查版本号

2.显示 可用复用器/可用解复用器/可用编解码器/可用解码器/可用编码器
-muxers/ -demuxers/ -codecs/ -decoders/ -encoders
3.ffplay使用

q 退出 ,空格 暂停, m 静音, s 逐帧播放
-an 禁用音频(不播放声音) -vn 禁用视频(不播放视频) -sn 禁用字幕(不显示字幕)
-acodec codec_name 强制使用设置的音频解码器进行音频解码
-vcodec codec_name 强制使用设置的视频解码器进行视频解码
禁用音频:ffplay test.mp4 -an
禁用视频:ffplay test.mp4 -vn
强制解码器:h264解码器:ffplay -vcodec h264 test.mp4
保留封装格式
ffmpeg -i test.mp4 -acodec copy -vn audio.mp4
ffmpeg -i test.mp4 -vcodec copy -an video.mp4
提取视频
保留编码格式:ffmpeg -i test.mp4 -vcodec copy -an test_copy.h264
强制格式:ffmpeg -i test.mp4 -vcodec libx264 -an test.h264
提取音频
保留编码格式:ffmpeg -i test.mp4 -acodec copy -vn test.aac
强制格式:ffmpeg -i test.mp4 -acodec libmp3lame -vn test.mp3
相关文章:
音视频基础理论
1. 音频基础 1.1 音频基本概念 1.1 频率:声波的频率,即声音的音调,人类听觉的频率(音调)范围为20Hz--20KHz 1.2 振幅:即声波的响度,通俗的讲就是声音的高低,一般男生的声音振幅(响度)大于女生。 1.3 波形…...
《江苏科技大学学报(自然科学版)》
《江苏科技大学学报(自然科学版)》(双月刊,国内外公开发行)是由江苏省教育厅主管、江苏科技大学主办的理工类学术期刊,1986年创刊,国际刊号:ISSN1673-4807,国内刊号&…...
C++初学者指南-5.标准库(第二部分)–随机数生成
C初学者指南-5.标准库(第二部分)–随机数生成 文章目录 C初学者指南-5.标准库(第二部分)–随机数生成基本概念例子统一随机数布尔值(“抛硬币”)正态分布具有独立概率的整数 怎么做种子引擎使用自定义生成器 shuffle算法分布类型概述通用接口均匀分布采样…...
Unity2017在安卓下获取GPS位置时闪退的解决办法
在Unity使用低功耗蓝牙通信(BLE)需要用到设备的位置信息。但是调用Input.location.Start()程序会闪退。 解决办法:调用原生安卓接口。 参见《Unity2021通过aar调用Android方法》编写一个aar插件gpsplugin,在插件中提供获取GPS位…...
OpenGL ES 索引缓冲区(4)
OpenGL ES 索引缓冲区(4) 简述 本节会介绍索引缓冲区,索引缓冲区和顶点缓冲区类似,也是显存上的一段内存,只不过上面的数据用处不同,索引缓冲区故名思义里面的数据是用于索引,主要作用是用于复用顶点缓冲区里的数据。…...
01:(寄存器开发)点亮一个LED灯
寄存器开发 1、单片机的简介1.1、什么是单片机1.2、F1系列内核和芯片的系统架构1.3、存储器映像1.4、什么是寄存器 2、寄存器开发模板工程3、使用寄存器点亮一个LED4、代码改进15、代码改进2 本教程使用的是STM32F103C8T6最小系统板,教程来源B站up“嵌入式那些事”。…...
.Net 6.0 Windows平台如何判断当前电脑是否联网
最近在工作中开发需要判断当前电脑是否联网的需求,在网上找了一个调用window API来判断本机是否联网。具体请看下面介绍: 1.方法一(调用winAPI) [DllImport("wininet")] public static extern bool InternetGetConnec…...
微软准备了 Windows 11 24H2 ISO “OOBE/BypassNRO“命令依然可用
Windows 11 24H2 可能在未来几周内开始推出。 微软已经要求 OEM 遵循新的指南准备好 Windows 11 24H2 就绪的驱动程序,并且现在已经开始准备媒体文件 (.ISO)。 OEM ISO 的链接已在微软服务器上发布。 一个标有"X23-81971_26100.1742.240906-0331.ge_release_sv…...
MacOS 终端执行安装 Brew
在配置新的 Mac 环境时,如果你发现终端中无法识别 brew 命令,可以按照以下步骤进行解决。 步骤 1:确保网络稳定 为了避免安装过程中出现中断,建议使用 Wi-Fi 或有线连接,不推荐使用移动网络。 步骤 2:打…...
【设计模式-解释模式】
定义 解释器模式是一种行为设计模式,用于定义一种语言的文法,并提供一个解释器来处理该语言的句子。它通过为每个语法规则定义一个类,使得可以将复杂的表达式逐步解析和求值。这种模式适用于需要解析和执行语法规则的场景。 UML图 组成角色…...
51单片机应用开发(进阶)---数码管+按键+蜂鸣器(电磁炉显示模拟)
实现目标 1、加强数码管、按键的学习,实现数码显示变量数据(四位数的显示); 2、4位数码2个按键无源蜂鸣器实现模拟电磁炉功率调节及显示; 一、内容描述 功能描述:1、开机显示电磁炉功率300,每…...
Emergency Stop (ES)
文章目录 1. 介绍2. Feature List3. 紧急停止信号触发方式3.1 Port触发紧急停止信号3.2 SMU事件触发紧急停止信号3.3 软件触发紧急停止信号 4. 应用场景4.1 Port4.2 MSC 1. 介绍 Emergency Stop (ES)是Ifx System Control Units (SCU)六大模块之一。详细信息可以参考Infineon-…...
[C++][第三方库][gtest]详细讲解
目录 1.介绍2.安装3.使用1.头文件包含2.框架初始化接口3.调用测试样例4.TEST宏5.断言宏6.示例 1.介绍 gtest是一个跨平台的C单元测试框架,由Google公司发布gtest是为了在不同平台上为编写C单元测试而生成的,它提供了丰富的断言、致命和非致命判断、参数…...
【Java数据结构】 链表
【本节目标】 1. ArrayList 的缺陷 2. 链表 3. 链表相关 oj题目 一. ArrayList的缺陷 上节课已经熟悉了ArrayList 的使用,并且进行了简单模拟实现。通过源码知道, ArrayList 底层使用数组来存储元素: public class ArrayList<E>…...
前端——Ajax和jQuery
一、Ajax Ajax即“Asynchronous Javascript And XML”(异步 JavaScript 和 XML), 通过 JS 异步的向服务器发送请 求并接收响应数据。 同步访问:当客户端向服务器发送请求时,服务器在处理的过程中,浏览器…...
C++-vector模拟实现
###vector底层相当于是数组,查看源码可以发现,这个类的私有成员变量是三个迭代器;在实现时迭代器就可以当作是vector里面的元素的指针类型; ###vector是一个类模板,实现时也应当按照这样的写法用一个模板去实现&#…...
Activity
69[toc] 1.启停活动页面 1.Activity启动和结束 从当前页面跳到新页面 startActivity(new Intent(this, ActFinishActivity.class));从当前页面返回上一个页面,相当于关闭当前页面 finish();2.Activity生命周期 官方描述生命周期 onCreate:创建活…...
【力扣 | SQL题 | 每日四题】力扣1581, 1811, 1821, 1831
今天的题目就1811这个比较难,其他非常的基础。 1. 力扣1581:进店却未进行过交易的顾客 1.1 题目: 表:Visits ---------------------- | Column Name | Type | ---------------------- | visit_id | int | | customer…...
洛谷【P1955 [NOI2015] 程序自动分析】
反思: 这道题一眼就是并查集 但是数据太大 mle和re都是有可能的我看了题解才知道是离散化数组加并查集离散化再两个月前我觉得好难啊 那道题跟本看不懂 现在觉得还行 离散化思路: 需要一个离散记录数组----ls[N]用来记录下出现的数 步骤: …...
Swift并发笔记
1.同步和异步 说到线程的执行方式,最基本的一组概念是同步和异步。所谓同步,就是在操作执行完成之前,运行操作的这个线程都会被占用,直到函数最终被抛出或返回。Swift5.5之前,func关键字声明的所有的函数都是同步的。…...
Qwen3-0.6B-FP8助力Python爬虫数据智能分析与摘要生成
Qwen3-0.6B-FP8助力Python爬虫数据智能分析与摘要生成 1. 引言 你有没有过这样的经历?用Python爬虫吭哧吭哧抓了一大堆网页数据,看着满屏的HTML标签和杂乱无章的文本,瞬间头大。接下来还得手动筛选、整理、总结,工作量巨大不说&…...
Python算法优化:从理论到实践
Python算法优化:从理论到实践 1. 背景与意义 在数据科学和AI应用中,算法的效率直接影响系统性能。作为一名Python开发者,掌握算法优化技巧不仅能提升代码质量,还能显著提高应用性能。本文将深入探讨Python中常见算法的优化策略&…...
Nano-Banana多行业落地:医疗器械拆解图生成符合ISO 13485视觉规范
Nano-Banana多行业落地:医疗器械拆解图生成符合ISO 13485视觉规范 Nano-Banana Studio 作为一款专注于物理结构拆解的AI创作工具,正在医疗器械领域展现惊人价值。本文将深入探讨如何利用这一工具生成符合ISO 13485质量体系视觉规范的医疗器械拆解图&…...
TrafficMonitor插件系统:5个技巧打造你的个性化Windows监控中心
TrafficMonitor插件系统:5个技巧打造你的个性化Windows监控中心 【免费下载链接】TrafficMonitorPlugins 用于TrafficMonitor的插件 项目地址: https://gitcode.com/gh_mirrors/tr/TrafficMonitorPlugins 想要让Windows任务栏上的TrafficMonitor变得更加强大…...
梦幻动漫魔法工坊快速上手:无需代码,网页端直接生成动漫图像
梦幻动漫魔法工坊快速上手:无需代码,网页端直接生成动漫图像 你是否也曾幻想过,用几句话就能召唤出脑海中的梦幻场景?一个可爱的猫耳少女,在樱花树下回眸;或是奇幻的魔法森林里,精灵在月光下起…...
提升数据抓取效率:用快马AI生成openclaw命令自动化脚本模板
最近在做一个数据抓取项目时,发现手动写openclaw命令实在太费时间了。每次都要重复写类似的fetch和parse命令,还要处理各种异常情况。后来发现用InsCode(快马)平台可以快速生成自动化脚本模板,效率提升了好几倍。今天就把这个经验分享给大家。…...
OpenClaw技能调试:GLM-4.7-Flash插件开发中的日志追踪
OpenClaw技能调试:GLM-4.7-Flash插件开发中的日志追踪 1. 为什么需要精细化日志追踪 在开发OpenClaw的GLM-4.7-Flash插件时,我遇到了一个典型问题:当自动化流程在半夜执行失败时,第二天只能看到一个模糊的"任务执行失败&qu…...
不止于循迹:给你的51单片机智能小车加上‘遥控’和‘自动’双模式(附完整Keil工程)
双模智能小车开发实战:蓝牙遥控与红外循迹的完美融合 在创客圈里,51单片机智能小车堪称"电子制作的Hello World",但大多数项目往往止步于单一功能的实现。今天我们要打破常规,打造一款兼具蓝牙遥控与红外自动循迹/避障双…...
BongoCat:让桌面交互充满生命力的开源伴侣
BongoCat:让桌面交互充满生命力的开源伴侣 【免费下载链接】BongoCat 让呆萌可爱的 Bongo Cat 陪伴你的键盘敲击与鼠标操作,每一次输入都充满趣味与活力! 项目地址: https://gitcode.com/gh_mirrors/bong/BongoCat 在数字化工作与娱乐…...
CPO-RBF分类(优化宽度+中心值+连接权值)可用于故障检测等方向 基于冠豪猪优化算法优化径...
CPO-RBF分类(优化宽度中心值连接权值)可用于故障检测等方向 基于冠豪猪优化算法优化径向基神经网络的数据分类预测,Matlab代码,可直接运行,适合小白新手 程序已经调试好,无需更改代码替换数据集即可运行 需要更换其他算法的都可以…...
