当前位置: 首页 > news >正文

音视频八股文(7)-- 音频aac adts三层结构

AAC介绍

AAC(Advanced Audio Coding)是一种现代的音频编码技术,用于数字音频的传输和存储领域。AAC是MPEG-2和MPEG-4标准中的一部分,可提供更高质量的音频数据,并且相比于MP3等旧有音频格式,AAC需要更少的比特率。

AAC通过使用一些高级的音频编码算法来实现更好的声音质量和更低的压缩比。其中最重要的算法是信号掩蔽技术、短时频谱分析和Psychoacoustic模型。这些算法使得AAC能够在较低的比特率下保持更好的音质,并且减少了由于压缩而引入的失真和噪音。

AAC支持多种采样率、声道数和比特率,以满足不同应用场景的需求。它可以实现从8 kbps到320 kbps的不同比特率的音频压缩,同时实现CD音质甚至更高的音乐体验。

AAC还具有很好的灵活性和可扩展性,包括高级音频编码(High Efficiency AAC,HE-AAC)、带有SBR的HE-AAC v2和LC-AAC(Low Complexity AAC)等变体。此外,AAC还支持与其他多媒体技术(如H.264或MPEG-4)集成使用,并且支持多种容器格式(如MP4、3GP、M4A和ADTS等)。

总之,AAC是一种现代的音频编码技术,具有高质量的音频数据、较低的比特率、灵活性和可扩展性等优点。由于其广泛应用于数字音频传输和存储领域,它已经成为音频压缩领域的标准之一。

AAC ADTS介绍

AAC(Advanced Audio Coding)是一种现代的音频编码技术,被广泛应用于数字音频传输和存储领域。AAC可以提供更高质量的音频数据,同时相比MP3等旧有音频格式,AAC需要更少的比特率。

ADTS(Audio Data Transport Stream)是AAC音频流的容器格式,它是一种通过网络传输音频流的标准格式之一。ADTS文件包含了AAC音频流中的各个元素,并且在音频数据中添加了额外的信息,如同步标记、采样率、通道数等。

ADTS文件由多个部分组成,其中最重要的是头部信息。头部信息通常占据了整个文件中的前7到9个字节,其中包括了一个固定的同步标记(syncword),该标记用于确定音频帧的边界位置。进一步的,头部还包含了一些AAC音频流的基础信息,如声道数、采样率、比特率和编码配置等。

在ADTS文件中,每个AAC音频帧都以一个长度为7或9个字节的ADTS帧头开始,其中包含了同步标记、帧大小、采样率、声道数和其他元数据。接下来是AAC编码的原始音频数据,这些数据会被添加到ADTS帧中,以形成完整的音频帧。

总之,ADTS是AAC音频流的容器格式,提供了一种便捷的方式来传输和存储AAC音频流。通过ADTS,可以轻松地对AAC音频进行封装和解封,以满足各种应用场景的需求。

AAC ADTS Header介绍

AAC ADTS(Audio Data Transport Stream)文件是AAC音频流的一种容器格式,其中最重要的部分之一就是ADTS头部信息。ADTS头部信息占据了整个文件中的前7或9个字节,其中包括了一个固定的同步标记(syncword),该标记用于确定音频帧的边界位置。以下是对ADTS头部信息中各个字段的详细介绍:

  1. 同步字(syncword):2个字节(16位)
    同步字是ADTS文件的标志符,它用于确定音频帧的开始位置和结束位置,通常为0xFFF。

  2. ID (MPEG Version):1个字节(8位)
    ID指示使用的MPEG版本。值为0表示MPEG-4,值为1表示MPEG-2。

  3. Layer:2个比特
    Layer定义了音频流所属的层级,对于AAC来说,其值为0。

  4. Protection Absent:1个比特
    Protection Absent指示是否启用CRC错误校验。当该比特为0时,表明音频数据经过CRC校验,否则未经过CRC校验。

  5. Profile:2个比特
    Profile指示编码所使用的AAC规范类型,如AAC LC、AAC HE-AAC等。

  6. Sampling Frequency Index (Sampling Rate):4个比特
    Sampling Frequency Index表示采样率的索引,它告诉解码器当前音频数据的采样率。这个值的范围是0到15,每个值表示一个特定的采样率。

  7. Private Bit:1个比特
    Private Bit为私有比特,通常被设置为0,没有实际作用。

  8. Channel Configuration:3个比特
    Channel Configuration指示音频的通道数,如单声道、立体声或多声道等。

  9. Originality:1个比特
    Originality指示编码数据是否被原始产生,通常为0。

  10. Home:1个比特
    Home bit通常被设置为0,没有实际作用。

  11. Emphasis:2个比特
    Emphasis指示对信号进行强调处理的类型,一般不使用。

除了上述字段之外,ADTS头部还包括文件长度和帧长度等信息。其中,文件长度指整个AAC ADTS文件的长度,而帧长度则指当前ADTS帧所占的字节数。这些信息可以通过解析ADTS头部来确定音频帧的边界,从而提取出原始的AAC音频数据。

总之,AAC ADTS头部信息包括同步字、ID、Layer、Protection Absent、Profile、Sampling Frequency Index、Private Bit、Channel Configuration、Originality、Home、Emphasis等各个字段,通过这些字段可以读取AAC音频流中的基础信息,并确定音频帧的边界位置。

AAC ES介绍

AAC ES(AAC Elementary Stream)是AAC音频编码的一种基本数据格式,也是AAC音频数据在流式传输和文件存储中的常见格式之一。

AAC ES不同于其他容器格式(如MP4、M4A等),它不包含额外的元数据或结构信息,仅包含未经任何封装或压缩处理的原始音频数据。这些原始数据可以作为音频文件或流传输的基础,同时也可以用于对AAC音频进行转码、编辑或重组。

AAC ES 通常由一系列连续的AAC音频帧组成,每个帧以一个特定的标志符开始,该标志符表示这是一个AAC音频帧。在AAC ES中,每个音频帧拥有相同的长度,但是并不一定包含相同数量的采样点,因为采样率和声道数量可能会发生变化。

AAC ES 的另一个关键特征是其比特流顺序,即数字音频数据的组织方式。AAC ES 采用大端字节顺序,其中高位字节排在前面,低位字节排在后面。此外,在AAC ES中,音频数据按照从左到右、自上而下的顺序排列,与典型的文本文件不同。

总之,AAC ES 是AAC音频编码的一种基本数据格式,它通常由一系列AAC音频帧组成,并且不包含任何附加的元数据或结构信息。AAC ES 可以作为音频文件或流传输的基础,同时也可以用于对AAC音频进行转码、编辑或重组。由于其简单性和灵活性,AAC ES 受到了广泛的应用,并且成为了数字音频编码领域的标准之一。

AAC ADTS格式分析

AAC⾳频格式:Advanced Audio Coding(⾼级⾳频解码),是⼀种由MPEG-4标准定义的有损⾳频压缩格式,由Fraunhofer发展,Dolby, Sony和AT&T是主要的贡献者。

ADIF:Audio Data Interchange Format ⾳频数据交换格式。这种格式的特征是可以确定的找到这个⾳频数据的开始,不需进⾏在⾳频数据流中间开始的解码,即它的解码必须在明确定义的开始处进⾏。故这种格式常⽤在磁盘⽂件中。

ADTS的全称是Audio Data Transport Stream。是AAC⾳频的传输流格式。AAC⾳频格式在MPEG-2(ISO-13318-7 2003)中有定义。AAC后来⼜被采⽤到MPEG-4标准中。这种格式的特征是它是⼀个有同步字的⽐特流,解码可以在这个流中任何位置开始。它的特征类似于mp3数据流格式。

简单说,ADTS可以在任意帧解码,也就是说它每⼀帧都有头信息。ADIF只有⼀个统⼀的头,所以必须得到所有的数据后解码。

且这两种的header的格式也是不同的,⽬前⼀般编码后的和抽取出的都是ADTS格式的⾳频流。两者具体的组织结构如下所示:

AAC的ADIF格式⻅下图:
在这里插入图片描述
AAC的ADTS的⼀般格式⻅下图:
在这里插入图片描述
空⽩处表示前后帧

有的时候当你编码AAC裸流的时候,会遇到写出来的AAC⽂件并不能在PC和⼿机上播放,很⼤的可能就是AAC⽂件的每⼀帧⾥缺少了ADTS头信息⽂件的包装拼接。

只需要加⼊头⽂件ADTS即可。⼀个AAC原始数据块⻓度是可变的,对原始帧加上ADTS头进⾏ADTS的封装,就形成了ADTS帧。

AAC⾳频⽂件的每⼀帧由ADTS Header和AAC Audio Data组成。结构体如下:

在这里插入图片描述
每⼀帧的ADTS的头⽂件都包含了⾳频的采样率,声道,帧⻓度等信息,这样解码器才能解析读取。

⼀般情况下ADTS的头信息都是7个字节,分为2部分:

adts_fixed_header();
adts_variable_header();

其⼀为固定头信息,紧接着是可变头信息。固定头信息中的数据每⼀帧都相同,⽽可变头信息则在帧与帧之间可变。

在这里插入图片描述
syncword :同步头 总是0xFFF, all bits must be 1,代表着⼀个ADTS帧的开始

ID:MPEG标识符,0标识MPEG-4,1标识MPEG-2

Layer:always: ‘00’

protection_absent:表示是否误码校验。Warning, set to 1 if there is no CRC and 0 if there is CRC

profile:表示使⽤哪个级别的AAC,如01 Low Complexity(LC)— AAC LC。有些芯⽚只⽀持AAC LC 。

在MPEG-2 AAC中定义了3种:
在这里插入图片描述
profile的值等于 Audio Object Type的值减1

profile = MPEG-4 Audio Object Type - 1

在这里插入图片描述
在这里插入图片描述
sampling_frequency_index:表示使⽤的采样率下标,通过这个下标在Sampling Frequencies[ ]数组中查找得知采样率的值。

在这里插入图片描述
channel_configuration: 表示声道数,⽐如2表示⽴体声双声道

在这里插入图片描述
0: Defined in AOT Specifc Config

1: 1 channel: front-center

2: 2 channels: front-left, front-right

3: 3 channels: front-center, front-left, front-right

4: 4 channels: front-center, front-left, front-right, back-center

5: 5 channels: front-center, front-left, front-right, back-left, back right

6: 6 channels: front-center, front-left, front-right, back-left, back right, LFE-channel

7: 8 channels: front-center, front-left, front-right, side-left, side-right,back-left, back-right, LFE-channel

8-15: Reserved

接下来看下adts_variable_header();

在这里插入图片描述
frame_length : ⼀个ADTS帧的⻓度包括ADTS头和AAC原始流.
frame length, this value must include 7 or 9 bytes of header length:
aac_frame_length = (protection_absent = = 1 ? 7 : 9) + size(AACFrame)
protection_absent=0时, header length=9bytes
protection_absent=1时, header length=7bytes
adts_buffer_fullness:0x7FF 说明是码率可变的码流。
number_of_raw_data_blocks_in_frame:表示ADTS帧中有number_of_raw_data_blocks_in_frame + 1个AAC原始帧。
所以说number_of_raw_data_blocks_in_frame == 0 表示说ADTS帧中有⼀个AAC数据块。

下⾯是ADTS的AAC⽂件部分:
⾼字节开始
在这里插入图片描述
第⼀帧的帧头7个字节为:0xFF 0xF1 0x4C 0x40 0x20 0xFF 0xFC
分析各个关键数值:
111111111111
0
00
1
01
0011
0
001
0
0
0
0
0000100000111(帧⻓度)
11111111111
00
计算帧⻓度:将⼆进制 0000100000111 转换成⼗进制为263。观察第⼀帧的⻓
度确实为263个字节。
计算⽅法:(帧⻓度为13位,使⽤unsigned int来存储帧⻓数值)

unsigned int getFrameLength(unsigned char* str)
{if ( !str ){return 0;}unsigned int len = 0;int f_bit = str[3];int m_bit = str[4];int b_bit = str[5];len += (b_bit>>5);len += (m_bit<<3);len += ((f_bit&3)<<11);return len;
}

总结:AAC sequence三层

第一层:AAC sequence:多个AAC Frame。

第二层:AAC Frame:AAC header+AAC ES。

第三层:AAC ES。音频数据,不包含header;flv,mp4的音频数据来自这一层,也就是说不包含header。

注意:第2层的AAC Frame,一般下只有1个AAC ES,但也有可能有两个AAC ES。这取决于number_of_raw_data_blocks_in_frame的值,如果是0,代表1个AAC ES;如果死1,代表代表2个AAC ES。

相关文章:

音视频八股文(7)-- 音频aac adts三层结构

AAC介绍 AAC&#xff08;Advanced Audio Coding&#xff09;是一种现代的音频编码技术&#xff0c;用于数字音频的传输和存储领域。AAC是MPEG-2和MPEG-4标准中的一部分&#xff0c;可提供更高质量的音频数据&#xff0c;并且相比于MP3等旧有音频格式&#xff0c;AAC需要更少的…...

Docker代码环境打包进阶 - DockerHub分享镜像

1. Docker Hub介绍 Docker Hub是一个广泛使用的容器镜像注册中心&#xff0c;为开发人员提供了方便的平台来存储、共享和分发Docker容器镜像。它支持版本控制、访问控制和自动化构建&#xff0c;并提供了丰富的公共镜像库&#xff0c;方便开发人员快速获取和使用各种开源应用和…...

SQL进阶-having子句的力量

SQL进阶-having子句的力量 having子句是理解SQL面向集合这一本质的关键。 在以前的SQL标准里面&#xff0c;having子句必须和group by子句一起使用&#xff0c;但是按照现在的SQL标准&#xff0c;having子句是可以单独使用的 可以与case 表达式或者自连接等结合使用。表不是文件…...

Electron 如何创建模态窗口?

目录 前言一、模态窗口1.Web页面模态框2.Electron中的模态窗口3.区分父子窗口与模态窗口 二、实际案例使用总结 前言 模态框是一种常用的交互元素&#xff0c;无论是在 Web 网站、桌面应用还是移动 APP 中&#xff0c;都有其应用场景。模态框指的是一种弹出窗口&#xff0c;它…...

诺贝尔化学奖:酶分子“定向进化”

2018年&#xff0c;诺贝尔化学奖迎来了历史上第五位女性得主——加州理工学院的Frances H. Arnold教授&#xff0c;以表彰她在“酶的定向进化”这一领域的贡献。 1、“酶的定向进化”到底是什么&#xff1f; 这里有三个点&#xff0c;“酶”、“进化”还有“定向”&#xff1a…...

Centos8下源码编译安装运行Primihub

参考文献 PrimiHub 本地编译启动How to install Bazel on CentOS 8 Linux or Redhat 8/7 编译启动步骤 由于历史原因&#xff0c;服务器是Centos8操作系统&#xff0c;所以源码编译异常的麻烦。特此记录如下。 采用源码编译方式可以在一步步的运行过程中对整个流程进行深刻…...

嘉兴桐乡考证培训-23年教资认定注意事项你知道吗?

又到了新的一年了&#xff0c;去年错过认定的同学们可以竖起耳朵啦~ 每年认定机会有两次&#xff0c;大部分省份一般上半年下半年各一次。 问&#xff1a;在校生可以认定么&#xff1f; 答&#xff1a;可以&#xff0c;但有年级限制&#xff1a;本科生大四最后一学期&#xf…...

oracle客户端的安装教程

文章目录 一、安装前的准备工作 1.1、百度网盘安装包的连接 1.2、百度网盘oracle11g软件包 二、oracle数据库客户端的安装与数据的准备 安装步骤 前言 本文主要讲解oracle客户端的安装与简单使用过程 一、安装前的准备工作 1.1、百度网盘安装包的连接 客户端的软件包 …...

python 文件操作 , 异常处理 , 模块和包

文件操作 1.写数据 # open(name, mode) # name&#xff1a;是要打开的目标文件名的字符串(可以包含文件所在的具体路径)。 # mode&#xff1a;设置打开文件的模式(访问模式)&#xff1a;只读、写入、追加等。 #1.打开文件---通道建立--申请资源 # w 模式会清空之前的内…...

AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(1-简介)

文章大纲 AI GC简介决策式/分析式AI(Discriminant/Analytical AI)和生成式AI (Generative AI)参考文献与学习路径模型进化券商研报陆奇演讲AI GC 《我,机器人》中所演绎的一样,主角曾与机器人展开了激烈的辩论,面对“机器人能写出交响乐吗?”“机器人能把画布变成美丽…...

Flask restful分页接口实现

1.先定义一个工作信息表: 指定一些相关的字段:工作名称、年限、级别等 class Work(db.Model):__tablename__ = workid = db.Column(db.Integer, primary_key=True)workName = db.Column(db.String(5),nullable=False)year = db.Column(db.String(20), nullable=False)level = …...

27事务管理AOP

一、MySQL事务回顾 二、Spring事务管理 Spring框架的第一大核心&#xff1a;IOC控制反转 在DeptServiceImpl下删除部门方法下新加一个删除员工信息的操作&#xff0c;注意&#xff1a;此时的id是部门id。 1、问题分析 2、Transactional-Spring事务管理 一般是在Service实现类的…...

煤矿电子封条实施方案 yolov7

煤矿电子封条实施方案采用YOLOv7网络模型算法技术&#xff0c;煤矿电子封条实施算法模型过将全国各省矿山实时监测数据&#xff0c;实现对全国各矿山及时有效的处理及分析。YOLOv7 的发展方向与当前主流的实时目标检测器不同&#xff0c;研究团队希望它能够同时支持移动 GPU 和…...

Linux-inode和block概述

操作系统的文件数据除了实际内容之外&#xff0c;通常含有非常多的属性&#xff0c;例如Linux操作系统的文件权限与文件属性。文件系统通常会将这两部分内容分别存放在inode和block中。 inode 和 block 概述 文件是存储在硬盘上的&#xff0c;硬盘的最小存储单位叫做扇区sect…...

安卓开发投屏反控实现方式

在安卓开发中&#xff0c;可以通过MediaProjection API来实现屏幕投屏的功能&#xff0c;同时也可以通过Socket通信实现反控功能。下面将详细介绍实现步骤和注意事项。 1. 创建MediaProjectionManager对象 首先&#xff0c;我们需要创建一个MediaProjectionManager对象&#…...

外网SSH远程连接linux服务器「cpolar内网穿透」

✨个人主页&#xff1a;bit me&#x1f447; 目 录 视频教程&#x1f334;1. Linux CentOS安装cpolar☘️2. 创建TCP隧道&#x1f38d;3. 随机地址公网远程连接&#x1f38b;4. 固定TCP地址&#x1f384;5. 使用固定公网TCP地址SSH远程 转载自内网穿透工具的文章&#xff1a;无…...

Deferred Components-实现Flutter运行时动态下发Dart代码 | 京东云技术团队

导读 Deferred Components&#xff0c;官方实现的Flutter代码动态下发的方案。本文主要介绍官方方案的实现细节&#xff0c;探索在国内环境下使用Deferred Components&#xff0c;并且实现了最小验证demo。读罢本文&#xff0c;你就可以实现Dart文件级别代码的动态下发。 一、…...

08 集合框架1

什么是数据结构? 存储数据,组织数据的方法,就是对数据做增删改查的操作 常见的数据结构有哪些?各自的优缺点是什么? 数组:擅长修改 查找操作,不擅长增加 删除操作 链表:有单项链表和双向链表,擅长增加和删除操作,不擅长修改和查找的操作 队列:擅长操作头和尾,先进先出,…...

内卷把同事逼成了“扫地僧”,把Git上所有面试题整理成足足24W字测试八股文

互联网大厂更多的是看重学历还是技术&#xff1f; 毫无疑问&#xff0c;是技术&#xff0c;技术水平相近的情况下&#xff0c;肯定学历高/好的会优先一点&#xff0c;这点大家肯定都理解。 说实话&#xff0c;学弟学妹们找工作难&#xff0c;作为面试官招人也难呀&#xff01…...

10-jQuery-遍历children、parent、for、each、for...of等

1、for 循环&#xff1a;可以用来遍历数组或类数组对象&#xff0c;但不能用来遍历普通对象。 <ul><li>John</li><li>Doe</li><li>Jane</li><li>Doe</li> </ul><script>var lis $(li);for (var i 0; i &…...

Qwen2.5-14B-Instruct深度适配|像素剧本圣殿8-Bit UI渲染原理揭秘

Qwen2.5-14B-Instruct深度适配&#xff5c;像素剧本圣殿8-Bit UI渲染原理揭秘 1. 项目概述 像素剧本圣殿&#xff08;Pixel Script Temple&#xff09;是一款基于Qwen2.5-14B-Instruct大模型深度微调的专业剧本创作工具。它将先进的AI推理能力与复古8-Bit视觉美学相结合&…...

Rust内存管理与安全:告别内存泄漏和空指针

Rust内存管理与安全&#xff1a;告别内存泄漏和空指针 后端转 Rust 的萌新&#xff0c;ID "第一程序员"——名字大&#xff0c;人很菜&#xff08;暂时&#xff09;。正在跟所有权和生命周期死磕&#xff0c;日常记录 Rust 学习路上的踩坑经验和"啊哈时刻"…...

seo北京优化和网站内容优化有什么联系

SEO北京优化与网站内容优化的紧密联系 在当今互联网时代&#xff0c;对于任何企业来说&#xff0c;网站的优化是至关重要的一环。尤其是在竞争激烈的北京市场&#xff0c;SEO&#xff08;搜索引擎优化&#xff09;和网站内容优化之间的关系更加紧密。本文将从问题分析、原因说…...

CVPR2025新思路:把对抗扰动本身当成‘训练数据’,聊聊PSP-UAP背后的设计哲学

CVPR2025新思路&#xff1a;对抗扰动作为训练数据的革命性设计哲学 对抗样本研究领域正在经历一场范式转变——从单纯制造攻击工具到重新思考扰动本身的语义价值。PSP-UAP&#xff08;Pseudo-Semantic Prior Universal Adversarial Perturbation&#xff09;的突破性在于&#…...

OpenAI Agents SDK 中文实战指南:从入门到多代理协作

1. 为什么你需要OpenAI Agents SDK 第一次接触这个SDK时&#xff0c;我正为一个客户设计智能客服系统。传统方案需要写大量if-else逻辑判断用户意图&#xff0c;而Agents SDK的多代理协作机制让我眼前一亮——就像组建了一支各有所长的AI团队&#xff0c;数学问题自动转交数学专…...

从YOLOv8到SpikeYOLO:在边缘设备上部署脉冲神经网络目标检测的完整实践指南

从YOLOv8到SpikeYOLO&#xff1a;边缘设备超低功耗目标检测实战手册 在无人机巡检、智能安防摄像头和可穿戴设备等边缘计算场景中&#xff0c;持续运行的目标检测系统常受限于电池容量与散热条件。传统卷积神经网络&#xff08;CNN&#xff09;如YOLOv8虽能实现实时检测&#x…...

电驱动系统标定视频精讲教程:4.5小时全解析,含文档重难点解析

电驱动系统标定 视频 精讲教程&#xff08;含文档&#xff09;&#xff0c;培训时长4.5小时。 电驱动重难点解析文档。深夜的实验室里示波器曲线还在跳动&#xff0c;我盯着屏幕上那个0.3秒的扭矩响应延迟&#xff0c;咖啡杯在控制台边沿留下深褐色的印记。电驱动标定工程师最…...

ESP32实战:5分钟搞定CAN通信,从硬件连接到数据收发(附代码)

ESP32实战&#xff1a;5分钟搞定CAN通信&#xff0c;从硬件连接到数据收发&#xff08;附代码&#xff09; 当你第一次拿到ESP32开发板时&#xff0c;可能已经尝试过Wi-Fi或蓝牙通信&#xff0c;但你是否知道这颗小小的芯片还能轻松实现工业级的CAN总线通信&#xff1f;CAN总线…...

晶振负载电容与谐振电容的快速计算与选型指南

1. 晶振负载电容的基础概念 第一次接触晶振电路设计时&#xff0c;我也被"负载电容"这个概念绕晕了。简单来说&#xff0c;负载电容就是晶振要正常工作所需要的"外部助力"。想象一下荡秋千&#xff0c;负载电容就像是推秋千的力度——太小了荡不起来&#…...

电力系统短路故障分析与电压暂降特征研究:三相不对称短路及其MATLAB仿真分析

1.电力系统短路故障引起电压暂降 2.不对称短路故障分析 包括&#xff1a;共两份自编word&#xff0b;相应matlab模型 1.短路故障的发生频次以及不同类型短路故障严重程度&#xff0c;本文选取三类典型的不对称短路展开研究&#xff0c;包含单相接地短路、相间短路和两相接地短…...