当前位置：首页 > news >正文

WebRTC音频 03 - 实时通信框架

news 2025/12/15 11:48:22

WebRTC音频01 - 设备管理
WebRTC音频 02 - Windows平台设备管理
WebRTC音频 03 - 实时通信框架(本文)
WebRTC音频 04 - 关键类
WebRTC音频 05 - 音频采集编码

一、前言：

前面介绍了音频设备管理，并且以windows平台为例子，介绍了ADM相关的类，以及必须用到的重要API，本文我们分析下，在一个音视频呼叫过程中，音频是如何参与其中的，都有哪些成员参与其中。

二、呼叫时序图：

先回顾下总体呼叫流程，由大到小分析，避免看半天代码不知道自己在哪儿！

在这里插入图片描述

可以看出，呼叫过程中，先要创建非常重要的类PeerConnection，接着进行媒体协商，最后选择进行p2p或者turn这条路；我们现在要分析，这个过程中音频要做哪些事，这件事分别是在上面总流程的哪个位置。

三、音频数据流转：

我们先猜想下，整个过程中应该做什么？是不是下图这样？

在这里插入图片描述

标注红色的就是我们关心的。

四、具体到每个音频模块：

在这里插入图片描述

初始化阶段（图中粉色线）：
1. 这个流程之前分析过，从Session层开始创建一个会话，就会创建一个PeerConnection，然后就是创建音频引擎，接着创建ADM；
2. adm创建过程中会创建AudioDeviceModuleGeneric的具体对象（windows平台就是AudioDeviceWindowsCore，下文本人全都写AudioDeviceModuleGeneric，就代表AudioDeviceWindowsCore）；
数据发送阶段（图中绿色线）：
1. AudioDeviceModuleGeneric对象从麦克风采集到数据，并送给AudioDeviceBuffer，等待发送；
2. 交给AudioTransport模块处理；（这里面主要是经过 AudioProcess 模块进行3A处理)
3. 交给Call模块的 AudioSendStream；
4. 交给ACM模块的Encoder进行编码；
5. 交给网络模块Transport进行发送；
数据接收阶段（图中蓝色线）：
1. 从网络模块接收数据，送给Call模块的队列Queue进行缓存；
2. 慢慢交给AudioReceiveStream进行处理；
3. 交给ACM模块的Decoder进行解码；
4. 解码之后交给在AudioReceiveStream模块继续缓存起来；（因为音频播放有一个单独的线程，扬声器会定时来缓存里面取，而不是我们主动送）
数据播放阶段（图中黑色线）：
1. AudioDeviceModuleGeneric对象调用AudioDeviceBuffer相关接口获取数据；
2. 调用AudioTransport相关接口获取数据（这里面主要是混音模块Mixer，可能同时获得1路或者多路音频，混成1路）；
3. AudioTransport调用1个或者多个AudioReceiveStream中分别取出一定长度的PCM数据；（webrtc就是10ms）
4. 上面三步完成了调用之后，数据就会按照AudioReceiveStream->AudioTransport(mixer)->AudioDeviceBuffer->AudioDeviceModuleGeneric对象，最终通过扬声器播放出来；

总结：

Call模块是每个session一个；
ADM和AudioTransport里面的AudioProcess、Mixer都是全局唯一的，因为Mixer这种是瞬间处理的，不保存数据，因此，所有的Call模块共用同一个；
使用AudioState（可以理解成引擎层的上下文）管理AudioTransport和ADM虽然增加了一层，但是对于上层使用媒体引擎的人来说就非常简单了，我只需要和AudioState打交道；

五、类图：

关键模块类图如下：

在这里插入图片描述

adm_：就是AudioDeviceModule，对音视频设备进行管理，比如，从麦克风采集音频，让扬声器播放数据；
encoder_factory_：音频编码器工厂，创建编码器时候使用；
decoder_factory_：音频解码器工厂；
audio_mixer_：音频混音器，比如将多路输入流混成一路，送给扬声器播放；
apm_：专门用来处理3A问题；
audio_state_：表面看是音频状态管理，实则为音频流的管理；
send_codecs：音频编码器管理；
recv_codecs：音频解码器管理；
channels：WebRtcMediaVoiceChannel的集合；一个对应SDP中一个m行；

六、关键类对象创建时机：

在我们开始呼叫音视频通话时候，点击PeerConnectionClient弹出的connect按钮时候，会调用Conductor::InitializePeerConnection()，先看看引擎的初始化时机：

在这里插入图片描述

然后再看看PeerConnectionFactory::Create再调用 ConnectionContext::Create，而ConnectionContext::Create之后主要干了下面几件事情：

在这里插入图片描述

备注：

发现扬声器和麦克风ADM这一层逻辑基本一致。
并且adm和AudioDeviceWindowsCore中间还有个传话筒AudioDeviceModuleImpl我没有画出来，就是转手调用AudioDeviceWindowsCore而已。
向adm注册一个回调 audio_state()->audio_transport，用于接收将来产生的音视频数据；
创建PeerConnectionFactory之前已经创建了四个编解码器的Factory；
构造Denpendenices的时候，就实例化了一个APM模块，并进行了初始化；
我们前面构造的MediaEngineDependencies是PeerConnectionFactoryDependencies的一个成员，使用media_engine保存；（里面主要是三大线程、call_factory、media_engine（看后面代码，这个主要是接收MediaDependecies的））；
然后是创建音视频引擎；
引擎创建好之后，对引擎做一些必要的初始化CreateModularPeerConnectionFactory：
1. 对pc_factory进行初始化；
  1. BasicNetworkManager：主要是管理网卡的；
  2. BasicPacketSocketFactory：也就是Socekt工厂，主要创建各种各样的socket；
  3. 创建ChannelManager（它是连接编解码器的），同时会调用Init，里面会调用media_engine->Init来初始化之前创建的媒体引擎；

七、总结：

本文主要是介绍了音频各个模块在整个呼叫过程中所处的角色，以及何时创建（创建时机）、创建的什么样（类图）；主要从总体分析，如果要具体到每个类，后续会根据业务场景再做分析，比如：采集过程中用到哪几个类，具体调用哪个函数等等，关注我，不迷路！

扫描关注，最早拿到一手资源：
在这里插入图片描述

WebRTC音频 03 - 实时通信框架

一、前言：

二、呼叫时序图：

三、音频数据流转：

四、具体到每个音频模块：

五、类图：

六、关键类对象创建时机：

七、总结：

相关文章：

WebRTC音频 03 - 实时通信框架

Maven陷阱揭秘：避开Java项目构建的10大常见误区

基础数据结构思路写法记录，便于回顾

基于AI的量化投资框架Qlib的Python依赖包pyqlib安装问题记录

《语音识别方案选择》

目标检测数据集图片及标签同步裁剪

【设计模式-简单工厂】

多个版本的GCC（GNU编译器集合）可以同时安装并存

量子纠错--shor‘s 码

机器学习2

二分查找_ x 的平方根搜索插入位置山脉数组的峰顶索引

汽车建模用什么软件最好？汽车建模渲染建议！

蘑菇分类识别数据集（猫脸码客第222期）

长短期记忆网络（Long Short-Term Memory，LSTM）

WHAT - 引入第三方组件或项目使用需要注意什么

原生鸿蒙操作系统HarmonyOS NEXT（HarmonyOS 5）正式发布

WindTerm配置快捷键Ctrl+C和Ctrl+V

AOP学习

【ubuntu18.04】ubuntu18.04升级cmake-3.29.8及还原系统自带cmake操作说明

利用Docker搭建一套Mycat2+MySQL8一主一从、读写分离的最简单集群（保姆教程）

React Native在HarmonyOS 5.0阅读类应用开发中的实践

Keil 中设置 STM32 Flash 和 RAM 地址详解

2025 后端自学UNIAPP【项目实战：旅游项目】6、我的收藏页面

现代密码学 | 椭圆曲线密码学—附py代码

2025盘古石杯决赛【手机取证】

Axios请求超时重发机制

uniapp中使用aixos 报错

华硕a豆14 Air香氛版，美学与科技的馨香融合

return this；返回的是谁

探索Selenium：自动化测试的神奇钥匙