当前位置：首页 > news >正文

面试官: 谈下音视频同步原理，音频和视频能绝对同步吗？

news 2026/3/26 12:04:28

作者：波哥

心理分析：音视频同步本身比较难，一般使用ijkplayer 第三方做音视频同步。不排除有视频直播视频通话需要用音视频同步，可以从三种音频为准视频为准自定义时钟为准三种方式实现音视频同步

求职者:如果被问到放正心态，能回答多少是多少。如果你看了这篇文章肯定是可以回答上的

音视频的直播系统是一个复杂的工程系统，要做到非常低延迟的直播，需要复杂的系统工程优化和对各组件非常熟悉的掌握。下面整理几个简单常用的调优技巧：

以fflay来看音视频同步流程

ffplay中将视频同步到音频的主要方案是，如果视频播放过快，则重复播放上一帧，以等待音频；如果视频播放过慢，则丢帧追赶音频。

这一部分的逻辑实现在视频输出函数video_refresh中，分析代码前，我们先来回顾下这个函数的流程图：

在这个流程中，“计算上一帧显示时长”这一步骤至关重要。先来看下代码：

static void video_refresh(void *opaque, double *remaining_time)
{//……//lastvp上一帧，vp当前帧 ，nextvp下一帧last_duration = vp_duration(is, lastvp, vp);//计算上一帧的持续时长delay = compute_target_delay(last_duration, is);//参考audio clock计算上一帧真正的持续时长time= av_gettime_relative()/1000000.0;//取系统时刻if (time < is->frame_timer + delay) {//如果上一帧显示时长未满，重复显示上一帧*remaining_time = FFMIN(is->frame_timer + delay - time, *remaining_time);goto display;}is->frame_timer += delay;//frame_timer更新为上一帧结束时刻，也是当前帧开始时刻if (delay > 0 && time - is->frame_timer > AV_SYNC_THRESHOLD_MAX)is->frame_timer = time;//如果与系统时间的偏离太大，则修正为系统时间//更新video clock//视频同步音频时没作用SDL_LockMutex(is->pictq.mutex);if (!isnan(vp->pts))update_video_pts(is, vp->pts, vp->pos, vp->serial);SDL_UnlockMutex(is->pictq.mutex);//……//丢帧逻辑if (frame_queue_nb_remaining(&is->pictq) > 1) {Frame *nextvp = frame_queue_peek_next(&is->pictq);duration = vp_duration(is, vp, nextvp);//当前帧显示时长if(time > is->frame_timer + duration){//如果系统时间已经大于当前帧，则丢弃当前帧is->frame_drops_late++;frame_queue_next(&is->pictq);goto retry;//回到函数开始位置，继续重试(这里不能直接while丢帧，因为很可能audio clock重新对时了，这样delay值需要重新计算)}}
}

这段代码的逻辑在上述流程图中有包含。主要思路就是一开始提到的如果视频播放过快，则重复播放上一帧，以等待音频；如果视频播放过慢，则丢帧追赶音频。实现的方式是，参考audio clock，计算上一帧（在屏幕上的那个画面）还应显示多久（含帧本身时长），然后与系统时刻对比，是否该显示下一帧了。

这里与系统时刻的对比，引入了另一个概念——frame_timer。可以理解为帧显示时刻，如更新前，是上一帧的显示时刻；对于更新后（is->frame_timer += delay），则为当前帧显示时刻。

上一帧显示时刻加上delay（还应显示多久（含帧本身时长））即为上一帧应结束显示的时刻。具体原理看如下示意图：

这里给出了3种情况的示意图：

time1：系统时刻小于lastvp结束显示的时刻（frame_timer+dealy），即虚线圆圈位置。此时应该继续显示lastvp
time2：系统时刻大于lastvp的结束显示时刻，但小于vp的结束显示时刻（vp的显示时间开始于虚线圆圈，结束于黑色圆圈）。此时既不重复显示lastvp，也不丢弃vp，即应显示vp
time3：系统时刻大于vp结束显示时刻（黑色圆圈位置，也是nextvp预计的开始显示时刻）。此时应该丢弃vp。

delay的计算

那么接下来就要看最关键的lastvp的显示时长delay是如何计算的。

这在函数compute_target_delay中实现：

static double compute_target_delay(double delay, VideoState *is)
{double sync_threshold, diff = 0;/* update delay to follow master synchronisation source */if (get_master_sync_type(is) != AV_SYNC_VIDEO_MASTER) {/* if video is slave, we try to correct big delays byduplicating or deleting a frame */diff = get_clock(&is->vidclk) - get_master_clock(is);/* skip or repeat frame. We take into account thedelay to compute the threshold. I still don't knowif it is the best guess */sync_threshold = FFMAX(AV_SYNC_THRESHOLD_MIN, FFMIN(AV_SYNC_THRESHOLD_MAX, delay));if (!isnan(diff) && fabs(diff) < is->max_frame_duration) {if (diff <= -sync_threshold)delay = FFMAX(0, delay + diff);else if (diff >= sync_threshold && delay > AV_SYNC_FRAMEDUP_THRESHOLD)delay = delay + diff;else if (diff >= sync_threshold)delay = 2 * delay;}}av_log(NULL, AV_LOG_TRACE, "video: delay=%0.3f A-V=%f\n",delay, -diff);return delay;
}

上面代码中的注释全部是源码的注释，代码不长，注释占了快一半，可见这段代码重要性。

这段代码中最难理解的是sync_threshold，画个图帮助理解：

图中坐标轴是diff值大小，diff为0表示video clock与audio clock完全相同，完美同步。图纸下方色块，表示要返回的值，色块值的delay指传入参数，结合上一节代码，即lastvp的显示时长。

从图上可以看出来sync_threshold是建立一块区域，在这块区域内无需调整lastvp的显示时长，直接返回delay即可。也就是在这块区域内认为是准同步的。

如果小于-sync_threshold，那就是视频播放较慢，需要适当丢帧。具体是返回一个最大为0的值。根据前面frame_timer的图，至少应更新画面为vp。

如果大于sync_threshold，那么视频播放太快，需要适当重复显示lastvp。具体是返回2倍的delay，也就是2倍的lastvp显示时长，也就是让lastvp再显示一帧。

如果不仅大于sync_threshold，而且超过了AV_SYNC_FRAMEDUP_THRESHOLD，那么返回delay+diff，由具体diff决定还要显示多久（这里不是很明白代码意图，按我理解，统一处理为返回2*delay，或者delay+diff即可，没有区分的必要）

至此，基本上分析完了视频同步音频的过程，简单总结下：

基本策略是：如果视频播放过快，则重复播放上一帧，以等待音频；
如果视频播放过慢，则丢帧追赶音频。
这一策略的实现方式是：引入frame_timer概念，标记帧的显示时刻和应结束显示的时刻，再与系统时刻对比，决定重复还是丢帧。
lastvp的应结束显示的时刻，除了考虑这一帧本身的显示时长，还应考虑了video clock与audio clock的差值。
并不是每时每刻都在同步，而是有一个“准同步”的差值区域。

在面试过程中感觉对音视频NDK底层这一块的知识点掌握好，于是针对这块知识点进行了梳理整理，并将面试中遇到的一些问题，也在其中找到了想要的答案，想了解恶补音视频开发这块知识的小伙伴可以参考这《音视频开发核心笔记》：https://qr18.cn/Ei3VPD

面试官: 谈下音视频同步原理，音频和视频能绝对同步吗？

以fflay来看音视频同步流程

delay的计算

相关文章：

面试官: 谈下音视频同步原理，音频和视频能绝对同步吗？

CFS三层靶机安装与配置

爬虫入门教程-Spider

Python|蓝桥杯进阶第二卷——贪心

Chrome开发使用技巧总结

你真的会在阳光下拍照片么？

量化择时——均线策略及改进方法（第1部分—因子测算）

封装几个有用的 Vue3 组合式API

MyBatisPlus中的条件构造器Wrapper

类和对象及其构造方法

HStream Console、HStreamDB 0.14 发布

参考文献怎么查找，去哪里查找？一篇文章讲明白这些问题

docker-compose+HAProxy+Keepalived搭建高可用 RabbitMQ 集群

自动化框架如何搭建？让10年阿里自动化测试老司机帮你搞定！自动化测试脚本怎么写？

剑指 Offer 15. 二进制中1的个数

CHAPTER 3 磁盘管理

MS python学习（7）

工业物联网“杀手级”应用—预测性维护

Java代码弱点与修复之——Explicit null dereferenced（显式空间接引用）

一元导数与多元求导数总结

LuatOS扩展库API——【airlbs 】airlbs 定位服务

电脑 TPM 怎么查看、开启与关闭？一文讲清安全与系统必备设置

【笔试真题】- 阿里系列-2026.03.25-算法岗

Amazon Corretto 17全链路优化指南：从底层原理到企业级实践

Excel动态甘特图制作指南：利用条件格式实现进度可视化

【2026年最新600套毕设项目分享】springboot基于深度学习的蘑菇种类识别系统（14260）

手把手教你用LTspice仿真DAB双有源桥DC-DC变换器（单移相SPS控制篇）

联合仿真模型验证：Carsim + 车辆动力学模型（十四自由度）实践

右键菜单瘦身术：如何用ContextMenuManager让Windows操作效率提升300%

开发环境神器：OpenClaw+GLM-4.7-Flash自动补全错误日志解决方案