当前位置: 首页 > news >正文

如何打造“面向体验”的音视频能力——对话火山引擎王悦

编者按:随着全行业视频化的演进,我们置身于一个充满创新与变革的时代。在这个数字化的浪潮中,视频已经不再只是传递信息的媒介,更是重塑了我们的交互方式和体验感知。作为字节跳动的“能力溢出”,火山引擎正在飞速奔跑。根据2023《中国视频云市场跟踪,2023上半年》报告显示,在视频云解决方案市场上,火山引擎的市场占有率排在第五位。

从在北京创业时听着路演写代码,到成为火山引擎视频云架构的技术总监,王悦的经历横跨了几代视频编解码标准的长度,而他的每一步都不偏不倚地踩在了视频发展的重要节点。这次的LiveVideoStackCon上,他将带领火山引擎带来「抖音背后的体验增长」的实战揭秘。他所在的火山引擎视频云部门期望借助海量的富媒体内容带来更顺畅的画质体验、更优质的交互体验、更流畅的播放体验和更佳的性能体验,再通过火山,给整个行业去提供整个端到端的视频云的解决方案。以下是LiveVideoStack与王悦的对话——

视频,重塑了我们的生活方式

LiveVideoSatck:2018年加入字节跳动(以下简称字节),如今已经五年了。这五年的时间里,你都经历了哪些变化和成长,其中让你印象最深刻的是什么?

王悦:整体上都是围绕多媒体技术和架构,职责和工作重心随着业务的增长和组织的需求持续有些调整。印象最深刻的应该还是随着公司业务的成长,我们的技术、业务和组织理念逐步实现了一个比较大的转变,从一个偏解决方案、技术支撑的部门角色演进到了围绕云上的商品和服务来建设,因此大家看到了今天的火山引擎,今天的视频云。

LiveVideoStack:过去十年是飞速发展的十年。从传统互联网到移动互联网再到现在一个相对平稳的状态,你怎么总结上个十年的行业的变化,或者说它在你身上产生的投影?

王悦:其实我们可以算一下,你每天刷抖音、短视频多长时间,每天是不是要开几个视频会议,这些典型的场景在行业上又催生出多少个像抖音、腾讯或Zoom这样的公司。从另外一个角度讲,我们每天面对这些太司空见惯了,所以去回顾当时的产品可能没有那么深的感触。但我记得十年前第一次出现 UGC 直播创业的公司、第一次用 Zoom 开会、第一次看到桌面共享居然可以做到这么丝滑。在看到那些场景的时候你会觉得这种创新变革是非常巨大的,那个时候的兴奋感是非常强的。总体来说,视频编解码的标准虽然一直在变,但基本框架这20年来几乎没怎么变过,用户对于超高清、低延时、强交互的体验需求也一直存在,我们也在根据行业和用户场景的需求不断地适应、迭代和改进。

抖音背后,用户体验提升的秘诀

LiveVideoStack:你之前有提到过,目前视频编码的迭代的速度已经追赶不上这个视频数量增长速度,火山引擎是如何解决这一问题的?

王悦简单来讲就是提升算力的密度和规模。在并行计算方面,摩尔定律还没失效,这也是为什么现在NVIDIA还是能持续高速地增长。首先就是挖掘一个场景,在这个场景下,确保算力能够指数级地跟上业务的需求。另外就是专芯专用,就是专用的芯片去做专业的事情。因为通用计算做编解码效率并没有那么高。为什么现在大家都在做专用的视频编码芯片,它就是可以把单位芯片面积的算力发挥到极致。所以综合这两点,一个是这个专业计算,一个是极致密度,我们通过异构计算的矩阵,充分保障了我们视频转码和处理的效率。

LiveVideoStack:提到NVIDIA,你们一同合作的视频处理框架(BMF)在今年8月份正式发布,目前,实践起来情况如何,对抖音、西瓜等带来了怎样的帮助?

王悦:我们与NVIDIA合作的视频处理框架BMF在抖音、西瓜等内部业务上经过了充分应用和验证。对于量更大、处理链路更复杂的点播转码场景,BMF已经全量上线了,包括了视频检测、增强、转码等各个环节,过程中BMF的性能和稳定性,以及对于开发效率的提升已经被充分验证。除此之外,BMF在内部的审核抽帧、云编辑、直播转码、移动端增强等场景都有广泛的应用。我们自己主要的收益点还是提升了开发效率,降低维护成本和出错概率,加快新业务、新功能的接入和上线速度。

LiveVideoStack:拿视频云团队来说,你们对于降本增效有压力吗?

王悦:目前来看的话其实还好,未来多媒体的的增量空间还有多少我们可能都会考虑。现在看来起码两三年内还是比较乐观的,我们自己做ToB虽然很难,但是从0到1还是有很多去发力的空间。对于火山引擎自己的经验来说的话,之前一直要给大家剖析一个非常详细的方法论,这次在深圳站结束之后,我们联合抖音撰写了一份面向体验的白皮书,比如“体验、成本和技术三者的均衡,抖音是怎么做的?火山又是通过什么技术驱动的手段实现的?” 、“沉浸上的体验、画质的体验和交互的体验在点播、RTC和架构上怎样实现的”,以上这些内容我们都会详细阐述。

关于危机、机会和未来

LiveVideoStack:目前,我们能看到的主流的流媒体公司都在增效、减员、压缩。下一个时代看上去是属于人工智能的时代,是不是证明流媒体的时代就结束了,或者说暂时告一段落了?

王悦:首先,我觉得不能叫结束吧,只能说现在整个行业渗透到了一个相对平稳的时期了,但这并不意味着这个行业的人就失业了,只是像十年前那样从0到1 的机会和空间越来越少。但回想我10年前博士毕业的时候,当时的音视频从业者也非常少,我硕士毕业的时候,9个同学有8个去了银行,那个时候做视频编解码的公司几乎没有,只有外企去做标准,国内你会用ffMPEG,会做基本的一些开源方案的使用或维护就够了。现在看我们整个国内的音视频流媒体的从业人员有多少?这其实已经是十年以前不可比拟的。所以从这个角度讲我觉得不能说是停滞了,只是无法保持像上个十年一样的增速。

LiveVideoStack:其实流媒体的从业者,无论从智商还是能力上来讲,都是非常出色的人。你觉得面临人工智能这样的一个新兴的技术革新的危机,我们应该怎么面对或者拥抱它?

王悦:其实我觉得不止流媒体,所有技术人都会面临技术被革新的难题。你需要去学新的语言、新的开发框架。但是未来是否AI就取代了流媒体?我觉得这不是两个冲突的概念。流媒体的本质是帮助我们获取信息、分享信息和传递信息的载体,但AI本身是一个工具,它能做的是帮助我们提升分享内容的效率,或者是提升内容本身的丰富度。我们完全可以用 AI 的工具帮助我们把流媒体这个空间打开的更大一些。因为技术本身是没有边界的,我们做流媒体的人跨界去学点 AI 的东西,完全没有任何问题。

大模型会释放出很多机会,一些偏机械化的开发工作可能不需要人去做,并且整个行业还在持续聚集。马太效应还在一直往前走,就像刚才说的,可能最早做直播的有上百家上千家,但现在会相对更精专化。未来如果持续集中的话,这些底层的技术资源也会相应的集中。

LiveVideoSatck:单个人创造的价值可能会更大。

王悦:是的。

LiveVideoSatck:抛开这种内部的优化升级,你觉得未来新的增量机会在哪?

王悦:虽然整体上大家觉得可能该挖掘的都被挖掘了,但我们还是要保持乐观。10年前甚至20年前,我们第一次用VCD的时候,我们是想象不到会有今天这样一个场景的。目前行业确实比较饱和,大家看不到新的增量空间。但市场是为未来买单的,说不定未来我们还是能挖掘到一些新的场景,能够让我们获取信息或者分享模式上有一些变革。可能我给不出一些明确的答案,但是一定不排除市场上有一些新的创业公司,或者一些新的突发事件能够带给这个行业一些新的变革。

LiveVideoStack:这次11月24-25日的LiveVideoStack Con 大会上,火山引擎会重点分享抖音的体验优化,给我们介绍一下其中的方法吧。

:之前关于体验优化关于这方面已经分享了很多,简单归纳的话,首先明确数据指标,找到指北针,关键的业务目标是什么,要优化的QoE和QoS指标什么,这些指标之间有怎样的量化和內联关系;然后,要让数据体系正向运转起来,需要一套完善、稳定的工程系统和数据工具,如AB test、智能分析工具等;最后,这套优化体系的原动力,还是来自于一系列的算法和策略,如何提升画质、降低延时和卡顿,这就主要依靠技术同学的技术能力和洞察力了。


c89d392fbbd440727c23005978d74f84.jpeg

相关文章:

如何打造“面向体验”的音视频能力——对话火山引擎王悦

编者按:随着全行业视频化的演进,我们置身于一个充满创新与变革的时代。在这个数字化的浪潮中,视频已经不再只是传递信息的媒介,更是重塑了我们的交互方式和体验感知。作为字节跳动的“能力溢出”,火山引擎正在飞速奔跑…...

什么是NoOps

过去几年,自动化一直在推动整个 IT 行业向前发展。通过自动化某些任务,开发团队可以提高其能力,而无需感受到雇用新团队成员的预算压力。自动化还保证了更高的效率,特别是在操作和维护方面。 传统的软件开发工作流程涉及开发团队…...

Unity - Graphic解析

Gpahic 的作用 Graphic 是 Unity最基础的图形基类。主要负责UGUI的显示部分。 由上图可以看你出我们经常使用的Image,Text,都是继承自Graphic。 Graphic的渲染流程 在Graphic的源码中有以下属性 [NonSerialized] private CanvasRenderer m_CanvasRend…...

哈希思想的应用

目录 1.位图 位图的实现 题目变形一 题目变形二 题目变形三 总结: 2.布隆过滤器 概念 布隆过滤器的实现 3.哈希切割的思想 1.位图 哈希表和位图是数据结构中常用的两种技术。哈希表是一种数据结构,通过哈希函数把数据和位置进行映射&#xff0c…...

React入门使用 (官方文档向 Part1)

文章目录 React组件:万物皆组件 JSX: 将标签引入 JavaScriptJSX 规则1. 只能返回一个根元素2. 标签必须闭合3. 使用驼峰式命名法给 ~~所有~~ 大部分属性命名!高级提示:使用 JSX 转化器 在 JSX 中通过大括号使用 JavaScript使用引号传递字符串使用大括号&…...

87基于matlab的双卡尔曼滤波算法

基于matlab的双卡尔曼滤波算法。第一步使用了卡尔曼滤波算法,用电池电压来修正SOC,然后将修正后的SOC作为第二个卡尔曼滤波算法的输入,对安时积分法得到的SOC进行修正,最终得到双卡尔曼滤波算法SOC估计值。结合EKF算法和安时积分法…...

Jacobi迭代与SOR迭代求解希尔伯特矩阵

给出线性方程组 Hn*x b,其中系数矩阵Hn为希尔伯特矩阵: 假设 x ∗ (1, 1, . . . , 1)T,b Hnx ∗。若取 n 6,8, 10,分别用 Jacobi 迭代法及 SOR迭代(ω 1, 1:25,1:5)求解,比较计算结果。…...

【云备份】配置加载文件模块

文章目录 配置信息设计配置文件加载cloud.conf配置文件单例模式的使用ReadConfigFile —— 读取配置文件GetInstance —— 创建对象其他函数的实现 具体实现cloud.confconfig.hpp 配置信息设计 使用文件配置加载一些程序运行的关键信息 可以让程序的运行更加灵活 配置信息&am…...

sqlserver写入中文乱码问题

sqlserver写入中文乱码问题解决方案 首先查看sqlserver数据库编码 首先查看sqlserver数据库编码 查询语句:SELECT COLLATIONPROPERTY(Chinese_PRC_Stroke_CI_AI_KS_WS, CodePage); 对应的编码: 936 简体中文GBK 950 繁体中文BIG5 437 美国/加…...

【亚马逊云】基于EC2以 All-in-One 模式快速部署 KubeSphere 和 Kubernetes

文章目录 1. 云实例配置说明2. SSH连接云实例3. 查看系统版本4. 修改主机名5. 安装依赖项6. 安全组和DNS修改7. 下载KubeKey8. 同时安装Kubesphere和Kubernetes[可选]单独安装Kubernetes[可选]单独安装KubeSphere9. 验证KubeSphere安装结果10. 登录KubeSphere控制台[可选]安装K…...

使用 ChatGPT 创建 Makefile 构建系统:从 Docker 开始

使用 Docker 搭配 ChatGPT 创建 Makefile 构建系统 Makefile 构建系统是嵌入式软件团队实现其开发流程现代化的基础。构建系统不仅允许开发人员选择各种构建目标,还可以将这些构建集成到持续集成/持续部署 (CI/CD) 流程中。使用诸如 ChatGPT 这样的人工智能 (AI) 工…...

嵌入式设备摄像头基础知识

工作原理 摄像头的工作原理是,当光线通过镜头聚焦到图像传感器上时,传感器会将光信号转换为电信号,并将其传输给处理器进行处理。处理器通过算法对图像信号进行增强、去噪、压缩等操作,并将其转换为数字信号输出给计算机或其他设…...

使用Pytorch从零开始构建Normalizing Flow

归一化流 (Normalizing Flow) (Rezende & Mohamed,2015)学习可逆映射 f : X → Z f: X \rightarrow Z f:X→Z, 在这里X是我们的数据分布,Z是选定的潜在分布。 归一化流是生成模型家族的一部分,其中包括变分自动编…...

一个tomcat中部署的多个war,相当于几个jvm

请直接去看原文 原文链接:一个tomcat有几个jvm-CSDN博客 --------------------------------------------------------------------------------------------------------------------------------- 前几天向unmi提问,今天他答复了。我觉得答复很清楚,…...

2023年第十六届中国系统架构师大会(SACC2023)-核心PPT资料下载

一、峰会简介 本届大会以“数字转型 架构演进”为主题, 涵盖多个热门领域,如多云多活、海量分布式存储、容器、云成本、AIGC大数据等,同时还关注系统架构在各个行业中的应用,如金融、制造业、互联网、教育等。 与往届相比&#…...

高校大学校园后勤移动报修系统 微信小程序uniapp+vue

本文主要是针对线下校园后勤移动报修传统管理方式中管理不便与效率低的缺点,将电子商务和计算机技术结合起来,开发出管理便捷,效率高的基于app的大学校园后勤移动报修app。该系统、操作简单、界面友好、易于管理和维护;而且对后勤…...

docker常见问题汇总

docker常见问题 ❓问题1:启动docker容器时,报错Unknown runtime specified nvidia. 当我启动一个容器时,运行以下命令: docker run --runtimenvidia 。。。。 后面一部分命令没写出来,此时报错的信息如下:…...

JMeter 测试脚本编写技巧

JMeter 是一款开源软件,用于进行负载测试、性能测试及功能测试。测试人员可以使用 JMeter 编写测试脚本,模拟多种不同的负载情况,从而评估系统的性能和稳定性。以下是编写 JMeter 测试脚本的步骤。 第 1 步:创建测试计划 在JMet…...

力扣6:N字形变化

代码&#xff1a; class Solution { public:string convert(string s, int numRows){int lens.size();if(numRows1){return s;}int d2*numRows-2;int count0;string ret;//第一行&#xff01;for(int i0;i<len;id){rets[i];}//第k行&#xff01;for(int i1;i<numRows-1;…...

【上海大学数字逻辑实验报告】一、基本门电路

一、 实验目的 熟悉TTL中、小规模集成电路的外形、管脚和使用方法&#xff1b;了解和掌握基本逻辑门电路的输入与输出之间的逻辑关系及使用规则。 二、 实验原理 实现基本逻辑运算和常用逻辑运算的单元电路称为逻辑门电路。门电路通常用高电平VH表示逻辑值“1”&#xff0c;…...

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…...

业务系统对接大模型的基础方案:架构设计与关键步骤

业务系统对接大模型&#xff1a;架构设计与关键步骤 在当今数字化转型的浪潮中&#xff0c;大语言模型&#xff08;LLM&#xff09;已成为企业提升业务效率和创新能力的关键技术之一。将大模型集成到业务系统中&#xff0c;不仅可以优化用户体验&#xff0c;还能为业务决策提供…...

java_网络服务相关_gateway_nacos_feign区别联系

1. spring-cloud-starter-gateway 作用&#xff1a;作为微服务架构的网关&#xff0c;统一入口&#xff0c;处理所有外部请求。 核心能力&#xff1a; 路由转发&#xff08;基于路径、服务名等&#xff09;过滤器&#xff08;鉴权、限流、日志、Header 处理&#xff09;支持负…...

模型参数、模型存储精度、参数与显存

模型参数量衡量单位 M&#xff1a;百万&#xff08;Million&#xff09; B&#xff1a;十亿&#xff08;Billion&#xff09; 1 B 1000 M 1B 1000M 1B1000M 参数存储精度 模型参数是固定的&#xff0c;但是一个参数所表示多少字节不一定&#xff0c;需要看这个参数以什么…...

关于nvm与node.js

1 安装nvm 安装过程中手动修改 nvm的安装路径&#xff0c; 以及修改 通过nvm安装node后正在使用的node的存放目录【这句话可能难以理解&#xff0c;但接着往下看你就了然了】 2 修改nvm中settings.txt文件配置 nvm安装成功后&#xff0c;通常在该文件中会出现以下配置&…...

MMaDA: Multimodal Large Diffusion Language Models

CODE &#xff1a; https://github.com/Gen-Verse/MMaDA Abstract 我们介绍了一种新型的多模态扩散基础模型MMaDA&#xff0c;它被设计用于在文本推理、多模态理解和文本到图像生成等不同领域实现卓越的性能。该方法的特点是三个关键创新:(i) MMaDA采用统一的扩散架构&#xf…...

基础测试工具使用经验

背景 vtune&#xff0c;perf, nsight system等基础测试工具&#xff0c;都是用过的&#xff0c;但是没有记录&#xff0c;都逐渐忘了。所以写这篇博客总结记录一下&#xff0c;只要以后发现新的用法&#xff0c;就记得来编辑补充一下 perf 比较基础的用法&#xff1a; 先改这…...

(二)原型模式

原型的功能是将一个已经存在的对象作为源目标,其余对象都是通过这个源目标创建。发挥复制的作用就是原型模式的核心思想。 一、源型模式的定义 原型模式是指第二次创建对象可以通过复制已经存在的原型对象来实现,忽略对象创建过程中的其它细节。 📌 核心特点: 避免重复初…...

页面渲染流程与性能优化

页面渲染流程与性能优化详解&#xff08;完整版&#xff09; 一、现代浏览器渲染流程&#xff08;详细说明&#xff09; 1. 构建DOM树 浏览器接收到HTML文档后&#xff0c;会逐步解析并构建DOM&#xff08;Document Object Model&#xff09;树。具体过程如下&#xff1a; (…...

uniapp微信小程序视频实时流+pc端预览方案

方案类型技术实现是否免费优点缺点适用场景延迟范围开发复杂度​WebSocket图片帧​定时拍照Base64传输✅ 完全免费无需服务器 纯前端实现高延迟高流量 帧率极低个人demo测试 超低频监控500ms-2s⭐⭐​RTMP推流​TRTC/即构SDK推流❌ 付费方案 &#xff08;部分有免费额度&#x…...