AI重新定义音视频生产力“新范式”
//
编者按:AIGC无疑是当下的热门话题和场景。面对AI带来的技术变革和算力挑战,该如何应对?LiveVideoStackCon 2023上海站邀请到了网心科技副总裁武磊为我们分享网心在面对AI应用场景和业务需求下的实践经验。
文/武磊
编辑/LiveVideoStack
大家好,我今天分享的主题是AI重新定义音视频生产力“新范式”。
分享内容主要分为三部分:①AI引领内容消费升级;②“云”训练“边”推理是最优架构;③网心的音视频架构演进。
-01-
AI引领内容消费升级
首先是内容视频化。过去几年,整个社会的表达、创作都在视频化转型与升级。从人类自身来看,大脑处理视觉信息的速度比文字要快60000倍,视觉辅助可以将学习效率提高多达400%。这在科学层面印证了视频化叙事的喜闻乐见。从中国整个视频用户规模来看,2010到2022年的12年时间里增长了3.5倍,并于2022年网络视听用户规模也正式超越了即时通讯,成为互联网第一大应用。而移动互联网的用户使用时长更能反映出这种趋势,2019年短视频用户使用总时长还落后即时通讯15%,到2021年已经实现反超,今年5月这一数据已经扩大到6.1%。
第二点是优质内容视频化效率有待提升。从网文到漫画、电影的内容视频化,产生了很多成功的商业案例。斗罗大陆最早在起点中文网上连载,到2018年点击量达到6千多万,期间也改编过动画,凭借着广泛的受众面,在游戏化后创造了破百亿的累计流水。还有大家熟知的鬼吹灯系列,2015年改编上映的《寻龙诀》电影,由陈坤和黄渤等主演,票房高达16.8亿,成为当年度中国电影票房第三名。
优质IP的视频化拥有非常显著的经济效益,但从视频化的效率上来看,还有很多待提升的空间。比如将IP拍成电影,需要经历剧本的打磨、选角、道具准备、拍摄、后期制作、宣发、时间和人力上都是巨大的投入。以阅文为例,2022年进入IP改编的作品还不到新增作品的0.5%。随着AI技术的加入,在剧本、剪辑、配音、特效、宣发海报等环节,都能够很好地利用AI工具实现自动化生成,带来效率提升。
第三点是AI+音视频的全方位创新。从图片、音乐、配音、视频和交互等各方面已经有了很成熟的应用。
最近发生了好莱坞罢工事件,演员和编剧们对于被AI取代的担忧已经逐渐成为了现实,技术的革命意味着行业的洗牌和利益的重新分配。
以游戏制作为例,在AIGC的加持下逐渐构建出来了新的创作模式与内容价值。具体来说:1、AIGC可以给创意产生提供思路,同时提升画质和交互性。2、为游戏制作提效。我们都知道《原神》,它从立项到上线测试耗时2年左右,如果在一些环节使用AI的确可以提升游戏制作效率,例如网易现在用自研AI技术应用于游戏工业化全流程,对关键环节的工作效率提升多达90%。3、降本,由于减少了人员和时间投入,可以很好地降低制作成本。4、玩法迭代,助力游戏创新。
来自第三方的调查数据显示,游戏行业平均研发费用占收入比例为25%左右,如果用AI的方式,可优化制作成本约266亿元,40%的研发成本可以得到优化。这里包含了美术设计、自动化测试、音效制作等环节。
从文字到视频,用户量级呈几何倍数的增加。阅文2022年平均月付费用户为790万人,而视频应用仅爱奇艺一家会员用户就是过亿,抖音用户更是达到惊人的8.09亿。视频的特点是内容听得到、看得着、强交互,具有广覆盖的用户群体,从网文到音视频的转化,网文IP价值进一步放大,随着AI的加入,生成大量的虚拟人物,产生强互动,为元宇宙的到来奠定基础。
从文字到音视频的内容消费升级,内容生产成本从过去的以人工单位定价转为算力定价。过去的配音、动漫制作、影视剧制作还是游戏开发,核心的成本还是人员投入。但在AIGC模式下,平均算力成本主要由GPU性能等决定;训练成本与推理成本的比例大约是1:9,以Midjourney为例,大约10%的云成本用于训练,90%是用户制作图像的推理。
AI的投入,在带来生产力质的飞跃同时,背后是天量算力的缺口。OpenAI分析表明,2012-2019年,AI训练使用的算力每3.5个月就会翻一倍,相对比摩尔定律是每18个月翻倍,对算力的需求七年增长了30万倍。而巨大的算力需求背后是高昂的算力成本。以GPT3训练为例,单次训练成本高达460万美元,日常运营对应的单月运营成本高达千万美元。
-02-
“云”训练“边”推理是最优架构
实际上,边缘计算一定不是建设驱动和比拼资金密度的行业,基于碎片化的供给,会有很强的平台效应。
网心通过合作招募+自建+共建等方式触达到的云、边、端的资源,这也是网心从2015年一直从各个渠道拓宽触达更广的边缘资源。有了稳定供给的资源,中间一层核心工作是异构资源的治理和标准化,通过统一的接入流程,千万节点的容器化的平台支撑,做到资源的合理调度和高效应用。最上层是我们的解决方案产品矩阵,网心当前两大成熟场景:边缘计算平台和基于边缘资源的带宽加速解决方案。
网心的定位是做边缘云计算服务提供商,提供支持未来任何算力的需求场景;在算力场景,我们构建了一个健壮,弹性,高可用的基础设施平台,通过智能调度服务,能够更加经济节省的满足客户的AI推理,自动驾驶,工业互联网等场景需求。
我们希望通过提供底层的边端资源,中心云进行模型训练、算法迭代等,得到一个合适的推理模型放在边缘做数据建模。例如,我们最近在和某电动汽车厂商合作,尝试把智能语音模型推理从云端改到边端。
接下来讲一下新架构带来的变化。
第一、多云融合,需要把中心云和边缘云的能力进行契合,通过探索和实践实现训练和推理的无缝衔接。
第二、资源视图升级为服务视图,我们不仅作为资源提供方,更要亲身实践,提供相关的服务。
第三、边缘云的多层计算力分配,将分散、异构、多层级、闲置的算力集合起来。
第四、延时降低,交互增加,带来更多的沉浸式和“临场感”需求,需要增加相应的技术积累。
在此基础上,我们提出IAAS+架构。最底层就是上文提到的中心云与边缘云的合作,以提供更好的资源管理;中间层通过模型托管平台,把开源和闭源模型做好衔接;最上层是应用层,包括端到端应用等。
在AIGC实践上。我们尝试将AIGC中的某些业务模块,所需要的算力从中心下沉至边缘节点,当然目前还是将数据回传至中心存储,未来希望能直接存储在边缘,达到真正的云边端协同。
-03-
网心的音视频架构演进
AIGC的爆发会使更多的内容在边缘产生,同时带来了低延时的需求。
在直播场景中,需要将一路流拆分成多路,分配到离用户更近的边缘节点,在播放端需要这路流时,寻找多个边缘节点拉起多路子流合成最终直播流。这个流程目前已经相对成熟,无论是在QoS还是QoE方面,都和传统的方式没有太大差异。
目前我们的要求有两点:1、质量上与云厂持平,包括流畅度、画质、延时等;2、成本上保证边缘要服务80%以上的流量。在关键技术点上,云负责起播和回切,边负责多链路传输通道以及网络传输优化。
在做双端优化的过程中,我们通过用户端的网络容量评估,实现对单个链路的带宽分配,通过用户和每个链路之间的实时质量评估以及冗余FEC多通道容错机制,尽量减少重传。
在云游戏中,延时要求更高。接入端和玩家距离越近,延迟越低,网心智能调度服务可以根据网络距离实现最优覆盖,通过调度返回最优节点列表,实现更低延迟。
在这里,谈谈基于Serverless构建边缘算力服务。内容在边缘产生,边缘是一定有用的。内容在边缘分发,超低延时的技术积累一定有用。
内容在边缘大量产生,就需要把它们组织起来。我们目前的思路是,中心云在Serverless存在实践难点,而在边缘云当中是刚需,所以需要充分发挥新业务+端+Serverless相结合的优势。
网心作为全球边缘计算创领者,从2015年至今一直深耕边缘计算,目前拥有首屈一指的边缘网络资源,而且资源的丰富度和异构度是非常充足。
关于未来网心的业务演进方向,大致是三步走的策略:
第一步是降本增效,采用更高效的方式、更好的资源配比,助推企业良性扩张。
第二步是功能迭代,在算力场景下不断积累,逐步探索和实践出真正能跑通的业务场景和商业模型。
第三步是构建生态,推动边缘网络和算力叠加,对接产业场景并实现产业场景产品化,并构建开放网络平台,吸引开发者、合作伙伴共同构建生态。
以上就是我的分享,谢谢大家!

LiveVideoStackCon是每个多媒体技术人的舞台,如果您在团队、公司中独当一面,在某一领域或技术拥有多年实践,并热衷于技术交流,欢迎申请成为LiveVideoStackCon的出品人/讲师。
扫描下方二维码,可查看讲师申请条件、讲师福利等信息。提交页面中的表单完成讲师申请。大会组委会将尽快对您的信息进行审核,并与符合条件的优秀候选人进行沟通。

扫描上方二维码
填写讲师申请表单
相关文章:
AI重新定义音视频生产力“新范式”
// 编者按:AIGC无疑是当下的热门话题和场景。面对AI带来的技术变革和算力挑战,该如何应对?LiveVideoStackCon 2023上海站邀请到了网心科技副总裁武磊为我们分享网心在面对AI应用场景和业务需求下的实践经验。 文/武磊 编辑/LiveVideoStack …...
Jmeter生成可视化的HTML测试报告
Jmeter也是可以生成测试报告的。 性能测试工具Jmeter由于其体积小、使用方便、学习成本低等原因,在现在的性能测试过程中,使用率越来越高,但其本身也有一定的缺点,比如提供的测试结果可视化做的很一般。 不过从3.0版本开始&…...
5G技术与其对智能城市、物联网和虚拟现实领域的影响
随着第五代移动通信技术(5G)的到来,我们即将迈向一个全新的数字化世界。5G技术的引入将带来更高的速度、更低的延迟和更大的连接性,推动了智能城市、物联网和虚拟现实等领域的发展。 首先,5G技术将带来超越以往的网络速…...
leetcode做题笔记88. 合并两个有序数组
给你两个按 非递减顺序 排列的整数数组 nums1 和 nums2,另有两个整数 m 和 n ,分别表示 nums1 和 nums2 中的元素数目。 请你 合并 nums2 到 nums1 中,使合并后的数组同样按 非递减顺序 排列。 注意:最终,合并后数组…...
stm32开关控制led灯泡(附Proteus电路图)
说明:我的灯泡工作电压2V,电流设置为10um,注意了不是10毫安时微安啊,要不然电流太小亮不起来的。 2:我用的开关不是按钮button而是switch, 3:PB0,PB1默认都是低电平,采用了PULLDOWN模式,如果设…...
win10 wsl ubuntu 更换版本为18.04 apt换国内源Python换国内源;默认root
控制面板里面应用模块找到Ubuntu,可以卸载或者移动到其他盘。 Microsoft 应用程序 - ubuntu https://apps.microsoft.com/store/search/ubuntu?hlzh-cn&glcn&rtc1 选择想要的版本安装。 cp /etc/apt/sources.list /etc/apt/sources.list.bak nano /etc/ap…...
C++ Primer 第1章 开始
C Primer 第1章 开始 1.1 编写一个简单的C程序1.1.1 编译、运行程序一、程序源文件命名约定二、从命令行运行编译器 练习 1.2 初识输入输出一、标准输入输出对象二、一个使用IO库的程序三、向流写入数据四、使用标准库中的名字五、从流读取数据六、完成程序 1.3 注释简介一、C中…...
【STM32 学习】电源解析(VCC、VDD、VREF+、VBAT)
VCC电源电压GND电源供电负电压(通常接地)VDD模块工作正电压VSS模块工作负电压VREFADC参考正电压VREF-ADC参考负电压VBAT电池或其他电源供电VDDA模拟供电正电压VSSA模拟供电负电压 一、VCC(供电电压) VCC是指芯片的电源电压&#…...
C语言实例_解析GPS源数据
一、GPS数据格式介绍 GPS(全球定位系统)数据格式常见的是NMEA 0183格式,NMEA 0183格式是一种用于导航设备间传输数据的标准格式,定义了一套规范,使得不同厂商的设备可以通过串行通信接口(常见的是RS-232&a…...
LVS+Keepalived
Keepalived概述: keepalived软件 就是通过vrrp协议实现高可用功能 vrrp通信原理: vrrp就是虚拟路由冗余协议,它的出现就是为了解决静态路由的单点故障vrrp是通过一种竞选的一种协议机制将路由交给某台vrrp路由器vrrp用ip多播的方式【多播地…...
uni-app根据经纬度逆解析详细地址
uni-app中的getLocation()方法可以获取到用户当前的地理位置(经纬度)、速度。 但是返回参数中的address在app中才会显示,小程序中不会显示,所以我们需要进行逆解析其地址,解析出它的地址信息。 1.首先要在腾讯位置服务…...
【数据结构】吃透单链表!!!(详细解析~)
目录 前言:一.顺序表的缺陷 && 介绍链表1.顺序表的缺陷2.介绍链表(1)链表的概念(2)链表的结构(3)链表的功能 二.单链表的实现1.创建节点的结构2.头文件函数的声明3.函数的实现ÿ…...
Linux 安全技术和防火墙
目录 1 安全技术 2 防火墙 2.1 防火墙的分类 2.1.1 包过滤防火墙 2.1.2 应用层防火墙 3 Linux 防火墙的基本认识 3.1 iptables & netfilter 3.2 四表五链 4 iptables 4.2 数据包的常见控制类型 4.3 实际操作 4.3.1 加新的防火墙规则 4.3.2 查看规则表 4.3.…...
Mac 开发 Tang Nano FPGA 指南(使用终端和使用 VS Code 和插件,适用所有 Gowin FPGA)
最近收到了一个 Tang nano 9K FPGA开发板,就想借此机会研究一下。 官方文档里介绍如果想使用高云的 FPGA,就需要使用 GOWIN IDE,但是需要申请 license 提交一堆资料,我是别人送的就不太方便让别人弄。加上 IDE 其实并不是很适合学…...
基于深度学习的铁路异物侵限检测算法研究_整体认知感觉欠点意思,但是有一个新的变形卷积-Octave 卷积
相比于其他的交通运输方式,铁路运输具有准时性高、连续性强、速度快、运输量大、运输成本低以及安全可靠等优点。同时由于国家高速铁路网络建设的不断推进,铁路运输逐渐成为我国客运与货运的主要运输方式。虽然铁路运输为人们出行和货物运输带来的极大的…...
Spring项目使用Redis限制用户登录失败的次数以及暂时锁定用户登录权限
文章目录 背景环境代码实现0. 项目结构图(供参考)1. 数据库中的表(供参考)2. 依赖(pom.xml)3. 配置文件(application.yml)4. 配置文件(application-dev.yml)5…...
2023.8 - java - 变量类型
在Java语言中,所有的变量在使用前必须声明。声明变量的基本格式如下: type identifier [ value][, identifier [ value] ...] ; 格式说明: type -- 数据类型。identifier -- 是变量名,可以使用逗号 , 隔开来声明多个同类型变量…...
【Kubernetes】Kubernetes的Pod控制器
Pod控制器 一、Pod 控制器的概念1. Pod 控制器及其功用2. Pod 控制器有多种类型2.1 ReplicaSet2.2 Deployment2.3 DaemonSet2.4 StatefulSet2.5 Job2.6 Cronjob 3. Pod 与控制器之间的关系 二、Pod 控制器的使用1. Deployment2. SatefulSet2.1 为什么要有headless?2…...
Ubuntu20.04安装Nvidia显卡驱动教程
1、禁用nouveau 1、创建文件,如果没有下载vim编辑器,将vim换成gedit即可 $ sudo vim /etc/modprobe.d/blacklist-nouveau.conf 2、在文件中插入以下内容,将nouveau加入黑名单,默认不开启 blacklist nouveau options nouveau m…...
视频汇聚/视频云存储/视频监控管理平台EasyCVR添加萤石云设备详细操作来啦!
安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等。平台既具备传统安…...
Vue3 + Element Plus + TypeScript中el-transfer穿梭框组件使用详解及示例
使用详解 Element Plus 的 el-transfer 组件是一个强大的穿梭框组件,常用于在两个集合之间进行数据转移,如权限分配、数据选择等场景。下面我将详细介绍其用法并提供一个完整示例。 核心特性与用法 基本属性 v-model:绑定右侧列表的值&…...
postgresql|数据库|只读用户的创建和删除(备忘)
CREATE USER read_only WITH PASSWORD 密码 -- 连接到xxx数据库 \c xxx -- 授予对xxx数据库的只读权限 GRANT CONNECT ON DATABASE xxx TO read_only; GRANT USAGE ON SCHEMA public TO read_only; GRANT SELECT ON ALL TABLES IN SCHEMA public TO read_only; GRANT EXECUTE O…...
什么是EULA和DPA
文章目录 EULA(End User License Agreement)DPA(Data Protection Agreement)一、定义与背景二、核心内容三、法律效力与责任四、实际应用与意义 EULA(End User License Agreement) 定义: EULA即…...
Unit 1 深度强化学习简介
Deep RL Course ——Unit 1 Introduction 从理论和实践层面深入学习深度强化学习。学会使用知名的深度强化学习库,例如 Stable Baselines3、RL Baselines3 Zoo、Sample Factory 和 CleanRL。在独特的环境中训练智能体,比如 SnowballFight、Huggy the Do…...
学习STC51单片机32(芯片为STC89C52RCRC)OLED显示屏2
每日一言 今天的每一份坚持,都是在为未来积攒底气。 案例:OLED显示一个A 这边观察到一个点,怎么雪花了就是都是乱七八糟的占满了屏幕。。 解释 : 如果代码里信号切换太快(比如 SDA 刚变,SCL 立刻变&#…...
Pinocchio 库详解及其在足式机器人上的应用
Pinocchio 库详解及其在足式机器人上的应用 Pinocchio (Pinocchio is not only a nose) 是一个开源的 C 库,专门用于快速计算机器人模型的正向运动学、逆向运动学、雅可比矩阵、动力学和动力学导数。它主要关注效率和准确性,并提供了一个通用的框架&…...
sipsak:SIP瑞士军刀!全参数详细教程!Kali Linux教程!
简介 sipsak 是一个面向会话初始协议 (SIP) 应用程序开发人员和管理员的小型命令行工具。它可以用于对 SIP 应用程序和设备进行一些简单的测试。 sipsak 是一款 SIP 压力和诊断实用程序。它通过 sip-uri 向服务器发送 SIP 请求,并检查收到的响应。它以以下模式之一…...
零知开源——STM32F103RBT6驱动 ICM20948 九轴传感器及 vofa + 上位机可视化教程
STM32F1 本教程使用零知标准板(STM32F103RBT6)通过I2C驱动ICM20948九轴传感器,实现姿态解算,并通过串口将数据实时发送至VOFA上位机进行3D可视化。代码基于开源库修改优化,适合嵌入式及物联网开发者。在基础驱动上新增…...
论文阅读:LLM4Drive: A Survey of Large Language Models for Autonomous Driving
地址:LLM4Drive: A Survey of Large Language Models for Autonomous Driving 摘要翻译 自动驾驶技术作为推动交通和城市出行变革的催化剂,正从基于规则的系统向数据驱动策略转变。传统的模块化系统受限于级联模块间的累积误差和缺乏灵活性的预设规则。…...
深入浅出WebGL:在浏览器中解锁3D世界的魔法钥匙
WebGL:在浏览器中解锁3D世界的魔法钥匙 引言:网页的边界正在消失 在数字化浪潮的推动下,网页早已不再是静态信息的展示窗口。如今,我们可以在浏览器中体验逼真的3D游戏、交互式数据可视化、虚拟实验室,甚至沉浸式的V…...
