当前位置: 首页 > news >正文

2023,谁在引领实时互动进入高清时代?

实践是检验真理的唯一标准,技术是行业进步的核心动能。在实时互动的新时代里,不断进化的声网已然完成自证。 

作者|斗斗 

出品|产业家 

“一个医疗行业的客户,曾向我们提出一个需求,希望在120急救场景下,可以远程看清楚病人的实时状况,使得其做出最恰当的急救措施。”声网CTO钟声告诉我们。

这是他的一个“心结”。

过去很多年中,随着视频分发技术以及终端观看设备的优化,点播内容的画质得到了前所未有的提升,很早就实现了4K超高清。然而,就实时互动领域而言,画质仍落后于常规的点播内容。

背后的原因是,直播高清画质的提升不同于传统终端硬件或点播视频的画质提升,其中有非常大的技术门槛。即使解决清晰度的技术门槛,也会伴随其他影响体验的问题出现,例如卡顿率增高、网络延时增长等等。

实际上,这也正是声网一直在攻坚的方向。作为第一个将实时音视频技术作为一项服务提供给企业和开发者的云服务商,它早已经出现在实时互动画质提升的“窄路”上。

如今,窄路已然被拓宽。“实时互动画质提升,有几个关键技术,今年上半年我们做了重点投入,并对一些客户的直播画质效果进行改进,反馈显示无论是画质体验,还是对业务的赋能,效果都非常显著。”作为声网泛娱乐产品负责人,李斯特告诉产业家。

「实时高清·超级画质」,是时候让更多人看到了。

一、一场“real”的直播有多难?

一组声网统计的数据显示,低清、标清、高清频道内观众人均留长时间分别为290.95s、309.05s、340.12s;次均留存时间分别为255.26s、263.23s、300.73s。清晰可见的是,在高分辨率频道观众的人均、次均留存时长,明显高于中、低分辨率。

画质的清晰与否,正在成为决定直播用户留存数据的关键。

事实上,无论是娱乐直播下单纯的观众,还是电商直播中的消费者,高清画质下真实的观看体验和真实的商品细节,成为一场直播至关重要的能力。

然而想要在实时互动场景中实现高清画质,绝对不一件容易的事情。

“老有粉丝吐槽我的美颜假,但开播时候的参数调整十分复杂;稍微开高清一点就总是网不好,卡成马赛克;这个平台的画质就只能支持这个效果……”

这是声网在对某平台画质问题进行调研时,得到的一些回答。

问题出现在多个方面。首先是带宽传输差异,全球实时带宽差异正在逐渐拉大,直播中心的网络资源难以满足大量用户的视频接入和分发。正如100辆车从“主播驶向观众”,前者路面较宽可实现100辆车并排前行,然而后者路面较窄,只能容纳几十辆甚至更少。所以当车的数量增多时,到达目的地的时间也会被拖延,造成直播时延。

其次设备差异大,碎片化严重,性能不均衡。其实,路不仅有宽窄之分,更有质量优劣之分,当终端设备参数较低时,意味着这条路坑坑洼洼,车随时可能出现拥堵、抛锚等情况,造成直播过程中卡顿。

再有就是直播的平台、设备、环境等制约了好内容生产。每个直播平台都会限制直播的参数,很大程度上,压缩了直播的画质;除此之外,灯光、美颜、滤镜等参数也是直播画质降低的重要因素。简言之,车的质量不行,便无法保证其可以高效率的行驶。

这些固有的瓶颈,让实时互动中的画质提升,似乎变得无解。

而如今,这个问题更被愈加鲜明地摆到台面。即随着电商直播、娱乐直播出海热潮袭来,企业对画质优化要求将更高;其次,在保证清晰度的情况下,同时也需要保证直播的流畅度,以及整体的画质体验;此外,还需要服务商针对直播中的一些新玩法,及时给出相对应的解决方案。

能看到的是,有部分企业已经做出了相应的对策。比如,大部分主播会通过更换终端硬件、灯光、调整平台参数的方式来优化画质,再比如一些平台或是技术服务商则是会通过一些技术手段,实现直播画质的优化。

然而这种策略治标不治本。即当网络不稳定时,卡顿问题仍然难以避免,实时互动的糟糕体验就会“原形毕露”。

换言之,在市场需要一场“real”的直播背后,直播市场更需要的是一个能从底层解决直播画质、体验、玩法等全方面问题的综合方案。

答案在哪?

二、增高10.3%背后

看见「实时高清·超级画质」

10.3%,这是用户留存时长提升百分比,来自声网对客户画质升级前后的数据监测。这个数字背后是声网的「实时高清·超级画质」。

“从我们自己的数据分析,再到客户的数据验证,基本上从两端都可以看到清晰的提升作用。”声网产品市场负责人朱超华对产业家说。

「实时高清·超级画质」究竟是如何解决技术瓶颈的?

“声网的实时高清·超级画质,强调的不止是更清晰、画质更好,而是低码高清,真正实现在同等带宽下更清晰,或同等清晰度下对网络、设备的要求更低,这样才能真正帮助直播产品尤其是出海产品,在面对复杂网络和设备环境时,拥有更好的用户体验。”李斯特总结到。

在直播场景中,很多观众对于直播内容的画质敏感度并不相同。在娱乐直播中,例如美妆、达人表演等内容,观众对人脸画质的敏感度较高;在电商直播中观众对商品细节画质的敏感度较高。

因此,声网基于深度学习的AI视觉感知的前处理,将不同直播内容中,观众敏感度高的内容进行低压缩,敏感度低的内容进行高压缩,实现了30%视频压缩效率增加。“例如原本1M的发送码率,通过AI算法压缩到了0.7M,这样在移动端低端设备上也可以轻松跑起来。”这就解决了互动直播内容传输一方面需要保证画质高 清,一方面又要符合平台参数,保证传输速率兼顾流畅性的瓶 颈。 

再通过多格式视频编码及弱网对抗,使得视频自适应分发。目前,声网新的视频编码标准H.265相 比H.264编码标准,最高可节省50%的带宽。 

以27种采集渲染方式,兼容各类设备采集渲染,得到更优的画面内容。在传输阶段,声网还采用自适应弹性传输算法,适应不同网络环境。继而基于深度学习,修复增强高清画质,在不改变分辨率的情况下,智能调整画质锐度和对比度,让画质看起来更真实有美感。

基于底层技术实力,以及不断优化、迭代技术,使得「实时高清·超级画质」解决方案实现了全平台极致高清、移动端实时多倍超分、视频增强的能力。

另一个更令市场惊艳的点在于声网在AI 算法低消耗方面的调优,可以使得低端机算法自动降级。

根据声网提供的数据显示,「实时高清·超级画质」在终端适配度上,可以基本实现iOS机型全覆盖;Android 机型95%的覆盖率,最低配机型OPPO A3s CPU单核720P单帧耗时仅需2.5ms。

新一代算法能在绝大部分的机型上跑得动,这是以前做不到的。虽然业界可能有发布过类似产品,但很少有能够真正几乎跑通所有高、中、低端机型。”钟声告诉产业家。

实现画质提升和超分等能力,需要运用大量的AI算法,为了适配大部分机型,声网甚至把业界的大模型缩了100万倍。钟声介绍到,“这条道路很艰辛,挑战在于,在模型足够小的同时,要有明显的画质提升效果。过程中路线、方法换过很多次,大家现在看到的超分是打磨的第四个版本,第一版时和现在的机型覆盖率完全不是一个档次,勉强能达到50%。”也正是这种极致“死磕到底”的态度造就了「实时高清·超级画质」在体验质量上的进化。

三、声网:技术筑底,体验护航

在「实时高清·超级画质」的客户中,有一个案例让钟声印象深刻。该客户有两个APP,一个计划采用声网的解决方案,一个计划采用成本更低的CDN方案。

变化发生在该客户上线了声网的方案之后。“他决定另一个APP不用CDN了,也换成声网的方案。因为画质体验明显提升,运营数据增长的不错。”

对于这种变化,钟声深感欣慰,他认为当一个消费升级之后,便很难降级。从这点来看,声网「实时高清·超级画质」正在推动整个直播产业迈进真正的高清时代。

另一个做视频直播的出海客户也发生过类似的转变,该客户出海主要目标区域是土耳其、埃及、甚至叙利亚等中东欠发达国家,由于该地基础设施的不完善,导致平台视频清晰度不高、但卡顿率很高。

“大部分出海企业认为可用性是第一位的,在最开始向他们推广高清的时候,他们觉得如果不能保障低卡顿率和可用性,宁可不要高清。”李斯特介绍,客户最开始对“超级画质”是很抗拒的,但经过声网优化并拿出真实效果之后,就非常认可了。“我们帮这些出海产品做到了视频体验升一档,同时卡顿率降一档。

为了打造极致的直播体验,声网在「实时高清·超级画质」解决方案中,提到了八大模块的体验升级。

具体来看,包括清晰有美感,真实有质感的画质全面升级;人更美,更自然的AI超级美颜。在场景化美颜 API 开发门槛上,由原来300+行代码减至10行,开发时间由7天缩短至3小时,可以快速实现上线;丝滑流畅,用户零感知进出、切换频道体验,直播场景首帧出图低至100ms,  秒开率高达 97%;可实现全行业最优码率编码传输方案,码率最高下降 70%,最低 500K 即可实现 720p 视频流畅体验。

除了以上四点之外,声网还针对1v1 直播、团战 PK等玩法进行体验升级,同时针对PC开播、数据监控、业务收益追踪,一站式升级技术支持等几个方面进行了迭代升级。值得注意的是,这些体验升级的同时,几乎不增加任何成本,「实时高清·超级画质」更是低至一折。

这恰都构成了「实时高清·超级画质」以及声网在客户侧的被青睐。

实际上,这些能力也恰是源于声网多年深耕行业的积累。即在声网服务不同客户的同时,这些企业客户也更在反向赋能声网,帮助这家在中国音视频赛道领跑的企业持续夯实自身的底层和产品飞轮。

对于声网,外界的认知往往会是音视频、RTC/RTE等泛化的市场标签。但在这次「实时高清·超级画质」的发布中,市场能感知到的除了它在技术上的深耕“无人区”,也更能感受到这家领跑的中国音视频服务商的基建属性,从真正的底层视角帮助一众产品进化升级。

实践是检验真理的唯一标准,技术是行业进步的核心动能。在实时互动的新时代里,不断进化的声网已然完成自证。

相关文章:

2023,谁在引领实时互动进入高清时代?

实践是检验真理的唯一标准,技术是行业进步的核心动能。在实时互动的新时代里,不断进化的声网已然完成自证。 作者|斗斗 出品|产业家 “一个医疗行业的客户,曾向我们提出一个需求,希望在120急救场景下,可以远程看清…...

STM32(HAL)串口中断接收

目录 1、简介 2 基础配置 2.1.1 SYS配置 2.1.2 RCC配置 2.2 串口外设配置 2.3 项目生成 3、KEIL端程序整合 1、简介 本文对HAL串口中断函数进行介绍。 2 基础配置 2.1.1 SYS配置 2.1.2 RCC配置 2.2 串口外设配置 2.3 项目生成 3、KEIL端程序整合 首先在main.c文件中进行…...

word转pdf怎么转?几种常用方法分享

word转pdf怎么转?在日常工作和学习中,将Word文档转换为PDF格式是一项必要的任务。不仅可以保证文档的格式不变,还可以防止文档被他人篡改。但是,Word文档并不是所有人都能够轻松打开和编辑的,而PDF文件则可以在各种设备…...

自学(黑客)技术,入门到入狱!

1.网络安全是什么 网络安全可以基于攻击和防御视角来分类,我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术,而“蓝队”、“安全运营”、“安全运维”则研究防御技术。 2.网络安全市场 一、是市场需求量高; 二、则是发展相对成熟入…...

js 函数、闭包及函数对象

js的函数是对象,可以通过程序来操控。比如,可以把函数赋值给变量,然后再传递给其他函数,也可以在函数上设置属性,甚至调用函数的方法。 js函数可以嵌套定义在其他函数里,内嵌函数可以访问定义在函数作用域…...

SSM(Vue3+ElementPlus+Axios+SSM前后端分离)--搭建Vue 前端工程[二]

文章目录 SSM--搭建Vue 前端工程--项目基础界面实现功能02-创建项目基础界面需求分析效果图思路分析 代码实现项目前后端分离情况项目前后端分离情况如图 注意事项和细节 SSM–搭建Vue 前端工程–项目基础界面 实现功能02-创建项目基础界面 需求分析 效果图 思路分析 使用V…...

Android 之 AudioManager ( 音频管理器 )

本节引言: 在多媒体的第一节,我们用SoundPool写了个Duang的示例,小猪点击一个按钮后,突然发出"Duang"的 一声,而且当时的声音很大,吓死宝宝了 ,好在不是上班时间,上班时间…...

2023爱分析·超自动化厂商全景报告|爱分析报告

关键发现 当前的超自动化定义主要从技术组合角度阐述超自动化内涵,较难和业务价值建立链接。爱分析对超自动化作如下新定义:超自动化指利用RPA、iPaaS、AI、低代码、BPM、流程挖掘等自动化技术,实现组织端到端流程自动化以及新业务流程快速编…...

【C++进阶知识】04 - 函数默认实参、默认初始化、initializer_list

1. 函数默认实参 默认实参需要注意以下几点: (1)函数默认实参的赋值应从右往左,否则编译报错,因为参数入栈应该从右往左。 void f(int, int, int 1); void f(int, int 2, int); void f(int 3, int, int);&#x…...

C语言笔试训练【第三天】

大家好,我是纪宁。 今天是C语言笔试训练的第三天,大家加油! 第一题 1、已知函数的原型是: int fun(char b[10], int *a) ,设定义: char c[10];int d; ,正确的调用语句是( &#xf…...

Android SystemServer中Service的创建和启动方式(基于Android13)

Android SystemServer创建和启动方式(基于Android13) SystemServer 简介 Android System Server是Android框架的核心组件,运行在system_server进程中,拥有system权限。它在Android系统中扮演重要角色,提供服务管理和通信。 system …...

Meta开源AI音频和音乐生成模型

在过去的几年里,我们看到了AI在图像、视频和文本生成方面的巨大进步。然而,音频生成领域的进展却相对滞后。MetaAI这次再为开源贡献重磅产品:AudioCraft,一个支持多个音频生成模型的音频生成开发框架。 AudioCraft开源地址 开源地…...

rust怎么解析json数据?

关注我,学习Rust不迷路!! 在 Rust 中,你可以使用 serde 库来实现结构体与 JSON 之间的互相转换。 serde 是 Rust 社区最常用的序列化和反序列化库,它提供了方便的功能来处理结构体与 JSON 之间的转换。 首先&#xff…...

STM32 NOR_FLASH 学习

NOR FLASH FLASH是常用的,用于存储数据的半导体器件,它具有容量大,可重复擦写、按“扇区/块”擦除、掉电后数据可继续保存的特性。 NOR FLASH的单位是MB,EEPROM的单位是KB。 NM25Q128,是NOR FLASH的一种&#xff0c…...

【数据结构|二叉树遍历】递归与非递归实现前序遍历、中序遍历、后序遍历

递归与非递归实现二叉树的前序遍历、中序遍历、后序遍历。 二叉树图 定义 前序遍历(Preorder Traversal): 前序遍历的顺序是先访问根节点,然后按照先左后右的顺序访问子节点。对于上面的二叉树,前序遍历的结果是&…...

iPhone 8 Plus透明屏有哪些场景化应用?

iPhone 8 Plus是苹果公司于2017年推出的一款智能手机,它采用了全新的玻璃机身设计,使得手机更加美观和时尚。 而透明屏则是一种新型的屏幕技术,可以使手机屏幕呈现出透明的效果,给人一种科技感十足的视觉体验。 透明屏是通过使用…...

解决 MySQL 删除数据后,ID 自增不连续问题

修复前 除了部分数据,导致后续新增的数据,ID 自增不连续 解决方案 执行下方 SQL 语句即可修复此问题,mbs_order为需要修复的表名 SET i0; UPDATE mbs_order SET id(i:i1); ALTER TABLE mbs_order AUTO_INCREMENT0;...

arcgis--网络分析(理论篇)

1、定义概念 (1)网络:由一系列相互联通的点和线组成,用来描述地理要素(资源)的流动情况。 (2)网络分析:对地理网络(如交通网络、水系网络)&…...

Linux笔记1(系统状态等)

man命令: man name: man section name: man -k regexp: 在 Linux 中,man 命令用于查看命令、函数或配置文件等的手册页,提供了详细的帮助文档。man 是 "manual" 的缩写。man 命令的用法如下: man [选项] [命令名]例如&…...

Set-up ESP-AT Environment on Windows using CMD

Before you start, the following environments need to be installed: Git BashPython environment, suggest Python version: 3.8.7. Please ensure the installation of Python v3.8 version environment, and remember to select the option “add to PATH” during the in…...

Ubuntu系统下交叉编译openssl

一、参考资料 OpenSSL&&libcurl库的交叉编译 - hesetone - 博客园 二、准备工作 1. 编译环境 宿主机:Ubuntu 20.04.6 LTSHost:ARM32位交叉编译器:arm-linux-gnueabihf-gcc-11.1.0 2. 设置交叉编译工具链 在交叉编译之前&#x…...

基础测试工具使用经验

背景 vtune,perf, nsight system等基础测试工具,都是用过的,但是没有记录,都逐渐忘了。所以写这篇博客总结记录一下,只要以后发现新的用法,就记得来编辑补充一下 perf 比较基础的用法: 先改这…...

srs linux

下载编译运行 git clone https:///ossrs/srs.git ./configure --h265on make 编译完成后即可启动SRS # 启动 ./objs/srs -c conf/srs.conf # 查看日志 tail -n 30 -f ./objs/srs.log 开放端口 默认RTMP接收推流端口是1935,SRS管理页面端口是8080,可…...

MODBUS TCP转CANopen 技术赋能高效协同作业

在现代工业自动化领域,MODBUS TCP和CANopen两种通讯协议因其稳定性和高效性被广泛应用于各种设备和系统中。而随着科技的不断进步,这两种通讯协议也正在被逐步融合,形成了一种新型的通讯方式——开疆智能MODBUS TCP转CANopen网关KJ-TCPC-CANP…...

令牌桶 滑动窗口->限流 分布式信号量->限并发的原理 lua脚本分析介绍

文章目录 前言限流限制并发的实际理解限流令牌桶代码实现结果分析令牌桶lua的模拟实现原理总结: 滑动窗口代码实现结果分析lua脚本原理解析 限并发分布式信号量代码实现结果分析lua脚本实现原理 双注解去实现限流 并发结果分析: 实际业务去理解体会统一注…...

如何理解 IP 数据报中的 TTL?

目录 前言理解 前言 面试灵魂一问:说说对 IP 数据报中 TTL 的理解?我们都知道,IP 数据报由首部和数据两部分组成,首部又分为两部分:固定部分和可变部分,共占 20 字节,而即将讨论的 TTL 就位于首…...

优选算法第十二讲:队列 + 宽搜 优先级队列

优选算法第十二讲:队列 宽搜 && 优先级队列 1.N叉树的层序遍历2.二叉树的锯齿型层序遍历3.二叉树最大宽度4.在每个树行中找最大值5.优先级队列 -- 最后一块石头的重量6.数据流中的第K大元素7.前K个高频单词8.数据流的中位数 1.N叉树的层序遍历 2.二叉树的锯…...

Docker 本地安装 mysql 数据库

Docker: Accelerated Container Application Development 下载对应操作系统版本的 docker ;并安装。 基础操作不再赘述。 打开 macOS 终端,开始 docker 安装mysql之旅 第一步 docker search mysql 》〉docker search mysql NAME DE…...

PAN/FPN

import torch import torch.nn as nn import torch.nn.functional as F import mathclass LowResQueryHighResKVAttention(nn.Module):"""方案 1: 低分辨率特征 (Query) 查询高分辨率特征 (Key, Value).输出分辨率与低分辨率输入相同。"""def __…...

SpringAI实战:ChatModel智能对话全解

一、引言:Spring AI 与 Chat Model 的核心价值 🚀 在 Java 生态中集成大模型能力,Spring AI 提供了高效的解决方案 🤖。其中 Chat Model 作为核心交互组件,通过标准化接口简化了与大语言模型(LLM&#xff0…...