AI 大爆发时代,音视频未来路在何方?
AI 大模型突然大火了
回顾2024年,计算机领域最大的变革应该就是大模型进一步火爆了。回顾下大模型的发展历程:
- 萌芽期:(1950-2005)
1956年:计算机专家约翰·麦卡锡首次提出“人工智能”概念,标志着AI领域的诞生。
1980年:卷积神经网络(CNN)的雏形诞生,为后续的深度学习奠定了基础。
1998年:LeNet-5的出现,标志着机器学习从浅层模型向深度学习模型的转变,为自然语言处理和计算机视觉等领域的研究奠定了基础。 - 探索沉淀期:(2006-2019)
2013年:Word2Vec模型的诞生,首次提出将单词转换为向量的“词向量模型”,极大地推动了自然语言处理技术的发展。
2014年:对抗式生成网络(GAN)的诞生,标志着深度学习进入了生成模型研究的新阶段。
2017年:Google提出了基于自注意力机制的Transformer架构,为大模型的预训练算法架构奠定了基础。
2018年:OpenAI和Google分别发布了GPT-1与BERT,标志着预训练大模型成为自然语言处理领域的主流。 - 迅猛发展期:(2020-至今)
2020年:OpenAI推出了GPT-3,模型参数规模达到1750亿,成为当时最大的语言模型,并在零样本学习任务上实现了巨大性能提升。
2022年11月:搭载了GPT-3.5的ChatGPT发布,以其逼真的自然语言交互和多场景内容生成能力,迅速成为互联网上的热门话题。
2023年3月:GPT-4的发布,这是一个超大规模的多模态预训练大模型,具备了多模态理解与多类型内容生成能力,标志着大数据、大算力和大算法的完美结合,大幅提升了大模型的预训练和生成能力。
2024年:大模型技术继续飞速发展。OpenAI在2024年9月12日宣布了其最新系列AI模型o1,这是第一个具备真正通用推理能力的大模型,在处理复杂问题和推理任务时展现出的能力,预示着人工智能技术的一个历史性转折点。此外,2024年多模态大模型也加速突破,如OpenAI发布GPT-4o开始深度探索端到端的实时多模态大模型能力。
国内的 AI 大模型发展
随着OpenAI的流行,国内也兴起了大模型热潮,涌现了一批大模型应用,其中日活较多的应用有:
- 豆包:字节跳动打造。
- kimi:月之暗面推出。
- 文心一言:百度推出。
- 通义千问:阿里云打造。
- 智谱清言:智谱华章自研的AI大模型。
- 讯飞星火:科大讯飞打造。
- 天工:昆仑万维自主研发。
此外还有很多垂直领域的大模型应用,目前国内大模型应用已经到了百家齐放、百家争艳的阶段【统计数据来自网络】。

大模型的兴起对音视频的影响
大模型的兴起和音视频技术之间是相辅相成,共同发展的关系;大模型为音视频的应用提供了更多的可能性,而传统的音视频技术也是大模型技术落地应用的核心技术基础之一。
- 创作:多模态数字人的出现,为音视频的创作带来更加丰富的素材和创作空间;同时革新了传统音视频的创作方式;为创作者提供了更加高效、更加便捷的创作工具。
- 处理:大模型提升了音视频的处理效率和智能化程度;多模态大模型可以同时分析视频中图像、音频、文本信息。
- 交互:大模型实现更自然的实时交互,推动AI应用场景大爆发,比如AI客服、AI社交、AI老师等等,使得音视频交互进一步增强。
- 传输:AI技术也可以优化音视频传输,根据不同的网络和用户设备,自动调整音视频的分辨率、码流等,提高传输效率,同时个性化推荐和分发。
- 消费:大模型的兴起还提升了用户体验,拓展了消费场景,如虚拟演唱会、互动式视频游戏等等。
音视频技术迭代更新
FFmpeg
FFmpeg 是一个完整的跨平台音视频解决方案,用于记录、转换和流式处理音视频。它是目前最强大的音视频处理开源软件之一,被广泛应用于视频网站、播放器、编码器等多种场景中。
2024年,FFmpeg 开源项目也进行了版本的迭代更新:
- 2024.1.3:libavcodec库现在包含了一个原生VVC(Versatile Video Coding)解码器,支持该编解码器的大部分功能。进一步的优化和更多功能的支持即将到来。
- 2024.4.5:发布了FFmpeg 7.0“Dijkstra”,此版本不向后兼容,移除了6.0之前弃用的API。某些弃用的ffmpeg CLI选项也被移除,现在需要C11兼容的编译器来构建代码。
- 2024.5.13:FFmpeg社区宣布,德国的主权技术基金已成为其首个政府赞助商。
- 2024.6.2:FFmpeg现在实现了原生xHE-AAC解码器。
- 2024.9.30:FFmpeg 7.1“Péter”版本发布,在7.0版本中作为实验性功能合并的VVC解码器,经过足够的时间成熟和优化,现已被宣布为稳定功能;新增了对原生AAC USAC(xHE-AAC编码系统的一部分)解码器的支持;支持MV-HEVC解码;对Vulkan编码的支持,包括H264和HEVC。
因此,2024年FFmpeg依旧在稳步迭代更新,在音视频应用中继续扮演着核心地位角色。

WebRTC
作为音视频应用的另外一个核心角色开源项目,WebRTC(Web Real-Time Communication)用于在Web浏览器和移动应用程序之间实现实时音频、视频和数据共享。在RTC应用领域,可以说大部分应用核心都是采用的WebRTC或基于其改动的技术。
2024年,WebRTC 开源项目也进行了版本的迭代更新:
- v125.6422.06.1(2024.10.31):升级到WebRTC-SDK M125.6422.06.1,是125.6422.06的重新发布,因之前上传错误。
- v125.6422.06(2024.10.31):该版本因上传了错误的构建而不可用。原计划升级到WebRTC-SDK M125.6422.06,支持自定义音频输入,支持不使用麦克风的音频轨道。
- v125.6422.05(2024.09.02):升级到WebRTC-SDK M125.6422.05,为MediaStreamTrack添加了isDisposed方法。
- v125.6422.04(2024.07.28):升级到WebRTC-SDK M125.6422.04,修复了NetworkMonitor在分发原生观察者时的竞态条件。
- v125.6422.03(2024.07.09):升级到WebRTC-SDK M125.6422.03,修复了麦克风静音时指示器不消失的问题,允许通过反射跳过AudioTrack播放状态检查。
- v125.6422.02(2024.06.15):升级到WebRTC-SDK M125.6422.02。
- v114.5735.11(2024.05.22):升级到WebRTC-SDK M114.5735.11,使音频输出属性可修改。
- v114.5735.10(2024.04.08):升级到WebRTC-SDK M114.5735.10,为KeyProviderOptions添加了keyRingSize/discardFrameWhenCryptorNotReady。
- v114.5735.09(2024.04.03):升级到WebRTC-SDK M114.5735.09,修复了外部音频处理器采样率计算问题,允许在任何地址端口上进行ice gathering。
因此,2024年 WebRTC 依旧在稳步迭代更新,在音视频应用中继续扮演着核心地位角色。

编解码技术
x264
H264编码标准仍然占据着一定的视频编码标准市场份额,而 x264 作为符合H264编码标准的开源项目,占据着主流地位,在2024年仍然持续更新迭代,2024年的源码迭代提交记录说明如下:
Use sched_getaffinity on Android
ci: Test compiling for Android
Enable use of __sync_fetch_and_add() wherever detected instead of just X86
Use sysctlbyname(3) hw.logicalcpu on macOS
aarch64: defines involving bit shifts should be unsigned
Make use of sysconf(3) _SC_NPROCESSORS_ONLN and _SC_NPROCESSORS_CONF
Use getauxval() on Linux and elf_aux_info() on FreeBSD/OpenBSD on arm/ppc
Fix build with Android NDK and API < 24 for 32-bit targets
configure: Add DragonFly support
Provide x264_getauxval() wrapper for getauxvaul() and elf_aux_info()
aarch64: Use elf_aux_info() for CPU feature detection on FreeBSD/OpenBSD
configure: Check for SVE support in MS armasm64 via as_check
x86inc: Improve ELF PIC support for external function calls
loongarch: Enhance ultrafast encoding performance
loongarch: Fixed pixel_sa8d_16x16_lasx
loongarch: Add checkasm_call
loongarch: Update loongson_asm.S version to 0.4.0
x86inc: Improve XMM-spilling functionality on 64-bit Windows
x86inc: Restore the stack state between stack allocations
x86inc: Fix warnings with old nasm versions
ppc: Fix incompatible pointer type errors
aarch64: Use regular hwcaps flags instead of HWCAP_CPUID for CPU feature detection on Linux
CI: Switch 32/64-bit windows builds to LLVM
CI: Add config.log to job artifacts
x86inc: Add support for ELF CET properties
x86inc.asm: Add the crc32 SSE4.2 GPR instruction
x86inc: Add a cpu flag for the Ice Lake AVX-512 subset
x86inc: Add CLMUL cpu flag
x86inc: Add template defines for EVEX broadcasts
x86inc: Properly sort instructions in alphabetical order
Bump dates to 2024

x265
HEVC视频编码标准已经慢慢占据视频编码标准应用的主流地位,x265 作为符合HEVC标准的开源项目,在2024年迎来多次代码提交,对比2023年的代码提交记录,2024年是x265代码更新较多的年份。




其他音视频技术
- VLC:2024.6.10发布了3.0.21版本,这是VLC 3.0分支的第22次更新。
- VVenC:更新到了v1.12.0 版本。
- libaom:陆续更新了v3.9.0、v3.10.0版本。
- avs3:uAVS3e 1.0 版本发布。
- 此外还有OBS Studio、OpenCV、ijkplayer、JSMpeg、Opus、live555、Seetaface、GPUImage、Open nsfw model、Soundtouch、Jitsi等开源项目在音视频领域持续发光发热。
主流大厂音视频技术迭代更新
- 腾讯作为国内音视频应用的主流大厂之一,旗下有多款音视频应用app,比如腾讯会议、微信、腾讯视频、斗鱼等等,单单腾讯会议一个应用在20204年就更新了10个版本,如下表所示。此外在AVS3 编码标准、自研的TRTC、MSU编码大赛、SRS、SRT、VLC等项目中积极参与和发声,在音视频领域持续带来了非常重要的技术输出。

- 字节跳动作为音视频应用的另外一个主流大厂之一,旗下多款关于音视频应用app,比如抖音、剪映、西瓜视频、飞书等等在2024年都持续迭代多个版本。此外,PersonaTalk 技术、Seed-TTS、视频大模型Vidu、RTM超低延时直播技术、6DoF直播创新方案、ICASSP 2024音频挑战赛、Loopy项目等等,都体现出字节跳动在音视频领域的持续创新以及与AI的深度交互。
- 阿里巴巴作为国内音视频应用的另外一大厂,旗下也多款音视频应用app,比如优酷、淘宝、钉钉等等在2024年都持续迭代多个版本。此外,RTC技术升级、窄带高清™2.0、百炼大模型服务平台更新、通义听悟升级、CosyVoice语音生成大模型、AtomoVideo框架、超低延时直播RTS等等都体现了阿里在音视频领域的持续创新及与AI的深度交互。
- 此外,还有像快手、声网、微帧、即构、网易云信等等在2024年依旧在音视频领域贡献着力量。
音视频的未来之路
随着 LiveVideoStack平台停更了音视频技术,目前较为系统的音视频交流平台也就剩下一些比如CSDN等博客网站、公众号了。虽然随着AI大模型的爆发对音视频领域有一定的冲击,但音视频的未来一定是充满创新和机遇的。
- 技术多元化与智能化
- 编解码技术:新一代编解码器如H.266/VVC等正在加速研发和应用,有望在未来几年内实现更广泛的应用,进一步提高音视频质量和降低传输成本。
- AI融合:AI技术将深度融入音视频处理,实现智能分析、推荐及个性化处理。例如,AI编码技术可以根据内容特点自动调整编码参数,实现更高效的压缩和传输。
- 超低延迟技术:随着实时互动需求的增加,超低延迟技术成为重要发展方向。通过优化传输协议、提高编解码效率及利用边缘计算等技术手段,可以有效降低音视频传输的延迟时间,提升用户体验。
- 虚拟现实与增强现实:VR/AR技术的融合将为音视频技术带来更加沉浸式的体验。未来,随着VR/AR设备的普及和技术的成熟,音视频技术将在娱乐、教育、医疗等领域实现更加广泛的应用和创新。
- 沉浸式体验与个性化服务
- 3D音频和全息影像:通过3D音频和全息影像技术,为用户创造身临其境的视听感受,提升沉浸式体验。
- 个性化推荐:基于用户行为和偏好的个性化推荐算法,将为每位观众提供定制化的音视频内容,增强用户黏性。
- 边缘计算与传输优化
- 边缘计算:为了降低延迟,边缘计算将成为音视频通信的重要组成部分,数据将在离用户更近的地方处理。
- 传输协议:更高效的编码压缩算法和传输协议的出现,将进一步降低音视频数据的存储和传输成本。
- 传统行业智能化
- 智能化监控:在深井矿山、应急排障、隧道施工等领域,音视频技术结合AI技术可以实现智能化监控和管理,提高安全性和效率。
- 数字文旅:数字文旅等新兴产业将借助音视频技术实现更加丰富的用户体验。
- 网络安全与隐私保护
- 安全问题:随着音视频通信的普及,网络安全问题也日益突出,如何保护用户隐私和数据安全将成为重要课题。
未来,音视频与AI会更深度、更广泛、多维度的交互,为用户带来更多更好的应用体验。

相关文章:
AI 大爆发时代,音视频未来路在何方?
AI 大模型突然大火了 回顾2024年,计算机领域最大的变革应该就是大模型进一步火爆了。回顾下大模型的发展历程: 萌芽期:(1950-2005) 1956年:计算机专家约翰麦卡锡首次提出“人工智能”概念,标志…...
Invicti-Professional-V25.1
01 更新介绍 此更新包括对内部代理的更改。内部扫描代理的当前版本为 25.1.0。内部身份验证验证程序代理的当前版本为 25.1.0。#新功能现在,单击扫描摘要屏幕中的预设扫描图标会将您重定向到具有过滤视图的 “最近扫描” 页面,从而改进导航和对相关扫描…...
【版图设计】2025年 最新 Cadence Virtuoso IC617 虚拟机环境配置全过程 集成电路版图设计环境配置
一、Cadence Virtuoso IC617 是什么? Cadence Virtuoso 是一个电子设计自动化(EDA)工具,主要用于集成电路(IC)的设计和仿真,尤其是在模拟、混合信号和射频(RF)电路设计领…...
Python基本概念与实践
Python语言,总给我一种“嗯?还能这么玩儿?”的感觉 Python像一个二三十岁的年轻人,自由、年轻、又灵活 欢迎一起进入Python的世界~ 本人工作中经常使用Python,针对一些常用的语法概念进行持续记录。 目录 一、类与常…...
# [Unity] 【游戏开发】获取物体和组件的脚本方法
在Unity开发中,获取游戏物体(GameObject)及其组件(Component)是脚本编程的核心技能。本文将详细介绍如何在脚本中访问游戏物体及其组件,深入讲解常用的获取方法及优化策略,以帮助开发者高效编写Unity脚本。 1. 理解游戏物体与组件的关系 游戏物体(GameObject):Unity场…...
10 为什么系统需要引入分布式、微服务架构
java技术的发展 在java开始流行起来之后,主要服务于企业家应用,例如ERP,CRM等等,这些项目是为企业内部员工使用,我们的思维是怎么用设计模式,如何封装代码。让开发人员关注到业务上去,系统也就那么几十几百…...
大数据系列之:上传图片到cos、cos
大数据系列之:上传图片到cos、cos 安装python cos sdk上传图片到cos高级上传接口分页列举桶内对象cos桶之间复制cos桶之间复制图片数据 安装python cos sdk pip install -U cos-python-sdk-v5上传图片到cos # -*- codingutf-8 from qcloud_cos import CosConfig fr…...
wsl 使用 docker
直接在 wsl 安装 docker , 有可能会失败,可以通过在 windows 安装 Docker Desktop,然后连接 wsl 进行解决 注意: 1. 需要先安装 wsl 2. 使用时要先启动 docker Desktop, 才能在 wsl 中使用 下载: Docker: Accelerated Containe…...
归并延拓:LeetCode归并排序逆序对问题
前言 欢迎来到我的算法探索博客,在这里,我将通过解析精选的LeetCode题目,与您分享深刻的解题思路、多元化的解决方案以及宝贵的实战经验,旨在帮助每一位读者提升编程技能,领略算法之美。 👉更多高频有趣Lee…...
51.WPF应用加图标指南 C#例子 WPF例子
完整步骤: 先使用文心一言生成一个图标如左边使用Windows图片编辑器编辑,去除背景使用正方形,放大图片使图标铺满图片使用格式工程转换为ico格式,分辨率为最大 在资源管理器中右键项目添加ico类型图片到项目里图片属性设置为始终…...
Springboot 注解缓存使用教程
Spring Boot Cache 注解使用教程 Spring Boot 提供了强大的缓存抽象,开发者可以通过注解快速实现缓存功能,从而提高系统性能。本教程将全面介绍 Spring Boot 提供的缓存相关注解及其作用,并结合示例讲解实际应用。 1. 常用缓存注解概览 Spring Boot 缓存提供以下核心注解…...
Python爬虫:从入门到实践
Python爬虫学习资料 Python爬虫学习资料 Python爬虫学习资料 在当今数字化信息爆炸的时代,数据已成为企业和个人发展的重要资产。Python爬虫作为一种高效获取网络数据的工具,正逐渐被广大开发者所熟知和应用。无论是市场调研、学术研究,还是…...
删除字符串中的所有相邻重复项(力扣1047)
这题也是属于栈的经典应用。为什么这样说呢?因为也是让我们删除相邻项。注意这里相邻项的理解,并不仅仅是说最开始的字符串相邻的项。在我们删除了某些相邻项后,会改变字符串,导致原本不相邻的字符变成相邻的,这同样属…...
MYSQL对数据的增删改查
DML 语句 对数据 进行 增、删、改 操作 插入 命令-- 插入值的个数 必须和 字段定义的个数相同 且 顺序 一致 insert into <tableName> values (val ...) ; /* 不推荐使用 */insert into <tableName>(col1 , col2 , ...) values(val1, val2 , ...) ;-- 批量插…...
前端——Html+CSS
目录 CSS引入方式 颜色表达方式 CSS选择器 去掉超链接的下划线 路径表示 行高和首行缩进 常见标签 布局标签 flex布局 表单标签 表单项标签 改变鼠标指针的样式 表格标签 div{ box-sizing: border-box; } CSS引入方式 具体有3种引入方式,语法如下表格所…...
Linux(DISK:raid5、LVM逻辑卷)
赛题拓扑: 题目: DISK 添加4块大小均为10G的虚拟磁盘,配置raid-5磁盘。创建LVM命名为/dev/vg01/lv01,大小为20G,格式化为ext4,挂在到本地目录/webdata,在分区内建立测试空文件disk.txt。[root@storagesrv ~]# yum install mdadm -y [root@storagesrv ~]# mdadm -C -n …...
N个utils(sql)
sql,操作数据库的语言,也可以叫做数据库软件的指令集吧。名字而已,无所谓啦。 本质上,sql并不是java语言内的范畴。但却是企业级开发的范畴。并且我整个文章的一篇逻辑的本质,层的概念,其中一个大的层级就…...
以太网实战AD采集上传上位机——FPGA学习笔记27
一、设计目标 使用FPGA实现AD模块驱动采集模拟电压,通过以太网上传到电脑上位机。 二、框架设计 数据位宽转换模块(ad_10bit_to_16bit):为了方便数据传输,数据位宽转换模块实现了将十位的 AD 数据转换成十六位&#…...
Python数据分析案例70——基于神经网络的时间序列预测(滞后性的效果,预测中存在的问题)
背景 这篇文章可以说是基于 现代的一些神经网络的方法去做时间序列预测的一个介绍科普,也可以说是一个各种模型对比的案例,但也会谈一谈自己做了这么久关于神经网络的时间序列预测的论文,其中一些常见的模式及它们存在的问题以及效果&#x…...
vue+高德API搭建前端Echarts图表页面
利用vue搭建Echarts图表页面,在搭建Echarts图表中,如果搭建地理地形图需要准备一些额外的文件,地理json文件和js文件,js文件目前在网上只能找省一级的,json文件有对应的省市县,js文件和json文件对应的也是不…...
利用最小二乘法找圆心和半径
#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …...
三维GIS开发cesium智慧地铁教程(5)Cesium相机控制
一、环境搭建 <script src"../cesium1.99/Build/Cesium/Cesium.js"></script> <link rel"stylesheet" href"../cesium1.99/Build/Cesium/Widgets/widgets.css"> 关键配置点: 路径验证:确保相对路径.…...
PHP和Node.js哪个更爽?
先说结论,rust完胜。 php:laravel,swoole,webman,最开始在苏宁的时候写了几年php,当时觉得php真的是世界上最好的语言,因为当初活在舒适圈里,不愿意跳出来,就好比当初活在…...
在Ubuntu中设置开机自动运行(sudo)指令的指南
在Ubuntu系统中,有时需要在系统启动时自动执行某些命令,特别是需要 sudo权限的指令。为了实现这一功能,可以使用多种方法,包括编写Systemd服务、配置 rc.local文件或使用 cron任务计划。本文将详细介绍这些方法,并提供…...
大模型多显卡多服务器并行计算方法与实践指南
一、分布式训练概述 大规模语言模型的训练通常需要分布式计算技术,以解决单机资源不足的问题。分布式训练主要分为两种模式: 数据并行:将数据分片到不同设备,每个设备拥有完整的模型副本 模型并行:将模型分割到不同设备,每个设备处理部分模型计算 现代大模型训练通常结合…...
怎么让Comfyui导出的图像不包含工作流信息,
为了数据安全,让Comfyui导出的图像不包含工作流信息,导出的图像就不会拖到comfyui中加载出来工作流。 ComfyUI的目录下node.py 直接移除 pnginfo(推荐) 在 save_images 方法中,删除或注释掉所有与 metadata …...
nnUNet V2修改网络——暴力替换网络为UNet++
更换前,要用nnUNet V2跑通所用数据集,证明nnUNet V2、数据集、运行环境等没有问题 阅读nnU-Net V2 的 U-Net结构,初步了解要修改的网络,知己知彼,修改起来才能游刃有余。 U-Net存在两个局限,一是网络的最佳深度因应用场景而异,这取决于任务的难度和可用于训练的标注数…...
JDK 17 序列化是怎么回事
如何序列化?其实很简单,就是根据每个类型,用工厂类调用。逐个完成。 没什么漂亮的代码,只有有效、稳定的代码。 代码中调用toJson toJson 代码 mapper.writeValueAsString ObjectMapper DefaultSerializerProvider 一堆实…...
Vue 3 + WebSocket 实战:公司通知实时推送功能详解
📢 Vue 3 WebSocket 实战:公司通知实时推送功能详解 📌 收藏 点赞 关注,项目中要用到推送功能时就不怕找不到了! 实时通知是企业系统中常见的功能,比如:管理员发布通知后,所有用户…...
npm安装electron下载太慢,导致报错
npm安装electron下载太慢,导致报错 背景 想学习electron框架做个桌面应用,卡在了安装依赖(无语了)。。。一开始以为node版本或者npm版本太低问题,调整版本后还是报错。偶尔执行install命令后,可以开始下载…...
