当前位置：首页 > news >正文

音视频技术开发周刊 | 325

news 2026/5/21 23:41:53

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

AI读心术震撼登顶会！模型翻译脑电波，人类思想被投屏｜NeurIPS 2023

在最近举办的NeurIPS大会上，研究人员展示了当代AI更震撼的应用场景——AI读心术！

OpenAI「登月计划」剑指超级AI！LeCun提出AGI之路七阶段，打造世界模型是首位

OpenAI「登月计划」笃定了超级人工智能必定会到来，甚至近在眼前。而在LeCun看来，实现AGI还很遥远，打造出世界模型仅是这第一步。

AI首次攻克难倒陶哲轩数学难题，DeepMind里程碑算法登Nature！LLM搜代码自我进化

困扰数学家多年、让陶哲轩直呼喜欢的上限集问题数学难题，竟然被DeepMind的新算法破解了？这是史上首个用LLM发现的算法，堪称里程碑级研究，一经发布立马登Nature。

视频生成可以无限长？谷歌VideoPoet大模型上线，网友：革命性技术

2023 年底，科技公司都在冲击生成式 AI 的最后一个关卡 —— 视频生成。谷歌提出的视频生成大模型上线，立刻获得了人们的关注。这款名为 VideoPoet 的大语言模型，被人们认为是革命性的 zero-shot 视频生成工具。

NeurIPS 2023 Spotlight | 腾讯AI Lab绝悟新突破：在星际2灵活策略应对职业选手

近日，腾讯 AI Lab 的游戏 AI 团队宣布了其决策智能 AI "绝悟" 在《星际争霸 2》中的最新研究进展，提出一种创新的训练方法显著提升了 AI 的局内策略应变能力，使其在考虑了 APM 公平的对战环境中，与 3 位国内顶尖的神族职业选手各进行多达 20 局神族 vs 神族的对战，稳定地保持 50% 及以上的胜率。该成果已获 NeurIPS 2023 Spotlight 论文收录。

卷生成式AI的旗舰手机，2024年会引发一场交互革命

最近，各家手机厂商都在不约而同地做着一件事：把生成式 AI 搬上手机。先是在 10 月份的骁龙峰会上，小米放出消息，能在手机端侧运行的 60 亿参数大模型。

阿里文生视频挑战Gen-2、Pika，1280×720分辨率无压力，3500万文本-视频对显奇效

文生视频可以精细到什么程度？最近，阿里巴巴的一项研究给出了答案：1280×720 分辨率没有压力，而且生成效果非常连贯。

美图AI动漫功能的落地探索

2022年可以说是AIGC技术的元年，LLM领域的GPT和图像领域的Stable Diffusion，都属于行业的颠覆性技术。在图像领域，业界出现了如DALLE，Midjourney等基于简单描述文本生成图像的模型和工具。美图在2022年以来，发布了多项AIGC相关应用，LiveVideoStackCon 2023深圳站邀请到了美图影像研究院李骈臻老师分享相关经验。

昆士兰大学等发布！激光雷达位置识别图神经网络

本文提出了一种激光雷达位置识别方法，称为P-GAT，旨在增加随时间捕获的点云之间的感知范围。与比较点云对不同，我们比较点云集之间的相似性，利用姿势图SLAM的概念来利用邻近云之间的最大空间和时间信息。通过利用内部和外部关注以及图神经网络，P-GAT关联了欧几里德空间中附近位置捕获的点云及其在特征空间中的嵌入。

深度学习特征提取匹配开源算法：SuperPoint和SuperGlue

SuperPoint和SuperGlue在CVPR2020图像匹配挑战赛中排名第一。并且通过对SuperPont和SuperGlue的优化，许多工作在CVPR2021图像匹配挑战赛中也名列前茅。

同济大学开源！基于极线约束的级联对应匹配

准确和鲁棒的对应匹配对于各种3D计算机视觉任务至关重要。然而，传统的基于显式编程的方法往往难以处理具有挑战性的场景，而基于深度学习的方法需要大量标记良好的数据集进行网络训练。在这篇文章中，我们引入了极线约束的级联对应匹配( E3CM )，这是一种解决这些限制的新方法。

3D Gaussian Splatting为什么牛啵？原理、应用场景及最新进展

3D Gaussian Splatting是最近几个月热度极高的突破性工作，对应论文“3D Gaussian Splatting for Real-Time Radiance Field Rendering”是2023年SIGGRAPH最佳论文，在短短的几个月内席卷三维视觉和SLAM领域。

打破“成本质量效率”不可能三角，3D生成式AI加速解决VR内容困境

在研究团队公布的论文中，3D-GPT 被描述为“可以简单地根据用户提供的文本描述生成各种各样的 3D 模型和场景”。简单来说，3D-GPT 主要完成的是从输入文字中提取信息并生成建模指令这一关键一步，而后续的建模过程则主要交给 Blender 等建模软件。

Meta Quest Haptics SDK通过v60向所有开发者开放

日前，Haptics Studio和Haptics SDK这两个工具将结束实验版本状态，并正式通过Meta Quest v60向所有开发者开放，包含新的和改进的功能，例如全新的示例项目The Sense Of Touch。另外，之前仅兼容Unity的Haptics SDK已经支持Unreal。

Steam VR开始为Quest用户提供Advanced Supersample Filtering

在日前发布的SteamVR Beta Updated – 2.2.1中，Valve正在将Advanced Supersample Filtering重新带到Meta头显，允许用户通过Steam Link和Quest Link进行启用。

超声芯片革新脑机接口：向无创植入更进一步

Forest Neurotech 和 Butterfly Network 合作构建了一种能够实现「亚毫米精度」操作的脑机接口，相比于传统的电信号，它将使用超声波来刺激和记录大脑活动。

谈谈先进封装的失效分析

先进封装技术给半导体行业带来了变革，市场对更小、更快、更低能耗、更大算力的电子设备的需求驱动了近年来先进封装的快速发展，它追求结构的进一步微型化、更高集成度、更多功能性，以及更好的散热控制。

芯片制造的核心工艺：一文看懂薄膜沉积

薄膜的制备需要不同技术原理，因此导致薄膜沉积设备也需要不同技术原理，物理/化学等不同沉积方法相互补充。

中科院声学所研究人员提出基于泰勒展开形式的端到端语音增强算法

在当前基于深度神经网络模型的单通道和多通道语音增强算法研究中，通常着重于设计合理的网络拓扑结构以尽可能提升降噪算法的性能，往往忽略了对深度神经网络模型自身结构设计合理性与可解释性的探索。因此在大部分现有工作中，科研人员们在结构设计和参数确定等方面经验较丰富，但这些工作缺乏数学理论的指导和支撑。

Opus编解码器中音乐检测的奥秘

Opus是一个有损音频压缩的数字音频编码格式，由Xiph.Org基金会开发，之后由互联网工程任务组（IETF）进行标准化，目标是希望用单一格式包含声音和语音，取代Speex和Vorbis，且适用于网络上低延迟的即时声音传输，标准格式定义于RFC 6716文件。

基于相关度量的自监督语音模型的噪声稳健提取

与大的语音基础模型相比，小的蒸馏模型表现出降低的噪声鲁棒性。学生的鲁棒性可以通过在预训练期间在输入处引入噪声来提高。尽管如此，使用标准蒸馏损失仍然会导致学生的表现下降。因此，本文提出了通过相关度量的蒸馏来提高学生的鲁棒性。教师行为是通过最大化教师和学生对同一性的表征之间的互相关矩阵来学习的。噪声鲁棒性通过学生的自相关最小化来鼓励。所提出的方法是不可知的教师模型，并始终优于以前的方法。这项工作还提出了一种启发式的自动权衡两个相关项的重要性。实验表明，在SUPERB Challenge上，意图分类、关键词识别和自动语音识别任务的干净和噪声泛化能力始终更好。

https://arxiv.org/abs/2312.12153

AVS3实时语音标准制定取得重要进展

由腾讯提交的AI Codec为基础的技术顺利通过评审，被选为AVS3P10实时语音编码标准的RM0基线和WD过点成功。从交叉测试来看，真正实现了低码率下质量是对齐OPUS、EVS中高码率的，达到运营级质量。我们在相近码率下，MOS分差过Google和Meta方案在0.6MO-1.0MOS。

微软Edge 121将支持最先进的图像格式AVIF

Microsoft Edge 121是Microsoft浏览器的下一个稳定版本，将为所有用户带来AVIF支持。AVIF 是一种基于AV1视频编解码器的图像格式，它比JPEG或PNG等其他格式提供更有效的压缩。这意味着与其他格式相比，AVIF 文件可以更小，同时具有相同或更高的视觉质量。

https://www.gearrice.com/update/microsoft-edge-121-will-bring-support-for-avif-the-most-advanced-image-format/

依靠HDR-VMAF，Netflix的HDR视频已全部实现动态优化

据11月30日Netflixtechblog显示，Netflix现已推出动态优化 HDR（高动态范围）视频流功能。该功能使用了新的算法HDR-VMAF，提升了用户的观看体验。Netflix于2016年开始推出HDR视频，此后其提供的HDR影片数量一直持续增长。HDR视频可以提供更广泛的色彩和更高的对比度，从而提供更趋近真实的图像。受限于不同设备和网络条件的差异，HDR视频的播放质量会受到影响。

对话星纪魅族卢勇，AR眼镜背后的产品、生态与商业思考

“留给创业公司的时间就两到三年，接下来巨头就会入局，它们可以不发产品，只做技术预研，但我们作为初创公司，等它们入场的之后再进场，就没有任何机会了。”星纪魅族集团高级副总裁、XR 事业部总裁卢勇在谈到如此时间点，星纪魅族发布两款 AR 眼镜的缘由时对 VR陀螺说道。

Meta发布全新社交平台Hoziron Worlds预告片，为用户准备一系列沉浸式体验

Meta日前为元宇宙社交平台Hoziron Worlds发布了一段全新的预告片。其中，团队以“体验全新的VR冒险”为题展示了他们为用户准备了一系列沉浸式体验，包括现有和即将发行的内容。

专注用VR改善大脑健康，Virtuleap完成250万美元融资

专注于用VR来改善大脑健康的初创公司Virtuleap日前宣布获得由GED Ventures提供的250万美元融资。利用这笔资金，团队计划继续完善Enhance VR，并通过虚拟现实+人工智能的力量来改善大脑健康。

重磅首发｜2024音视频技术发展报告（文末附下载）

11月24日，在LiveVideoStackCon 2023深圳站大会上，我们与腾讯云音视频联合首发《2024音视频技术发展报告》。报告通过300+音视频开发者调研，40+专家一线访谈，下沉8大细分技术领域进行全面解读，涵盖音视频编解码/AI编码/多媒体处理框架/媒体传输协议/超低延迟技术/虚拟现实/AIGC/出海等领域，深入洞察音视频技术现状和未来发展趋势。

▲点击 “阅读原文“ ▲

跳转报告下载链接

音视频技术开发周刊 | 325

NeurIPS 2023 Spotlight | 腾讯AI Lab绝悟新突破：在星际2灵活策略应对职业选手

相关文章：

音视频技术开发周刊 | 325

量化服务器 - 后台挂载运行

使用tesla gpu 加速大模型，ffmpeg,unity 和 UE等二三维应用

巅峰画师Midjourney：新时代的独角兽

入行 4 年，跳槽 2 次，我摸透了软件测试这一行！

Hive01_安装部署

解决国内大模型痛点的最佳实践方案

当文字成为雨滴：HTML、CSS、JS创作炫酷的“文字雨“动画！

计算机网络简述

Go 泛型之类型参数

KafkaLog4jAppender

IntelliJ IDEA插件

鸿蒙开发中的坑（持续更新……）

单体项目-动态上下文问题

Qt/QML编程学习之心得：实现一个图片浏览器（十八）

kafka发送大消息

React AntDesign form表单文件上传 nodejs formidable 接受参数并把文件放置后端项目相对目录指定文件夹下面

设计模式之-6大设计原则简单易懂的理解以及它们的适用场景和代码示列

css 实现满屏升空的气球动画

批量归一化

OpenAvatarChat终极部署指南：如何构建企业级数字人对话系统

针对现在的AI模型的token中转转包业务的分析

IDM激活脚本：破解30天限制背后的注册表权限技术内幕

终极SPT-AKI存档编辑器：如何轻松掌控你的逃离塔科夫离线游戏进度

大学生零基础打CTF比赛全攻略：要学啥、怎么学，看完就能参赛

告别 API 收费！OpenClaw 对接 Ollama，本地大模型免费无限用

如何快速清理Windows驱动垃圾：DriverStore Explorer终极使用指南

如何用TranslucentTB实现Windows任务栏透明化：3分钟完成桌面美化终极指南

2026黑科技对决：UWB硬件瓶颈 vs 镜像视界无感定位・跨镜追踪自由

RustRedOps COM组件操作指南：从IActiveScript到IShellDispatch的完整示例