当前位置: 首页 > news >正文

音视频技术开发周刊 | 325

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

cf73ca108978f381c3b627b8b2d1524f.png

AI读心术震撼登顶会!模型翻译脑电波,人类思想被投屏|NeurIPS 2023

在最近举办的NeurIPS大会上,研究人员展示了当代AI更震撼的应用场景——AI读心术!

OpenAI「登月计划」剑指超级AI!LeCun提出AGI之路七阶段,打造世界模型是首位

OpenAI「登月计划」笃定了超级人工智能必定会到来,甚至近在眼前。而在LeCun看来,实现AGI还很遥远,打造出世界模型仅是这第一步。

AI首次攻克难倒陶哲轩数学难题,DeepMind里程碑算法登Nature!LLM搜代码自我进化

困扰数学家多年、让陶哲轩直呼喜欢的上限集问题数学难题,竟然被DeepMind的新算法破解了?这是史上首个用LLM发现的算法,堪称里程碑级研究,一经发布立马登Nature。

c2a8785717c948527bf305d823efd171.png

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

2023 年底,科技公司都在冲击生成式 AI 的最后一个关卡 —— 视频生成。谷歌提出的视频生成大模型上线,立刻获得了人们的关注。这款名为 VideoPoet 的大语言模型,被人们认为是革命性的 zero-shot 视频生成工具。

NeurIPS 2023 Spotlight | 腾讯AI Lab绝悟新突破:在星际2灵活策略应对职业选手

近日,腾讯 AI Lab 的游戏 AI 团队宣布了其决策智能 AI "绝悟" 在《星际争霸 2》中的最新研究进展,提出一种创新的训练方法显著提升了 AI 的局内策略应变能力,使其在考虑了 APM 公平的对战环境中,与 3 位国内顶尖的神族职业选手各进行多达 20 局神族 vs 神族的对战,稳定地保持 50% 及以上的胜率。该成果已获 NeurIPS 2023 Spotlight 论文收录。

卷生成式AI的旗舰手机,2024年会引发一场交互革命

最近,各家手机厂商都在不约而同地做着一件事:把生成式 AI 搬上手机。先是在 10 月份的骁龙峰会上,小米放出消息,能在手机端侧运行的 60 亿参数大模型。

阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

文生视频可以精细到什么程度?最近,阿里巴巴的一项研究给出了答案:1280×720 分辨率没有压力,而且生成效果非常连贯。

美图AI动漫功能的落地探索

2022年可以说是AIGC技术的元年,LLM领域的GPT和图像领域的Stable Diffusion,都属于行业的颠覆性技术。在图像领域,业界出现了如DALLE,Midjourney等基于简单描述文本生成图像的模型和工具。美图在2022年以来,发布了多项AIGC相关应用,LiveVideoStackCon 2023深圳站 邀请到了美图 影像研究院李骈臻老师分享相关经验。

ae91a6ed84e490c7bacb099780b13ac3.png

昆士兰大学等发布!激光雷达位置识别图神经网络

本文提出了一种激光雷达位置识别方法,称为P-GAT,旨在增加随时间捕获的点云之间的感知范围。与比较点云对不同,我们比较点云集之间的相似性,利用姿势图SLAM的概念来利用邻近云之间的最大空间和时间信息。通过利用内部和外部关注以及图神经网络,P-GAT关联了欧几里德空间中附近位置捕获的点云及其在特征空间中的嵌入。

深度学习特征提取匹配开源算法:SuperPoint和SuperGlue

SuperPoint和SuperGlue在CVPR2020图像匹配挑战赛中排名第一。并且通过对SuperPont和SuperGlue的优化,许多工作在CVPR2021图像匹配挑战赛中也名列前茅。

同济大学开源!基于极线约束的级联对应匹配

准确和鲁棒的对应匹配对于各种3D计算机视觉任务至关重要。然而,传统的基于显式编程的方法往往难以处理具有挑战性的场景,而基于深度学习的方法需要大量标记良好的数据集进行网络训练。在这篇文章中,我们引入了极线约束的级联对应匹配( E3CM ),这是一种解决这些限制的新方法。

3D Gaussian Splatting为什么牛啵?原理、应用场景及最新进展

3D Gaussian Splatting是最近几个月热度极高的突破性工作,对应论文“3D Gaussian Splatting for Real-Time Radiance Field Rendering”是2023年SIGGRAPH最佳论文,在短短的几个月内席卷三维视觉和SLAM领域。 

c9e73224bc73162adf9f353bb16cb3d5.png

打破“成本质量效率”不可能三角,3D生成式AI加速解决VR内容困境

在研究团队公布的论文中,3D-GPT 被描述为“可以简单地根据用户提供的文本描述生成各种各样的 3D 模型和场景”。简单来说,3D-GPT 主要完成的是从输入文字中提取信息并生成建模指令这一关键一步,而后续的建模过程则主要交给 Blender 等建模软件。

Meta Quest Haptics SDK通过v60向所有开发者开放

日前,Haptics Studio和Haptics SDK这两个工具将结束实验版本状态,并正式通过Meta Quest v60向所有开发者开放,包含新的和改进的功能,例如全新的示例项目The Sense Of Touch。另外,之前仅兼容Unity的Haptics SDK已经支持Unreal。

Steam VR开始为Quest用户提供Advanced Supersample Filtering

在日前发布的SteamVR Beta Updated – 2.2.1中,Valve正在将Advanced Supersample Filtering重新带到Meta头显,允许用户通过Steam Link和Quest Link进行启用。

981f486f68b84e567c971feec813e7c3.png

超声芯片革新脑机接口:向无创植入更进一步

Forest Neurotech 和 Butterfly Network 合作构建了一种能够实现「亚毫米精度」操作的脑机接口,相比于传统的电信号,它将使用超声波来刺激和记录大脑活动。

谈谈先进封装的失效分析

先进封装技术给半导体行业带来了变革,市场对更小、更快、更低能耗、更大算力的电子设备的需求驱动了近年来先进封装的快速发展,它追求结构的进一步微型化、更高集成度、更多功能性,以及更好的散热控制。

芯片制造的核心工艺:一文看懂薄膜沉积

薄膜的制备需要不同技术原理,因此导致薄膜沉积设备也需要不同技术原理,物理/化学等不同沉积方法相互补充。

a60baf65de9131cc173666a5f5911729.png

中科院声学所研究人员提出基于泰勒展开形式的端到端语音增强算法

在当前基于深度神经网络模型的单通道和多通道语音增强算法研究中,通常着重于设计合理的网络拓扑结构以尽可能提升降噪算法的性能,往往忽略了对深度神经网络模型自身结构设计合理性与可解释性的探索。因此在大部分现有工作中,科研人员们在结构设计和参数确定等方面经验较丰富,但这些工作缺乏数学理论的指导和支撑。

Opus编解码器中音乐检测的奥秘

Opus是一个有损音频压缩的数字音频编码格式,由Xiph.Org基金会开发,之后由互联网工程任务组(IETF)进行标准化,目标是希望用单一格式包含声音和语音,取代Speex和Vorbis,且适用于网络上低延迟的即时声音传输,标准格式定义于RFC 6716文件。

基于相关度量的自监督语音模型的噪声稳健提取

与大的语音基础模型相比,小的蒸馏模型表现出降低的噪声鲁棒性。学生的鲁棒性可以通过在预训练期间在输入处引入噪声来提高。尽管如此,使用标准蒸馏损失仍然会导致学生的表现下降。因此,本文提出了通过相关度量的蒸馏来提高学生的鲁棒性。教师行为是通过最大化教师和学生对同一性的表征之间的互相关矩阵来学习的。噪声鲁棒性通过学生的自相关最小化来鼓励。所提出的方法是不可知的教师模型,并始终优于以前的方法。这项工作还提出了一种启发式的自动权衡两个相关项的重要性。实验表明,在SUPERB Challenge上,意图分类、关键词识别和自动语音识别任务的干净和噪声泛化能力始终更好。

https://arxiv.org/abs/2312.12153

daaa159d65435ec02bb5f31ad3344289.png

AVS3实时语音标准制定取得重要进展

由腾讯提交的AI Codec为基础的技术顺利通过评审,被选为AVS3P10实时语音编码标准的RM0基线和WD过点成功。从交叉测试来看,真正实现了低码率下质量是对齐OPUS、EVS中高码率的,达到运营级质量。我们在相近码率下,MOS分差过Google和Meta方案在0.6MO-1.0MOS。

微软Edge 121将支持最先进的图像格式AVIF

Microsoft Edge 121是Microsoft浏览器的下一个稳定版本,将为所有用户带来AVIF支持 。AVIF 是一种基于AV1视频编解码器的图像格式,它比JPEG或PNG等其他格式提供更有效的压缩。这意味着与其他格式相比,AVIF 文件可以更小,同时具有相同或更高的视觉质量。

https://www.gearrice.com/update/microsoft-edge-121-will-bring-support-for-avif-the-most-advanced-image-format/ 

d3f112953b124d3183b1fde195694a98.png

依靠HDR-VMAF,Netflix的HDR视频已全部实现动态优化

据11月30日Netflixtechblog显示,Netflix现已推出动态优化 HDR(高动态范围) 视频流功能。该功能使用了新的算法HDR-VMAF,提升了用户的观看体验。Netflix于2016年开始推出HDR视频,此后其提供的HDR影片数量一直持续增长。HDR视频可以提供更广泛的色彩和更高的对比度,从而提供更趋近真实的图像。受限于不同设备和网络条件的差异,HDR视频的播放质量会受到影响。

对话星纪魅族卢勇,AR眼镜背后的产品、生态与商业思考

“留给创业公司的时间就两到三年,接下来巨头就会入局,它们可以不发产品,只做技术预研,但我们作为初创公司,等它们入场的之后再进场,就没有任何机会了。”星纪魅族集团高级副总裁、XR 事业部总裁卢勇在谈到如此时间点,星纪魅族发布两款 AR 眼镜的缘由时对 VR陀螺说道。

b7435428099b883b697f1f41cf99bdc5.png

Meta发布全新社交平台Hoziron Worlds预告片,为用户准备一系列沉浸式体验

Meta日前为元宇宙社交平台Hoziron Worlds发布了一段全新的预告片。其中,团队以“体验全新的VR冒险”为题展示了他们为用户准备了一系列沉浸式体验,包括现有和即将发行的内容。

专注用VR改善大脑健康,Virtuleap完成250万美元融资

专注于用VR来改善大脑健康的初创公司Virtuleap日前宣布获得由GED Ventures提供的250万美元融资。利用这笔资金,团队计划继续完善Enhance VR,并通过虚拟现实+人工智能的力量来改善大脑健康。

8497be852a16e92a1cb3b75d798cc9ac.png

重磅首发|2024音视频技术发展报告(文末附下载)

11月24日,在LiveVideoStackCon 2023深圳站大会上,我们与腾讯云音视频联合首发《2024音视频技术发展报告》。报告通过300+音视频开发者调研,40+专家一线访谈,下沉8大细分技术领域进行全面解读,涵盖音视频编解码/AI编码/多媒体处理框架/媒体传输协议/超低延迟技术/虚拟现实/AIGC/出海等领域,深入洞察音视频技术现状和未来发展趋势。  

点击 “阅读原文“ 

跳转报告下载链接

相关文章:

音视频技术开发周刊 | 325

每周一期,纵览音视频技术领域的干货。 新闻投稿:contributelivevideostack.com。 AI读心术震撼登顶会!模型翻译脑电波,人类思想被投屏|NeurIPS 2023 在最近举办的NeurIPS大会上,研究人员展示了当代AI更震撼…...

量化服务器 - 后台挂载运行

服务器 - 后台运行 pip3命令被kill 在正常的pip命令后面加上 -no-cache-dir tmux 使用教程 https://codeleading.com/article/40954761108/ 如果你希望在 tmux 中后台执行一个 Python 脚本,你可以按照以下步骤操作: 启动 tmux: tmux这将会创建一个新…...

使用tesla gpu 加速大模型,ffmpeg,unity 和 UE等二三维应用

我们知道tesla gpu 没有显示器接口,那么在windows中怎么使用加速unity ue这种三维编辑器呢,答案就是改变注册表来加速相应的三维渲染程序. 1 tesla gpu p40 p100 加速 在windows中使用regedit 来改变 核显配置, 让p100 p40 等等显卡通过核显…...

巅峰画师Midjourney:新时代的独角兽

介绍 AI绘画领域中,Midjourney处于绝对地位,并且一年时间就登顶。 Midjourney是一家独立的AI研究实验室,探索新的思维媒介,拓展人类的想象力。 它由一个小型的自筹资金团队组成,专注于设计、人类基础设施和AI。 在AI绘画领域,Midjourney取得了非常突出…...

入行 4 年,跳槽 2 次,我摸透了软件测试这一行!

最近几年行业在如火如荼的发展壮大,以及其他传统公司都需要大批量的软件测试人员,但是最近几年的疫情导致大规模裁员,让人觉得行业寒冬已来,软件测试人员的职业规划值得我们深度思考。 大家都比较看好软件测试行业,只是…...

Hive01_安装部署

Hive的安装 上传安装包 解压 tar zxvf apache-hive-3.1.2-bin.tar.gz mv apache-hive-3.1.2-bin hive解决Hive与Hadoop之间guava版本差异 cd /export/software/hive/ rm -rf lib/guava-19.0.jarcp cp /export/software/hadoop/hadoop-3.3.0/share/hadoop/common/lib/guava-27.0…...

解决国内大模型痛点的最佳实践方案

1.前言 自AI热潮掀起以来,国内互联网大厂躬身入局,各类机构奋起追赶,创业型企业纷至沓来。业内戏称,一场大模型的“百模大战”已经扩展到“千模大战”。 根据近期中国科学技术信息研究所发布的《中国人工智能大模型地图研究报告…...

当文字成为雨滴:HTML、CSS、JS创作炫酷的“文字雨“动画!

简介 在本篇技术文章中,将介绍如何使用HTML、CSS和JavaScript创建一个独特而引人注目的"文字(字母&数字)"雨🌧️动画效果。通过该动画,展现出的是一系列随机字符将从云朵中下落像是将文字变成雨滴从天而降,营造出与…...

计算机网络简述

前言 计算机网路是一个很庞大的话题。在此我仅对其基础概述以及简单应用进行陈述。后续或有补充以形成完善的计算机网络知识体系。 一.计算机网络的定义 根据百度词条的描述,计算机网络是指将地理位置不同的具有独立功能的多台计算机及其外部设备,通过…...

Go 泛型之类型参数

Go 泛型之类型参数 文章目录 Go 泛型之类型参数一、Go 的泛型与其他主流编程语言的泛型差异二、返回切片中值最大的元素三、类型参数(type parameters)四、泛型函数3.1 泛型函数的结构3.2 调用泛型函数3.3 泛型函数实例化(instantiation&…...

KafkaLog4jAppender

Apache Log4j 中有一个 Appender 概念,它负责将日志信息输出到各种目的地,例如控制台、文件、数据库等。KafkaLog4jAppender 是 Log4j 的一个扩展,它可以将日志信息发送到 Apache Kafka。 下面是如何在 Log4j 中使用 KafkaLog4jAppender 的一…...

IntelliJ IDEA插件

插件安装目录&#xff1a;C:\Users\<username>\AppData\Roaming\JetBrains\IntelliJIdea2021.2\plugins aiXcoder Code Completer&#xff1a;代码补全 Bookmark-X&#xff1a;书签分类 使用方法&#xff1a;鼠标移动到某一行&#xff0c;按ALT SHIFT D...

鸿蒙开发中的坑(持续更新……)

最近在使用鸿蒙开发时&#xff0c;碰到了一些坑&#xff0c;特做记录&#xff0c;如&#xff1a;鸿蒙的preview不能预览&#xff0c;轮播图组件Swiper使用时的问题&#xff0c;console.log() 打印的内容 一、鸿蒙的preview不能预览 首先&#xff0c;只有 ets文件才能预览。 其…...

单体项目-动态上下文问题

在HTML中使用Thymeleaf解决动态上下文问题&#xff0c;你可以使用Thymeleaf的模板语法来生成动态的链接&#xff08;例如CSS和JavaScript文件的链接&#xff09;以适应不同的应用程序上下文。以下是一个示例&#xff1a; <!DOCTYPE html> <html xmlns:th"http:/…...

Qt/QML编程学习之心得:实现一个图片浏览器(十八)

QML中有个重要控件,经常使用就是image,通常可以用它来显示一张图片。如果想结合openfiledialog来让image显示图片,也就是做一个简易的图片浏览器,怎么弄呢? DefaultFileDialog.qml: import QtQuick 2.0 import QtQuick.Dialogs 1.0FileDialog {id: fileDialogtitle: &qu…...

kafka发送大消息

1 kafka消息压缩 kafka关于消息压缩的定义&#xff08;来源于官网&#xff09;&#xff1a; 此为 Kafka 中端到端的块压缩功能。如果启用&#xff0c;数据将由 producer 压缩&#xff0c;以压缩格式写入服务器&#xff0c;并由 consumer 解压缩。压缩将提高 consumer 的吞吐量…...

React AntDesign form表单文件上传 nodejs formidable 接受参数并把文件放置后端项目相对目录指定文件夹下面

@umijs/max 请求方法 // 上传文件改成form表单 export async function uploadFile(data, options) {return request(CMMS_UI_HOST + /api/v1/uploadFile, {method: POST,data,requestType: form,...(options || {}),}); }前端调用方法 注意upload组件上传 onChange的如下方法,…...

设计模式之-6大设计原则简单易懂的理解以及它们的适用场景和代码示列

系列文章目录 设计模式之-6大设计原则简单易懂的理解以及它们的适用场景和代码示列 设计模式之-单列设计模式&#xff0c;5种单例设计模式使用场景以及它们的优缺点 设计模式之-3种常见的工厂模式简单工厂模式、工厂方法模式和抽象工厂模式&#xff0c;每一种模式的概念、使用…...

css 实现满屏升空的气球动画

最终实现效果 demo放在最后了。。。。 问题一 怎么实现满屏气球&#xff1f;简单理解就是多个气球的合并&#xff0c;难道要写多个盒子吗&#xff1f;确实是这样子&#xff0c;但可以有更好的办法&#xff0c;其实就是通过原生操作多个盒子生成&#xff0c;所以只需要实现一个…...

批量归一化

目录 一、BN层介绍 1、深层神经网络存在的问题 2、批量归一化公式的数学推导 3、BN层的作用位置 4、 预测过程中的批量归一化 5、BN层加速模型训练的原因 6、总结 二、批量归一化从零实现 1、实现批量归一化操作 2、创建BN层 3、对LeNet加入批量归一化 4、开始训练…...

【Python】 -- 趣味代码 - 小恐龙游戏

文章目录 文章目录 00 小恐龙游戏程序设计框架代码结构和功能游戏流程总结01 小恐龙游戏程序设计02 百度网盘地址00 小恐龙游戏程序设计框架 这段代码是一个基于 Pygame 的简易跑酷游戏的完整实现,玩家控制一个角色(龙)躲避障碍物(仙人掌和乌鸦)。以下是代码的详细介绍:…...

从零实现富文本编辑器#5-编辑器选区模型的状态结构表达

先前我们总结了浏览器选区模型的交互策略&#xff0c;并且实现了基本的选区操作&#xff0c;还调研了自绘选区的实现。那么相对的&#xff0c;我们还需要设计编辑器的选区表达&#xff0c;也可以称为模型选区。编辑器中应用变更时的操作范围&#xff0c;就是以模型选区为基准来…...

.Net框架,除了EF还有很多很多......

文章目录 1. 引言2. Dapper2.1 概述与设计原理2.2 核心功能与代码示例基本查询多映射查询存储过程调用 2.3 性能优化原理2.4 适用场景 3. NHibernate3.1 概述与架构设计3.2 映射配置示例Fluent映射XML映射 3.3 查询示例HQL查询Criteria APILINQ提供程序 3.4 高级特性3.5 适用场…...

Docker 运行 Kafka 带 SASL 认证教程

Docker 运行 Kafka 带 SASL 认证教程 Docker 运行 Kafka 带 SASL 认证教程一、说明二、环境准备三、编写 Docker Compose 和 jaas文件docker-compose.yml代码说明&#xff1a;server_jaas.conf 四、启动服务五、验证服务六、连接kafka服务七、总结 Docker 运行 Kafka 带 SASL 认…...

【2025年】解决Burpsuite抓不到https包的问题

环境&#xff1a;windows11 burpsuite:2025.5 在抓取https网站时&#xff0c;burpsuite抓取不到https数据包&#xff0c;只显示&#xff1a; 解决该问题只需如下三个步骤&#xff1a; 1、浏览器中访问 http://burp 2、下载 CA certificate 证书 3、在设置--隐私与安全--…...

实现弹窗随键盘上移居中

实现弹窗随键盘上移的核心思路 在Android中&#xff0c;可以通过监听键盘的显示和隐藏事件&#xff0c;动态调整弹窗的位置。关键点在于获取键盘高度&#xff0c;并计算剩余屏幕空间以重新定位弹窗。 // 在Activity或Fragment中设置键盘监听 val rootView findViewById<V…...

蓝桥杯 冶炼金属

原题目链接 &#x1f527; 冶炼金属转换率推测题解 &#x1f4dc; 原题描述 小蓝有一个神奇的炉子用于将普通金属 O O O 冶炼成为一种特殊金属 X X X。这个炉子有一个属性叫转换率 V V V&#xff0c;是一个正整数&#xff0c;表示每 V V V 个普通金属 O O O 可以冶炼出 …...

【电力电子】基于STM32F103C8T6单片机双极性SPWM逆变(硬件篇)

本项目是基于 STM32F103C8T6 微控制器的 SPWM(正弦脉宽调制)电源模块,能够生成可调频率和幅值的正弦波交流电源输出。该项目适用于逆变器、UPS电源、变频器等应用场景。 供电电源 输入电压采集 上图为本设计的电源电路,图中 D1 为二极管, 其目的是防止正负极电源反接, …...

接口自动化测试:HttpRunner基础

相关文档 HttpRunner V3.x中文文档 HttpRunner 用户指南 使用HttpRunner 3.x实现接口自动化测试 HttpRunner介绍 HttpRunner 是一个开源的 API 测试工具&#xff0c;支持 HTTP(S)/HTTP2/WebSocket/RPC 等网络协议&#xff0c;涵盖接口测试、性能测试、数字体验监测等测试类型…...

[ACTF2020 新生赛]Include 1(php://filter伪协议)

题目 做法 启动靶机&#xff0c;点进去 点进去 查看URL&#xff0c;有 ?fileflag.php说明存在文件包含&#xff0c;原理是php://filter 协议 当它与包含函数结合时&#xff0c;php://filter流会被当作php文件执行。 用php://filter加编码&#xff0c;能让PHP把文件内容…...