当前位置：首页 > news >正文

NLPR、SenseTime 和 NTU 加速自动视频纵向编辑

news 2026/5/17 6:25:40

视频人像编辑技术已经在电视、视频和电影制作中得到了应用，并有望在不断发展的网真场景中发挥关键作用。最先进的方法已经可以逼真地将同源音频合成为视频。现在，来自北京模式识别国家实验室（NLPR）、商汤科技研究和南洋理工大学的研究人员通过一个新的框架将这项技术向前推进了一步，该框架可以实现完全任意的音频 - 视频翻译。

在开发该项目时，研究人员面临着许多挑战：

1、如何在没有源视频的情况下执行从音频到视频的直接映射

2、如何概括同一音频剪辑上不同说话人的面部表情

3、如何保持视频背景的完整性和清晰度，防止扬声器头部移动引起的遮挡等

2023-08-15T03:17:20.png

系统架构概述

为了增加合成视频的真实感，研究人员结合了许多不同的模型和网络。在视频方面，他们应用了参数化3D人脸模型，从每个肖像帧中提取人脸几何形状、姿势和表情参数。在音频方面，他们使用音频到表情的翻译网络来识别特定的音频特征，并将其与面部表情相匹配。

研究人员还设计了一个音频ID去除网络，以降低不同肖像的差异化。然后使用重组的 3D 面部网格修改源和目标参数，创建蒙版肖像。最后，研究人员应用了神经视频渲染网络来实现清晰和不间断的背景场景。

2023-08-15T03:17:42.png

音频到表达网络架构

一对多和多对一平移测试结果表明，所提系统的泛化能力比现有方法产生更自然的外观和运动。

2023-08-15T03:18:02.png

与四种主要的最新方法进行比较。

本文的第一作者是Linsen Song，他是NLPR研究员何然和前商汤科技实习生指导下的研究生。可以在项目页面上查看综合结果的视频演示和解释。

相关论文《Everyone’s Talkin：Let Me Talk as You Want》发表在arXiv上。

NLPR、SenseTime 和 NTU 加速自动视频纵向编辑

相关文章：

NLPR、SenseTime 和 NTU 加速自动视频纵向编辑

layui下拉框select 弹出层在最外层

fnn手动实现和nn实现(包括3种激活函数、隐藏层)

Lua + mysql 实战代码

智慧工地监管云平台源码建筑施工一体化信息管理系统源码

三.net core 自动化发布到docker （创建一个dotnet工程发布）

【Spring Cloud 八】Spring Cloud Gateway网关

Android JNI传递CallBack接口并接收回调

机器学习：特征工程之特征预处理

高级艺术二维码制作教程

每日一题leetcode--使循环数组所有元素相等的最少秒数

tauri-react：快速开发跨平台软件的架子，支持自定义头部UI拖拽移动和窗口阴影效果

k8s 自身原理之 Service

arduino Xiao ESP32C3 oled0.96 下雪花

ElasticSearch索引库、文档、RestClient操作

Effective Java 案例分享（九）

SpringBoot复习：（56）使用@Transactional注解标记的方法的执行流程

JVM——引言+JVM内存结构

open cv学习（十）图形检测

【C语言】字符函数和字符串函数

ElevenLabs情绪驱动API实战手册（2024企业级部署全链路）：从F0曲线调制到微表情时序对齐

智谱AI GLM-5V-Turbo：视觉生成代码的技术革命与实战架构

基于WLED分段功能与激光切割的多层智能艺术灯板制作全攻略

EmoLLM：大语言模型的情感增强训练与部署实践

基于Stellar的智能体经济安全与效率优化框架解析

MCP服务器生产级部署：从Docker到Kubernetes的完整工程化实践

[具身智能-767]：AMCL全局撒粒子重搜与局部小范围匹配，是否算法过程是相似的，不同的是：粒子的数量、覆盖的区域、最终的精度？

创业团队如何利用Taotoken以更低成本快速验证AI产品创意

五分钟完成python脚本配置直连taotoken多模型服务

如何在电脑上完美运行3DS游戏：Citra模拟器5步安装指南