当前位置: 首页 > article >正文

EMO2:基于末端执行器引导的音频驱动虚拟形象视频生成

今天带来EMO2(全称End-Effector Guided Audio-Driven Avatar Video Generation)是阿里巴巴智能计算研究院研发的创新型音频驱动视频生成技术。该技术通过结合音频输入和静态人像照片,生成高度逼真且富有表现力的动态视频内容,值得一提的是目前阿里并没有开源这个项目,所以今天内容仅供学习(阿里的EMO一代到目前都还没有开源,所以等项目开源那是遥遥无期)欢迎大家再评论区讨论

  • 项目官网: https://humanaigc.github.io/emote-portrait-alive-2/carxiv
  • 技术论文: https://arxiv.org/pdf/2501.10687

1. 动机与问题

1.1 问题1:如何实现富有表现力的音画同步人体视频生成

  • 研究背景:音频驱动人体视频生成技术旨在创建音画同步的面部表情与肢体动作,尽管在音频驱动面部表情生成和以人物为中心的视频合成方面已取得显著成果,但在实现富有表现力的音画同步人体视频生成,尤其是伴随语音的视频生成方面仍存在挑战
  • 现状与挑战:现有方法主要聚焦于面部区域,忽略了上半身尤其是手部动作的建模,现有方法难以生成 富有表现力,语义一致的全身动作

1.2 问题2:存在肢体动作丰富度不足或泛化能力有限等缺陷

  • 分析原因:
    1. 人体是一个具有高自由度的复杂多关节系统,其运动具有高度的时间依赖性与多样性。
    2. 在像素空间或显式坐标空间中从音频直接预测全身动作,而音频与不同身体关节之间的相关性存在显著差异,所以容易出现动作僵硬、同步性不足等问题
      解决方案:
    3. 借鉴机器人控制系统的“末端执行器”和机器人逆向运动学降低自由度,改进逆向运动学,提出“像素先于逆运动学”,这种方法能够重建完整人物角色,实现音频与嘴唇运动的同步,同时保持人体结构的合理性,从而生成连贯、自然的共语视频。
    4. 不再直接从音频预测全身动作,专注于将音频映射到手部姿态,充分利用音频与手部动作的强相关性。

2. 创新点

  1. 受到机械臂和人形机器人等控制系统常通过仿生设计来模拟人类行为的启发,将手部动作看作日常生活的"末端执行器"简化人体自由度
  2. 提出音频特征与全身动作之间的对应关系比较弱是当前方法的关键限制,验证了音频信号与手部动作的强相关性(所以这篇文章是由音频输入先生成手部姿态,再将手部姿态看作“末端执行器”来生成全身动作)
  3. 提出一种简化的两段音频驱动手势生成框架
  4. 引入基于扩散模型的生成方法,能够从生成的手部姿态合成逼真的面部表情与身体动作

3. 方法

EMO2 提出了一个创新的音频驱动视频生成框架,结合末端执行器引导机制,在音画同步的基础上,显著提升了生成动作的自然性、协调性和表现力。该方法的整体架构由音频解码器、末端执行器预测网络、视频合成模块、运动控制模块四个主要模块组成
论文原图

3.1 音频编码器

音频编码器接收时序音频信号作为输入,提取其局部语义信息和全局情绪特征。EMO2利用 wav2vec2.0 预训练模型来提取高维语音表示,捕捉音频中的语音节奏、语调、强度等潜在驱动因素。
输出包括:

  • 逐帧语音特征(Frame-level audio embedding)
  • 韵律与情感信息(Global prosody vector)

3.2 末端执行器预测网络(手部动作生成)

EMO2 的核心创新点在于引入末端执行器引导机制,该机制首次应用于音频驱动的人体生成任务中。将手部动作作为末端执行器,利用上半身的预定义关键点,作为视频生成的弱监督信号,采用的是 Diffusion Transformer(DiT ) 作为主干网络,利用交叉注意力机制联结音频特征和噪声运动潜变量,并嵌入时间步。
基于音频特征,通过注意力机制,生成与语音节奏一致的MANO手部系数, 从而获得符合语音语调和节奏的手势。为了保证连续片段之间的平滑过渡,前一片段的运动序列的最后几帧被拼接到当前运动序列中,确保动作的流畅性和连贯性。

3.3 视频生成模块(Video Renderer / Image Synthesizer )

视频生成模块基于EMO,骨干网络接收多帧噪声潜在输入,并在每个时间步中尝试去噪,生成连续的视频帧。该框架可以分为四个部分:
在这里插入图片描述

  1. 去噪:骨干网络是一个去噪的2D-UNet,并集成了来自AnimateDiff 间模块。这个网络负责在每个时间步中逐步去除噪声,并生成连续的视频帧。
  2. 帧参考:为了保持角色的身份,我们将ReferenceNet与骨干网络并行部署,输入参考图像和运动帧,以获取2D图像特征。这些特征通过跨注意力机制分别注入骨干网络的空间和时间维度。
  3. 音频驱动:为了通过音频驱动角色,第一阶段共享的音频特征通过跨注意力机制与骨干网络的潜在特征相结合,从而实现音频与角色动作的同步。
  4. 运动引导:第一阶段生成的MANO映射和关键点映射被按通道拼接,并与潜在特征一起集成,以调节身体运动,从而实现更加自然且精准的动作生成。

3.4 运动控制模块

  1. 运动控制模块利用末端执行器预测网络生成的MANO映射引导角色的运动。这些映射明确描述了生成帧中的手部运动,涵盖形状、大小和姿势等方面。 并使用MANO手部检测的置信度分数。这些分数在遇到显著遮挡或运动模糊的情况下可能会降低,作为条件输入来增强生成的手部质量。
  2. 初步实现使用了仅手部控制信号,使得其他身体部位可以与音频信号和手部运动同步。然而,MANO手部信号的大幅度运动通常与静止的躯干不兼容,导致视频中的表现显得不自然(所以说文章提出的改进逆向运动学其实效果也不怎么好?)。为了解决这一问题,EMO2引入了关节关键点来补充运动驱动方法,这些关键点映射表示了手臂和腿部关节的二维位置。

4. 实验

4.1 数据集

MOSEI 简介:
数据类型:

  • 视频(包含人脸、语音和文本信息)
  • 对象为网络中真实人物的访谈、演讲等短视频片段

标注:

  • 情感极性评分([-3, 3],例如:-3为非常负面,3为非常正面)
  • 情绪标签(7类:快乐、愤怒、惊讶、厌恶、悲伤、恐惧、中性)

AVSpeech 简介
数据类型:

  • 来自 YouTube 的讲话者视频(“in-the-wild”)
  • 每个片段包含:清晰人脸视频 + 对应的干净语音

数据特点:

  • 仅包含一个人说话的片段,背景干扰较少
  • 没有转录文本,仅提供音频和视频模态

EMTD简介

  • 用于音频驱动的人体上半身表达生成任务的多模态数据集。它的目标是推动真实感强、表达丰富的音频驱动人体动画技术的发展,特别关注于面部表情、手势动作与语音内容的自然匹配与同步。

数据类型: 视频、音频、3D人体关键点、文本转录、情感标签和动作标签
标注:面部动作、手部动作、上半身姿势动作都有具体标注

4.2 评价指标

手部动作生成评价指标

  1. DIV(Diversity,多样性)
    计算多个生成样本之间的欧式距离或分布距离,较高的 DIV 表示模型具有更强的表达能力,能生成更多样、 生动且不重复的动作;较低的 DIV 可能说明模型模式崩溃或生成内容单一。
  2. BA(Beat Alignment,节拍对齐):
    计算节拍位置与“运动峰值”的对齐度,较高的 BA 表示生成的手势、身体动作等能更好地跟随语音节奏,增强自然性和表现力。
  3. PCK(Percentage of Correct Keypoints):
    较高的 PCK 说明生成动作在空间上更接近真实数据,通常用于检测动作是否合理、逼真。
  4. FGD(Fréchet Gesture Distance)
    较低的 FGD 表明生成动作的风格、动态特征更接近真实分布,是衡量“自然性”的重要指标。

视频生成评价指标

  1. FID
    FID度量生成图像与真实图像之间的距离 , 基于Fréchet距离,衡量生成样本的特征分布与真实样本的特征分布的差异。数值越低,表示生成图像的质量越接近真实图像。
  2. 结构相似性指数(SSIM
    SSIM度量图像的结构相似性,考虑了亮度、对比度和结构信息的影响。其计算方式是将图像分成小块,分别计算每个块的SSIM值,然后综合得出图像的整体SSIM值,值越高说明生成的图像与参考图像在结构上越相似。
  3. 峰值信噪比(PSNR)
    PSNR用于评估图像重建的误差,它通过计算图像的最大像素值与均方误差(MSE)之间的关系来衡量质量。PSNR的值越高,表示图像的质量越好。
  4. Fréchet Video Distance(FVD)
    FVD是通过计算生成视频和真实视频的Fréchet距离来度量它们之间的差异,值越高说明生成视频与真实视频之间的差异越大,即生成视频的质量越差。

4.3 实验结论

手部动作生成对比实验结果

在这里插入图片描述

在对比实验中,EMO2基于 MANO 模型,相较于其他基于 SMPL 的方法,在多个指标上展现了显著优势:

  1. DIV(多样性):文章的MANO 方法在 DIV 指标上遥遥领先,显示了更高的手部动作生动性和表现力。其他基于 SMPL 的方法往往生成单调、重复的动作,即使起始手势不同,手部动作也倾向于维持在胸前或停留在初始位置,缺乏多样性。
  2. BA(节拍对齐):在 BA 指标上,文章的 MANO 方法同样表现优越,能够更好地与音频节奏同步。这两个指标(DIV 和 BA)在生成生动且富有表现力的共语驱动信号方面至关重要,有助于提升下一阶段视频生成的质量。
  3. PCK 和 FGD:尽管在 PCK(接近真实动作的比例)和 FGD(生成动作分布与真实动作分布之间的距离)上,文章的方法得分较低可以预见(文章没有给出这两个指标结果)。其他基于 SMPL 的方法通过正向运动学计算手部动作,容易生成与真实动作更为接近的结果,而我们的 MANO 方法则具有更大的自由度,可以生成与真实动作有所不同的手部运动,导致这些指标的得分较低。

视频生成对比试验结果

在这里插入图片描述

  1. 图像质量:从 FID、SSIM 和 PSNR 指标的提升可以看出,此文章的方法在生成单帧图像质量方面优于其他方法。特别是在使用原始姿态作为驱动(“w/o motion gen”)的实验设置中,由于与真实标签更加一致,进一步提升了生成图像和视频的质量。
  2. 动作多样性:尽管“w/o motion gen”设定下图像质量提升明显,但相对较低的 HKV 值表明动作缺乏变化。相比之下,文章的完整方法具备更高的 HKV 值,显示出在保持合理性的前提下能够生成更丰富、更具表现力的动作序列。
  3. 身份一致性与面部表现力:文章的方法能够更好地保持人物身份一致性,这从更高的 CSIM 值中得到验证。同时,更低的 EFID 值也证明了EMO2能生成更生动、自然的面部表情。

相关文章:

EMO2:基于末端执行器引导的音频驱动虚拟形象视频生成

今天带来EMO2(全称End-Effector Guided Audio-Driven Avatar Video Generation)是阿里巴巴智能计算研究院研发的创新型音频驱动视频生成技术。该技术通过结合音频输入和静态人像照片,生成高度逼真且富有表现力的动态视频内容,值得…...

计算机总线技术深度解析:从系统架构到前沿演进

计算机系统中的总线是连接多个部件的信息传输线,是各部件间传输信息的公共通道。以下将从总线的定义、功能、分类、性能指标等方面进行详细介绍: 一、总线的定义与功能 1.定义:总线是一组能为多个部件分时共享的公共信息传送线路&#xff0…...

Python打卡训练营Day43

DAY 43 复习日 作业: kaggle找到一个图像数据集,用cnn网络进行训练并且用grad-cam做可视化 数据集地址:Lung Nodule Malignancy 肺结核良恶性判断 进阶:并拆分成多个文件 import os import pandas as pd import numpy as np from…...

PHP7+MySQL5.6 查立得轻量级公交查询系统

# PHP7MySQL5.6 查立得轻量级公交查询系统 ## 系统简介 本系统是一个基于PHP7和MySQL5.6的轻量级公交查询系统(40KB级),支持线路查询、站点查询和换乘查询功能。系统采用原生PHPMySQL开发,无需第三方框架,适合手机端访问。 首发版本&#x…...

如何做好一个决策:基于 Excel的决策树+敏感性分析应用(针对多个变量)

本文是对《如何做好一个决策:基于 Excel的决策树+敏感性分析应用》一文的补充。 示例背景 决策问题:是否开发新产品? 关键变量: 开发成本(B2):$500K, $700K, $1M高需求概率(B4):30%, 50%, 70%高需求收入(C4...

Azure DevOps 管道部署系列之一本地服务器

Azure DevOps 是一个帮助改进 SDLC(软件开发生命周期)的平台。 在本文中,我们将使用 Azure Pipelines 创建自动化部署。 Azure DevOps 团队将 Azure Pipelines 定义为“使用 CI/CD 构建、测试和部署,适用于任何语言、平台和云平台”。 在这里,我将解释如何在 Azure Dev…...

DeepSeekMath:突破开放式语言模型中数学推理能力的极限

摘要 由于数学推理具有复杂且结构化的特性,这对语言模型构成了重大挑战。在本文中,我们介绍了 DeepSeekMath 7B 模型,该模型在 DeepSeek-Coder-Base-v1.5 7B 模型的基础上,使用从 Common Crawl 获取的 1200 亿个与数学相关的标记,以及自然语言和代码数据继续进行预训练。…...

QT 5.15.2 程序中文乱码

1. 在.pro文件中添加: msvc { QMAKE_CXXFLAGS /source-charset:utf-8 /execution-charset:utf-8 }备注:.pro文件只有在选择 qmake 方式才会生成。 [Cmake 只会生成 CMakeLists.txt 文件] 2. 在文件首部增加以下程序行 #pragma execution_character_s…...

Celery简介

一、什么是异步任务队列 异步任务队列是指一种用于管理和调度异步执行任务的机制。具体来说,它允许将任务放入队列中,然后由后台进程异步处理这些任务,而不会阻塞主线程的执行。这种设计使得系统能够高效地处理耗时操作,同时保持…...

StarRocks物化视图

## 引言 在大数据时代,企业对实时数据分析的需求日益增长,而传统OLAP系统在处理复杂查询时往往面临性能瓶颈。StarRocks作为新一代极速全场景MPP分析型数据库,通过其独特的**物化视图(Materialized View, MV)**技术&a…...

vue2源码解析——响应式原理

文章目录 引言数据劫持收集依赖数组处理渲染watchervue3中的响应式 引言 vue的设计思想是数据双向绑定、数据与UI自动同步,即数据驱动视图。 为什么会这样呢?这就不得不提vue的响应式原理了,在使用vue的过程中,我被vue的响应式设…...

基于 GitLab CI + Inno Setup 实现 Windows 程序自动化打包发布方案

在 Windows 桌面应用开发中,实现自动化构建与打包发布是一项非常实用的工程实践。本文以我在开发PackTes项目时的为例,介绍如何通过 GitLab CI 配合 Inno Setup、批处理脚本、Qt 构建工具,实现版本化打包并发布到共享目录的完整流程。 项目地…...

做好 4个基本动作,拦住性能优化改坏原功能的bug

缺陷分析 “小李,202504300989这个现场缺陷你负责测试漏测分析,要求用5why方法找到漏测根因,根据找到的根因制定改进措施。你今天下班前完成,完成后立刻通知我,质量部现在每天都在催现场缺陷分析结果。”周二刚上班&a…...

【HarmonyOS 5】针对 Harmony-Cordova 性能优化,涵盖原生插件开发、线程管理和资源加载等关键场景

1. ‌原生图片处理插件(Java) package com.example.plugin; import ohos.media.image.ImageSource; import ohos.media.image.PixelMap; import ohos.app.Context; public class ImageProcessor { private final Context context; public ImagePro…...

零基础认知企业级数据分析平台如何落实数据建模(GAI)

理解数据建模的基本概念 数据建模是将业务需求转化为数据结构和关系的过程,核心目标是构建可支撑分析、预测或决策的数据模型。零基础需从以下维度入手: 业务理解:明确业务问题(如销售预测、用户分群),与…...

web架构2------(nginx多站点配置,include配置文件,日志,basic认证,ssl认证)

一.前言 前面我们介绍了一下nginx的安装和基础配置,今天继续来深入讲解一下nginx的其他配置 二.nginx多站点配置 一个nginx上可以运行多个网站。有多种方式: http:// ip/域名 端口 URI 其中,ip/域名变了,那么网站入口就变了…...

AI 的早期萌芽?用 Swift 演绎约翰·康威的「生命游戏」

文章目录 摘要描述题解答案题解代码分析示例测试及结果时间复杂度空间复杂度总结 摘要 你有没有想过,能不能通过简单的规则模拟出生与死亡?「生命游戏」正是这样一种充满魅力的数学模拟系统。这篇文章我们来聊聊它的规则到底有多神奇,并用 S…...

【DBA】MySQL经典250题,改自OCP英文题库中文版(2025完整版)

【DBA】MySQL经典250题,改自OCP英文题库中文版(2025完整版) ——2025.5.15 文章目录 P1:1-50(划重点)P2:51-100(划重点)P3:101-150(划重点打标记&…...

Cursor 编辑器介绍:专为程序员打造的 AI 编程 IDE

在现代软件开发中,AI 辅助编程正逐步改变开发者的工作方式。Cursor 正是这场变革中的佼佼者,它不仅是一个现代化的代码编辑器,更是将强大的 AI 编程助手深度集成到 IDE 的一次探索性尝试。 一、什么是 Cursor? Cursor 是一款基于…...

go|channel源码分析

文章目录 channelhchanmakechanchansendchanrecvcomplieclosechan channel 先看一下源码中的说明 At least one of c.sendq and c.recvq is empty, except for the case of an unbuffered channel with a single goroutine blocked on it for both sending and receiving usin…...

【大模型学习】项目练习:视频文本生成器

🚀实现视频脚本生成器 视频文本生成器 📚目录 一、游戏设计思路二、完整代码解析三、扩展方向建议四、想说的话 一、⛳设计思路 本视频脚本生成器采用模块化设计,主要包含三大核心模块: 显示模块:处理用户输入和…...

【Rust】Rust获取命令行参数以及IO操作

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…...

【Redis】Zset 有序集合

文章目录 常用命令zaddzcardzcountzrange && zrevrangezrangebyscorezpopmax && bzpopmaxzpopmin && zpopmaxzrank && zrevrankzscorezremzremrangebyrankzremrangebyscorezincrby 集合间操作交集 zinterstore并集 zunionstore 内部编码应用场…...

manus对比ChatGPT-Deep reaserch进行研究类论文数据分析!谁更胜一筹?

目录 没有账号,只能挑选一个案例 1、manus的效果 Step-1:直接看结果 Step-2:看看其他文件的细节 Step-3:看最终报告 2、Deep reaserch 3、Deep reaserch进行行业分析 总结一下: 大家好这里是学术Anan&#xff…...

【 HarmonyOS 5 入门系列 】鸿蒙HarmonyOS示例项目讲解

【 HarmonyOS 5 入门系列 】鸿蒙HarmonyOS示例项目讲解 一、前言:移动开发声明式 UI 框架的技术变革 在移动操作系统的发展历程中,UI 开发模式经历了从命令式到声明式的重大变革。 根据华为开发者联盟 2024 年数据报告显示,HarmonyOS 设备…...

AWS Transit Gateway实战:构建DMZ隔离架构,实现可控的网络互通

在企业云网络架构中,如何实现不同VPC之间的安全互通是一个常见挑战。本文将通过AWS Transit Gateway实战,展示如何构建一个DMZ隔离架构,使DMZ可以与Test和Production环境互通,而Test和Production环境之间相互隔离。 1. Transit Gateway架构设计概述 在开始实践前,让我们先…...

用提示词写程序(3),VSCODE+Claude3.5+deepseek开发edge扩展插件V2

edge扩展插件;筛选书签,跳转搜索,设置背景 链接: https://pan.baidu.com/s/1nfnwQXCkePRnRh5ltFyfag?pwd86se 提取码: 86se 导入解压的扩展文件夹: 导入扩展成功: edge扩展插件;筛选书签,跳转搜索,设置背景...

栈与队列:数据结构的有序律动

在数据结构的舞台上,栈与队列宛如两位优雅的舞者,以独特的节奏演绎着数据的进出规则。它们虽不像顺序表与链表那般复杂多变,却有着令人着迷的简洁与实用,在众多程序场景中发挥着不可或缺的作用。今天,就让我们一同去探…...

初识PS(Photoshop)

初识PS(Photoshop) 1、Photoshop界面 2、常用快捷键...

go语言的GMP(基础)

1.概念梳理 1.1线程 通常语义中的线程,指的是内核级线程,核心点如下: (1)是操作系统最小调度单元; (2)创建、销毁、调度交由内核完成,cpu 需完成用户态与内核态间的切…...