可让照片人物“开口说话”阿里图生视频模型EMO,高启强普法
3 月 1 日消息,阿里巴巴研究团队近日发布了一款名为“EMO(Emote Portrait Alive)”的 AI 框架,该框架号称可以用于“对口型”,只需要输入人物照片及音频,模型就能够让照片中的人物开口说出相关音频,支持中英韩等语言。
据悉,EMO 基于英伟达的 Audio2Video 扩散模型打造,号称使用了超过 250 小时的专业视频进行训练,从而得到了相关 AI 框架。
注意到,研究团队分享了几段由 EMO 框架生成的 DEMO 演示片段,并在 ArXiv 上发布了模型的工作原理,感兴趣的小伙伴也可以访问 GitHub 查看项目。
据介绍,该框架工作过程分为两个主要阶段,研究人员首先利用参考网络(ReferenceNet)从参考图像和动作帧中提取特征,之后利用预训练的音频编码器处理声音并嵌入,再结合多帧噪声和面部区域掩码来生成视频,该框架还融合了两种注意机制和时间模块,以确保视频中角色身份的一致性和动作的自然流畅。
研究人员援引一系列实验结果,声称 EMO 不仅能够产生令人信服的说话视频,还能生成各种风格的歌唱视频,号称“显著优于目前的 DreamTalk、Wav2Lip、SadTalker 等竞品”。
据悉,你只需要提供一张照片和一段任意音频文件,EMO即可生成会说话唱歌的 AI 视频,以及实现无缝对接的动态小视频,最长时间可达1分30秒左右。表情非常到位,任意语音、任意语速、任意图像都可以一一对应。
比如,《狂飙》电视剧中“高启强”畅谈罗翔普法;蔡徐坤的一张图片,就能通过其他音频配合“唱出”一首rapper饶舌,连口型都几乎一模一样;甚至前不久OpenAI发布的Sora案例视频里面,一位 AI 生成的带墨镜的日本街头女主角,现在不仅能让她开口说话,而且还能唱出好听的歌曲。
阿里研究团队表示,EMO可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频,同时,其可以根据输入视频的长度生成任意持续时间的视频。
同时,EMO还拥有音频驱动的人像视频生成,表情丰富的动态渲染,多种头部转向姿势支持、增加视频的动态性和真实感,支持多种语言和肖像风格,快速节奏同步,跨演员表现转换等多个特点与功能。
技术层面,阿里研究人员分享称,EMO框架使用 Audio2Video 扩散模型,生成富有表现力的人像视频。
该技术主要包括三个阶段:一是帧编码的初始阶段,ReferenceNet 用于从参考图像和运动帧中提取特征;二是在扩散过程阶段,预训练的音频编码器处理音频嵌入。面部区域掩模与多帧噪声集成以控制面部图像的生成;三是使用主干网络来促进去噪操作。在主干网络中,应用了两种形式——参考注意力和音频注意力机制,这些机制分别对于保留角色的身份和调节角色的动作至关重要。此外,EMO的时间模块用于操纵时间维度,并调整运动速度。
目前,EMO框架上线到GitHub中,相关论文也在arxiv上公开。
GitHub:https://github.com/HumanAIGC/EMO
论文:https://arxiv.org/abs/2402.17485
事实上,过去一年,阿里巴巴在 AI 方面持续发力,包括阿里云推出通义千问、通义万相等多款对标 OpenAI 的 AI 大模型产品,以及基于双流条件扩散模型的真人百变换装技术Outfit Anyone、角色动画模型Animate Anyone等技术,实现多个场景应用。
今年1月26日,阿里推出的Qwen-VL模型实现多次迭代升级,并宣布 Plus 和 Max 两大版本升级,支持以图像、文本作为输入,并以文本、图像、检测框作为输出,让大模型真正具备了“看”世界的能力。
阿里方面称,相比于开源版本的 Qwen-VL,Plus 和 Max 版本模型在多项图文多模态标准测试中获得了堪比 Gemini Ultra 和 GPT-4V 的水准,并大幅超越此前开源模型的最佳水平。
“在可见的未来,我们生活中所有习以为常的产品形态都会发生变化,会有更智能的下一代产品进入我们的生活。更多中小企业将通过AI化协同,灵活替代一部分目前只有大企业才能提供的服务。生产、制造、流通的组织方式和协作方式也会发生根本性变革。AI助理会无处不在,成为每个人工作、生活、学习中的助手。每个企业也都会配备AI助手,就像我们今天的智能汽车,辅助驾驶和自动驾驶已经成为标配。”吴泳铭称。
相关文章:

可让照片人物“开口说话”阿里图生视频模型EMO,高启强普法
3 月 1 日消息,阿里巴巴研究团队近日发布了一款名为“EMO(Emote Portrait Alive)”的 AI 框架,该框架号称可以用于“对口型”,只需要输入人物照片及音频,模型就能够让照片中的人物开口说出相关音频…...

全国产飞腾E2000Q +复旦微FPGA的轨道交通、电力解决方案
产品概述 ITX-XMF201是一款高性能边缘计算网关主板,采用飞腾E2000Q 4核处理器,国产化率达到95%国产化。 板载2电口,2路CAN,6路RS232接口,1路RS485接口,16路GPIO,可以满足银行、轨道交通、电力等…...
292.【华为OD机试】跳马问题(广度优先搜索(BFS)JavaPythonC++JS实现)
🚀点击这里可直接跳转到本专栏,可查阅顶置最新的华为OD机试宝典~ 本专栏所有题目均包含优质解题思路,高质量解题代码(Java&Python&C++&JS分别实现),详细代码讲解,助你深入学习,深度掌握! 文章目录 一. 题目二.解题思路三.题解代码Python题解代码JAVA题解…...

Qt 中Qwidget相关属性
文章目录 1. QWidget 核心属性1.1 enabled1.2 geometry1.2.1 window frame 的影响 1.3 windowTitle1.4 windowIcon1.4.1 qrc的使用 1.5 windowOpacity1.6 cursor1.7 focusPolicy1.8 styleSheet 1. QWidget 核心属性 在 Qt 中, 使⽤ QWidget 类表⽰ “控件”. 像按钮, 视图, 输…...

matplotlib散点图
matplotlib散点图 假设通过爬虫你获取到了北京2016年3, 10月份每天白天的最高气温(分别位于列表a, b), 那么此时如何寻找出气温和随时间(天)变化的某种规律? from matplotlib import pyplot as pltx_3 range(1, 32) x_10 range(51, 82)y_3 [11,17,16,11,12,11,12,6,6,7,8…...

day32贪心算法 part02
贪心系列的时候,题目和题目之间貌似没有什么联系,是真的就是没什么联系,因为贪心无套路,没有个整体的贪心框架解决一系列问题,只能是接触各种类型的题目锻炼自己的贪心思维。贪心只是一类题的统称,并没有什么固定套路。 122. 买卖…...
判断docker 镜像启动成功 shell脚本
要编写一个Shell脚本来判断Docker镜像是否启动成功,你可以使用docker ps命令来检查容器是否在运行状态。以下是一个简单的Shell脚本示例,用于判断Docker镜像是否成功启动: #!/bin/bash# 指定要检查的容器名称或ID CONTAINER_NAME"your_c…...
Android AppCompatActivity 方法详解
在 Android 开发中,AppCompatActivity 是一个常用的类,它提供了对新版 Android 特性在旧版 Android 上的兼容支持。作为 Android 支持库的一部分,它通常被用作活动(Activity)的基类。下面我们将介绍 AppCompatActivity…...
[FastDDS] 基于eProsima FastDDS的移动机器人数据中间件——介绍与准备工作
[FastDDS] 基于eProsima FastDDS的移动机器人数据中间件——介绍与准备工作 注明:无 本栏目主要讲述,基于eProsima FastDDS的移动机器人数据中间件的实现、使用、性能测试。 What is [ FastDDS ]: eProsima Fast DDS是DDS(数据分发服务&…...

4. 编写app组件
1. 代码 main.ts // 引入createApp用于创建应用 import {createApp} from "vue"// 引入App根组件 import App from ./App.vue createApp(App).mount(#app) App.vue <!-- vue文件可以写三种标签1. template标签,写html结构2. script 脚本标签&…...

经典的算法面试题(1)
题目: 给定一个整数数组 nums,编写一个算法将所有的0移到数组的末尾,同时保持非零元素的相对顺序。 示例: 输入: [0,1,0,3,12] 输出: [1,3,12,0,0] 注意:必须在原数组上操作,不能拷贝额外的数组。尽量减少操作次数。 这…...
微信小程序 --- mobx-miniprogram miniprogram-computed
1.1 mobx-miniprogram 介绍 目前已经学习了 6 种小程序页面、组件间的数据通信方案,分别是: 数据绑定:properties获取组件实例:this.selectComponent()事件绑定:this.triggerEvent()获取应用实例:getApp(…...

【HTML】HTML基础2(一些常用标签)
目录 例子 首先是网页图标 然后是一些常用标签 插入图片 例子 <!DOCTYPE html> <html><head><link rel"icon" href"img/银河护卫队-星爵.png" type"image/x-icon"><meta charset"utf-8"><title>…...

Jmeter 安装
JMeter是Java的框架,因此在安装Jmeter前需要先安装JDK,此处安装以Windows版为例 1. 安装jdk:Java Downloads | Oracle 安装完成后设置环境变量 将环境变量JAVA_HOME设置为 C:\Program Files\Java\jdk1.7.0_25 在系统变量Path中添加 C:\Pro…...

控制液压比例插装阀放大器
比例阀放大器接收来自控制器的低功率电信号,并将其转换为足以驱动比例阀的高功率信号。与传统的开关型电磁铁不同,比例电磁铁可以实现连续控制,允许阀门在开和关之间进行无级调节,从而实现更精细的流量和压力控制。一个完整的电液…...

[设计模式Java实现附plantuml源码~行为型]定义算法的框架——模板方法模式
前言: 为什么之前写过Golang 版的设计模式,还在重新写Java 版? 答:因为对于我而言,当然也希望对正在学习的大伙有帮助。Java作为一门纯面向对象的语言,更适合用于学习设计模式。 为什么类图要附上uml 因为很…...
nftables 测试一拒绝所有流量
要配置 nftables 先拒绝所有流量,然后再添加允许的规则,您可以按照以下步骤操作: 创建一个空的 nftables 配置文件(例如 /etc/nftables.conf)并添加如下内容: flush rulesettable inet filter {chain input…...

练习 3 Web [ACTF2020 新生赛]Upload
[ACTF2020 新生赛]Upload1 中间有上传文件的地方,试一下一句话木马 txt 不让传txt 另存为tlyjpg,木马文件上传成功 给出了存放目录: Upload Success! Look here~ ./uplo4d/06a9d80f64fded1e542a95e6d530c70a.jpg 下一步尝试改木马文件后缀…...
Linux中docker项目提示No such file or directory
本来以为是文件权限问题,后来发现是个非常蠢的问题 文件没有映射到容器中 docker文件映射语法 Docker 使用 -v 或 --volume 参数来指定文件映射。 增加在运行命令后 -v <宿主机目录>:<容器目录> 其中,宿主机目录 是指要映射的宿主机上的…...
PyTorch 中的 apply
Abstract nn.Module[List].apply(callable)Tensor.apply_(callable) → TensorFunction.apply(Tensor...) nn.Module[List].apply()? 源码: def apply(self: T, fn: Callable[[Module], None]) -> T:"""Typical use includes initializing the paramete…...
MySQL 隔离级别:脏读、幻读及不可重复读的原理与示例
一、MySQL 隔离级别 MySQL 提供了四种隔离级别,用于控制事务之间的并发访问以及数据的可见性,不同隔离级别对脏读、幻读、不可重复读这几种并发数据问题有着不同的处理方式,具体如下: 隔离级别脏读不可重复读幻读性能特点及锁机制读未提交(READ UNCOMMITTED)允许出现允许…...

ESP32读取DHT11温湿度数据
芯片:ESP32 环境:Arduino 一、安装DHT11传感器库 红框的库,别安装错了 二、代码 注意,DATA口要连接在D15上 #include "DHT.h" // 包含DHT库#define DHTPIN 15 // 定义DHT11数据引脚连接到ESP32的GPIO15 #define D…...

新能源汽车智慧充电桩管理方案:新能源充电桩散热问题及消防安全监管方案
随着新能源汽车的快速普及,充电桩作为核心配套设施,其安全性与可靠性备受关注。然而,在高温、高负荷运行环境下,充电桩的散热问题与消防安全隐患日益凸显,成为制约行业发展的关键瓶颈。 如何通过智慧化管理手段优化散…...

从零实现STL哈希容器:unordered_map/unordered_set封装详解
本篇文章是对C学习的STL哈希容器自主实现部分的学习分享 希望也能为你带来些帮助~ 那咱们废话不多说,直接开始吧! 一、源码结构分析 1. SGISTL30实现剖析 // hash_set核心结构 template <class Value, class HashFcn, ...> class hash_set {ty…...
MySQL 8.0 事务全面讲解
以下是一个结合两次回答的 MySQL 8.0 事务全面讲解,涵盖了事务的核心概念、操作示例、失败回滚、隔离级别、事务性 DDL 和 XA 事务等内容,并修正了查看隔离级别的命令。 MySQL 8.0 事务全面讲解 一、事务的核心概念(ACID) 事务是…...

脑机新手指南(七):OpenBCI_GUI:从环境搭建到数据可视化(上)
一、OpenBCI_GUI 项目概述 (一)项目背景与目标 OpenBCI 是一个开源的脑电信号采集硬件平台,其配套的 OpenBCI_GUI 则是专为该硬件设计的图形化界面工具。对于研究人员、开发者和学生而言,首次接触 OpenBCI 设备时,往…...

在 Spring Boot 中使用 JSP
jsp? 好多年没用了。重新整一下 还费了点时间,记录一下。 项目结构: pom: <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://ww…...
LOOI机器人的技术实现解析:从手势识别到边缘检测
LOOI机器人作为一款创新的AI硬件产品,通过将智能手机转变为具有情感交互能力的桌面机器人,展示了前沿AI技术与传统硬件设计的完美结合。作为AI与玩具领域的专家,我将全面解析LOOI的技术实现架构,特别是其手势识别、物体识别和环境…...
【Elasticsearch】Elasticsearch 在大数据生态圈的地位 实践经验
Elasticsearch 在大数据生态圈的地位 & 实践经验 1.Elasticsearch 的优势1.1 Elasticsearch 解决的核心问题1.1.1 传统方案的短板1.1.2 Elasticsearch 的解决方案 1.2 与大数据组件的对比优势1.3 关键优势技术支撑1.4 Elasticsearch 的竞品1.4.1 全文搜索领域1.4.2 日志分析…...
6个月Python学习计划 Day 16 - 面向对象编程(OOP)基础
第三周 Day 3 🎯 今日目标 理解类(class)和对象(object)的关系学会定义类的属性、方法和构造函数(init)掌握对象的创建与使用初识封装、继承和多态的基本概念(预告) &a…...