可让照片人物“开口说话”阿里图生视频模型EMO,高启强普法
3 月 1 日消息,阿里巴巴研究团队近日发布了一款名为“EMO(Emote Portrait Alive)”的 AI 框架,该框架号称可以用于“对口型”,只需要输入人物照片及音频,模型就能够让照片中的人物开口说出相关音频,支持中英韩等语言。

据悉,EMO 基于英伟达的 Audio2Video 扩散模型打造,号称使用了超过 250 小时的专业视频进行训练,从而得到了相关 AI 框架。
注意到,研究团队分享了几段由 EMO 框架生成的 DEMO 演示片段,并在 ArXiv 上发布了模型的工作原理,感兴趣的小伙伴也可以访问 GitHub 查看项目。

据介绍,该框架工作过程分为两个主要阶段,研究人员首先利用参考网络(ReferenceNet)从参考图像和动作帧中提取特征,之后利用预训练的音频编码器处理声音并嵌入,再结合多帧噪声和面部区域掩码来生成视频,该框架还融合了两种注意机制和时间模块,以确保视频中角色身份的一致性和动作的自然流畅。
研究人员援引一系列实验结果,声称 EMO 不仅能够产生令人信服的说话视频,还能生成各种风格的歌唱视频,号称“显著优于目前的 DreamTalk、Wav2Lip、SadTalker 等竞品”。
据悉,你只需要提供一张照片和一段任意音频文件,EMO即可生成会说话唱歌的 AI 视频,以及实现无缝对接的动态小视频,最长时间可达1分30秒左右。表情非常到位,任意语音、任意语速、任意图像都可以一一对应。
比如,《狂飙》电视剧中“高启强”畅谈罗翔普法;蔡徐坤的一张图片,就能通过其他音频配合“唱出”一首rapper饶舌,连口型都几乎一模一样;甚至前不久OpenAI发布的Sora案例视频里面,一位 AI 生成的带墨镜的日本街头女主角,现在不仅能让她开口说话,而且还能唱出好听的歌曲。

阿里研究团队表示,EMO可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频,同时,其可以根据输入视频的长度生成任意持续时间的视频。
同时,EMO还拥有音频驱动的人像视频生成,表情丰富的动态渲染,多种头部转向姿势支持、增加视频的动态性和真实感,支持多种语言和肖像风格,快速节奏同步,跨演员表现转换等多个特点与功能。

技术层面,阿里研究人员分享称,EMO框架使用 Audio2Video 扩散模型,生成富有表现力的人像视频。
该技术主要包括三个阶段:一是帧编码的初始阶段,ReferenceNet 用于从参考图像和运动帧中提取特征;二是在扩散过程阶段,预训练的音频编码器处理音频嵌入。面部区域掩模与多帧噪声集成以控制面部图像的生成;三是使用主干网络来促进去噪操作。在主干网络中,应用了两种形式——参考注意力和音频注意力机制,这些机制分别对于保留角色的身份和调节角色的动作至关重要。此外,EMO的时间模块用于操纵时间维度,并调整运动速度。
目前,EMO框架上线到GitHub中,相关论文也在arxiv上公开。
GitHub:https://github.com/HumanAIGC/EMO
论文:https://arxiv.org/abs/2402.17485
事实上,过去一年,阿里巴巴在 AI 方面持续发力,包括阿里云推出通义千问、通义万相等多款对标 OpenAI 的 AI 大模型产品,以及基于双流条件扩散模型的真人百变换装技术Outfit Anyone、角色动画模型Animate Anyone等技术,实现多个场景应用。
今年1月26日,阿里推出的Qwen-VL模型实现多次迭代升级,并宣布 Plus 和 Max 两大版本升级,支持以图像、文本作为输入,并以文本、图像、检测框作为输出,让大模型真正具备了“看”世界的能力。
阿里方面称,相比于开源版本的 Qwen-VL,Plus 和 Max 版本模型在多项图文多模态标准测试中获得了堪比 Gemini Ultra 和 GPT-4V 的水准,并大幅超越此前开源模型的最佳水平。
“在可见的未来,我们生活中所有习以为常的产品形态都会发生变化,会有更智能的下一代产品进入我们的生活。更多中小企业将通过AI化协同,灵活替代一部分目前只有大企业才能提供的服务。生产、制造、流通的组织方式和协作方式也会发生根本性变革。AI助理会无处不在,成为每个人工作、生活、学习中的助手。每个企业也都会配备AI助手,就像我们今天的智能汽车,辅助驾驶和自动驾驶已经成为标配。”吴泳铭称。
相关文章:
可让照片人物“开口说话”阿里图生视频模型EMO,高启强普法
3 月 1 日消息,阿里巴巴研究团队近日发布了一款名为“EMO(Emote Portrait Alive)”的 AI 框架,该框架号称可以用于“对口型”,只需要输入人物照片及音频,模型就能够让照片中的人物开口说出相关音频…...
全国产飞腾E2000Q +复旦微FPGA的轨道交通、电力解决方案
产品概述 ITX-XMF201是一款高性能边缘计算网关主板,采用飞腾E2000Q 4核处理器,国产化率达到95%国产化。 板载2电口,2路CAN,6路RS232接口,1路RS485接口,16路GPIO,可以满足银行、轨道交通、电力等…...
292.【华为OD机试】跳马问题(广度优先搜索(BFS)JavaPythonC++JS实现)
🚀点击这里可直接跳转到本专栏,可查阅顶置最新的华为OD机试宝典~ 本专栏所有题目均包含优质解题思路,高质量解题代码(Java&Python&C++&JS分别实现),详细代码讲解,助你深入学习,深度掌握! 文章目录 一. 题目二.解题思路三.题解代码Python题解代码JAVA题解…...
Qt 中Qwidget相关属性
文章目录 1. QWidget 核心属性1.1 enabled1.2 geometry1.2.1 window frame 的影响 1.3 windowTitle1.4 windowIcon1.4.1 qrc的使用 1.5 windowOpacity1.6 cursor1.7 focusPolicy1.8 styleSheet 1. QWidget 核心属性 在 Qt 中, 使⽤ QWidget 类表⽰ “控件”. 像按钮, 视图, 输…...
matplotlib散点图
matplotlib散点图 假设通过爬虫你获取到了北京2016年3, 10月份每天白天的最高气温(分别位于列表a, b), 那么此时如何寻找出气温和随时间(天)变化的某种规律? from matplotlib import pyplot as pltx_3 range(1, 32) x_10 range(51, 82)y_3 [11,17,16,11,12,11,12,6,6,7,8…...
day32贪心算法 part02
贪心系列的时候,题目和题目之间貌似没有什么联系,是真的就是没什么联系,因为贪心无套路,没有个整体的贪心框架解决一系列问题,只能是接触各种类型的题目锻炼自己的贪心思维。贪心只是一类题的统称,并没有什么固定套路。 122. 买卖…...
判断docker 镜像启动成功 shell脚本
要编写一个Shell脚本来判断Docker镜像是否启动成功,你可以使用docker ps命令来检查容器是否在运行状态。以下是一个简单的Shell脚本示例,用于判断Docker镜像是否成功启动: #!/bin/bash# 指定要检查的容器名称或ID CONTAINER_NAME"your_c…...
Android AppCompatActivity 方法详解
在 Android 开发中,AppCompatActivity 是一个常用的类,它提供了对新版 Android 特性在旧版 Android 上的兼容支持。作为 Android 支持库的一部分,它通常被用作活动(Activity)的基类。下面我们将介绍 AppCompatActivity…...
[FastDDS] 基于eProsima FastDDS的移动机器人数据中间件——介绍与准备工作
[FastDDS] 基于eProsima FastDDS的移动机器人数据中间件——介绍与准备工作 注明:无 本栏目主要讲述,基于eProsima FastDDS的移动机器人数据中间件的实现、使用、性能测试。 What is [ FastDDS ]: eProsima Fast DDS是DDS(数据分发服务&…...
4. 编写app组件
1. 代码 main.ts // 引入createApp用于创建应用 import {createApp} from "vue"// 引入App根组件 import App from ./App.vue createApp(App).mount(#app) App.vue <!-- vue文件可以写三种标签1. template标签,写html结构2. script 脚本标签&…...
经典的算法面试题(1)
题目: 给定一个整数数组 nums,编写一个算法将所有的0移到数组的末尾,同时保持非零元素的相对顺序。 示例: 输入: [0,1,0,3,12] 输出: [1,3,12,0,0] 注意:必须在原数组上操作,不能拷贝额外的数组。尽量减少操作次数。 这…...
微信小程序 --- mobx-miniprogram miniprogram-computed
1.1 mobx-miniprogram 介绍 目前已经学习了 6 种小程序页面、组件间的数据通信方案,分别是: 数据绑定:properties获取组件实例:this.selectComponent()事件绑定:this.triggerEvent()获取应用实例:getApp(…...
【HTML】HTML基础2(一些常用标签)
目录 例子 首先是网页图标 然后是一些常用标签 插入图片 例子 <!DOCTYPE html> <html><head><link rel"icon" href"img/银河护卫队-星爵.png" type"image/x-icon"><meta charset"utf-8"><title>…...
Jmeter 安装
JMeter是Java的框架,因此在安装Jmeter前需要先安装JDK,此处安装以Windows版为例 1. 安装jdk:Java Downloads | Oracle 安装完成后设置环境变量 将环境变量JAVA_HOME设置为 C:\Program Files\Java\jdk1.7.0_25 在系统变量Path中添加 C:\Pro…...
控制液压比例插装阀放大器
比例阀放大器接收来自控制器的低功率电信号,并将其转换为足以驱动比例阀的高功率信号。与传统的开关型电磁铁不同,比例电磁铁可以实现连续控制,允许阀门在开和关之间进行无级调节,从而实现更精细的流量和压力控制。一个完整的电液…...
[设计模式Java实现附plantuml源码~行为型]定义算法的框架——模板方法模式
前言: 为什么之前写过Golang 版的设计模式,还在重新写Java 版? 答:因为对于我而言,当然也希望对正在学习的大伙有帮助。Java作为一门纯面向对象的语言,更适合用于学习设计模式。 为什么类图要附上uml 因为很…...
nftables 测试一拒绝所有流量
要配置 nftables 先拒绝所有流量,然后再添加允许的规则,您可以按照以下步骤操作: 创建一个空的 nftables 配置文件(例如 /etc/nftables.conf)并添加如下内容: flush rulesettable inet filter {chain input…...
练习 3 Web [ACTF2020 新生赛]Upload
[ACTF2020 新生赛]Upload1 中间有上传文件的地方,试一下一句话木马 txt 不让传txt 另存为tlyjpg,木马文件上传成功 给出了存放目录: Upload Success! Look here~ ./uplo4d/06a9d80f64fded1e542a95e6d530c70a.jpg 下一步尝试改木马文件后缀…...
Linux中docker项目提示No such file or directory
本来以为是文件权限问题,后来发现是个非常蠢的问题 文件没有映射到容器中 docker文件映射语法 Docker 使用 -v 或 --volume 参数来指定文件映射。 增加在运行命令后 -v <宿主机目录>:<容器目录> 其中,宿主机目录 是指要映射的宿主机上的…...
PyTorch 中的 apply
Abstract nn.Module[List].apply(callable)Tensor.apply_(callable) → TensorFunction.apply(Tensor...) nn.Module[List].apply()? 源码: def apply(self: T, fn: Callable[[Module], None]) -> T:"""Typical use includes initializing the paramete…...
iOS 26 携众系统重磅更新,但“苹果智能”仍与国行无缘
美国西海岸的夏天,再次被苹果点燃。一年一度的全球开发者大会 WWDC25 如期而至,这不仅是开发者的盛宴,更是全球数亿苹果用户翘首以盼的科技春晚。今年,苹果依旧为我们带来了全家桶式的系统更新,包括 iOS 26、iPadOS 26…...
LeetCode - 394. 字符串解码
题目 394. 字符串解码 - 力扣(LeetCode) 思路 使用两个栈:一个存储重复次数,一个存储字符串 遍历输入字符串: 数字处理:遇到数字时,累积计算重复次数左括号处理:保存当前状态&a…...
JVM垃圾回收机制全解析
Java虚拟机(JVM)中的垃圾收集器(Garbage Collector,简称GC)是用于自动管理内存的机制。它负责识别和清除不再被程序使用的对象,从而释放内存空间,避免内存泄漏和内存溢出等问题。垃圾收集器在Ja…...
2021-03-15 iview一些问题
1.iview 在使用tree组件时,发现没有set类的方法,只有get,那么要改变tree值,只能遍历treeData,递归修改treeData的checked,发现无法更改,原因在于check模式下,子元素的勾选状态跟父节…...
如何将联系人从 iPhone 转移到 Android
从 iPhone 换到 Android 手机时,你可能需要保留重要的数据,例如通讯录。好在,将通讯录从 iPhone 转移到 Android 手机非常简单,你可以从本文中学习 6 种可靠的方法,确保随时保持连接,不错过任何信息。 第 1…...
TRS收益互换:跨境资本流动的金融创新工具与系统化解决方案
一、TRS收益互换的本质与业务逻辑 (一)概念解析 TRS(Total Return Swap)收益互换是一种金融衍生工具,指交易双方约定在未来一定期限内,基于特定资产或指数的表现进行现金流交换的协议。其核心特征包括&am…...
在鸿蒙HarmonyOS 5中使用DevEco Studio实现录音机应用
1. 项目配置与权限设置 1.1 配置module.json5 {"module": {"requestPermissions": [{"name": "ohos.permission.MICROPHONE","reason": "录音需要麦克风权限"},{"name": "ohos.permission.WRITE…...
【HTTP三个基础问题】
面试官您好!HTTP是超文本传输协议,是互联网上客户端和服务器之间传输超文本数据(比如文字、图片、音频、视频等)的核心协议,当前互联网应用最广泛的版本是HTTP1.1,它基于经典的C/S模型,也就是客…...
关键领域软件测试的突围之路:如何破解安全与效率的平衡难题
在数字化浪潮席卷全球的今天,软件系统已成为国家关键领域的核心战斗力。不同于普通商业软件,这些承载着国家安全使命的软件系统面临着前所未有的质量挑战——如何在确保绝对安全的前提下,实现高效测试与快速迭代?这一命题正考验着…...
九天毕昇深度学习平台 | 如何安装库?
pip install 库名 -i https://pypi.tuna.tsinghua.edu.cn/simple --user 举个例子: 报错 ModuleNotFoundError: No module named torch 那么我需要安装 torch pip install torch -i https://pypi.tuna.tsinghua.edu.cn/simple --user pip install 库名&#x…...
