当前位置: 首页 > news >正文

超越Hallo和AniPortrait?音频驱动肖像动画新方法LetsTalk

之前的文章中已经给大家介绍过许多关于音频驱动的肖像图像生成动画方法,感兴趣的小伙伴可以点击下面链接阅读~

复旦开源Hallo:只需输入一段音频和一张照片就可以让人物说话。

开源EMO再升级!复旦|百度|南大推出Hallo2:可以生成4K,一小时的音频驱动的视频。

继阿里EMO后,腾讯也提出了AniPortrait:用于生成由音频和参考肖像图像驱动的高质量动画

阿里最新EMO:只需要提供一张照片和一段音频,即可生成会说话唱歌的AI视频

告别大头娃娃,东京大学开源数字人TANGO:能根据目标语音音频生成同步全身手势的视频。

LetsTalk是一种基于扩散的转换器,用于音频驱动的肖像图像动画。给定单个参考图像和音频,LetsTalks 可以生成与输入音频一致的逼真的视频。LetsTalk 可以为输入音频驱动一致且合理的嘴部运动。与目前主流的基于扩散的方法(如 Hallo 和 AniPortrait)相比,LetsTalk 在实现最佳质量的同时还具有很高的推理效率。此外,基础版本LetsTalk-B仅使用少 8 倍的参数就实现了与 Hallo 相似的性能。

相关链接

  • 论文:http://arxiv.org/abs/2411.16748v1

  • 代码:https://github.com/zhang-haojie/letstalk

  • 主页:https://zhang-haojie.github.io/project-pages/letstalk.html

论文阅读

摘要

使用音频的肖像图像动画发展迅速,使得创建越来越逼真和富有表现力的动画面部成为可能。这种多模态引导的视频生成任务的挑战在于融合各种模态,同时确保时间和肖像的一致性。

为了应对这些挑战,论文提出了用于说话视频合成方法LetsTalk,这是一种扩散变换器,它结合了模块化的时间和空间注意机制来合并多模态并增强时空一致性。为了处理多模态条件,论文首先总结了三种融合方案,从浅融合到深度融合紧凑性,并彻底探索它们的影响和适用性。然后,根据图像、音频和视频生成的模态差异提出合适的解决方案。

  • 对于肖像,利用深度融合方案(Symbiotic Fusion)来确保肖像的一致性。

  • 对于音频,论文实现了浅融合方案(Direct Fusion)来实现音频动画对齐,同时保持多样性。

实验表明,该方法可以生成时间连贯、逼真的视频,并且具有增强的多样性和生动性。

方法

方法概述(a)和设计的 Transformer 块的说明(b)。 为了更好地说明,在(b)中省略了时间步编码器和 Layer Norm。LetsTalk 集成了配备时间和空间注意模块的 Transformer 块,旨在捕捉帧内空间细节并建立跨时间步骤的时间对应关系。获得肖像和音频嵌入后,使用 Symbiotic Fusion 融合肖像嵌入,使用 Direct Fusion 融合音频嵌入。值得注意的是,论文沿帧轴重复肖像嵌入,使其具有与噪声嵌入相同的形状。

三种多模态融合方案的说明,提出的 Transformer 主干由左侧的块组成。

  • 直接融合。将条件直接输入到每个块的交叉注意模块中;

  • 孪生融合。维护类似的 Transformer 并将条件输入其中,提取相应的特征来指导主干中的特征;

  • 共生融合。在开始时将模态与输入连接起来,然后将其输入到主干中,通过固有的自注意机制实现融合。

结果

在HDTF数据集上与其他前沿方法的定性比较。论文的方法实现了更好的音频动画对齐(例如嘴唇运动),并产生了富有表现力的结果。

与CelebV-HQ数据集上现有的肖像图像动画方法进行定性比较。论文的方法实现了更好的肖像一致性。

结论

LetsTalk是一种新颖的多模态引导扩散变换器,可使用音频输入实现卓越的音频驱动肖像动画效果。LetsTalk将模块化时空注意机制引入到变换器主干中,以增强时间一致性。论文中总结了三种处理多模态的融合方案,并深入分析了它们的影响。然后分别采用输入参考肖像和音频的最佳融合方案。大量实验证明了 LetsTalk 在实现最先进的肖像动画效果方面的有效性,并在性能和有效载荷之间取得了良好的平衡。

相关文章:

超越Hallo和AniPortrait?音频驱动肖像动画新方法LetsTalk

之前的文章中已经给大家介绍过许多关于音频驱动的肖像图像生成动画方法,感兴趣的小伙伴可以点击下面链接阅读~ 复旦开源Hallo:只需输入一段音频和一张照片就可以让人物说话。 开源EMO再升级!复旦|百度|南大推出Hallo2:可以生成4…...

手机LCD分区刷新技术介绍

分区刷新也称为分区变频,LCD分区刷新功能的目的是将屏幕分为上下半区,分区显示不同帧率,上方区块High Frame Rate,下方区块Low Frame Rate。使用者可以动态自定义上方高刷显示区的结尾位置。 当前的智能手机屏幕上,显示…...

WPF软件花屏的解决方法

Win10操作系统更新后,软件花屏了! WPF为啥还能出现花屏呢? 花屏是个什么现象? 即:WPF的界面不能正确渲染或及时刷新,导致整个界面会出现严重的残影,严重影响使用。 如果存在花屏&#xff0c…...

深度学习笔记——模型压缩和优化技术(蒸馏、剪枝、量化)

本文详细介绍模型训练完成后的压缩和优化技术:蒸馏、剪枝、量化。 文章目录 1. 知识蒸馏 (Knowledge Distillation)基本概念工作流程关键技术类型应用场景优势与挑战优势挑战 总结 2. 权重剪枝 (Model Pruning)基本原理二分类1. 非结构化剪枝(Unstructur…...

开发手札:Win+Mac下工程多开联调

最近完成一个Windows/Android/IOS三端多人网络协同项目V1.0版本,进入测试流程了。为了方便自测,需要用unity将一个工程打开多次,分别是Win/IOS/Android版本,进行多角色联调。 在Win开发机上,以Windows版本为主版…...

项目基于oshi库快速搭建一个cpu监控面板

后端&#xff1a; <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><dependency><groupId>com.github.oshi</groupId><artifactId>oshi-…...

【c语言】指针3

1、字符指针变量 指针类型中我们知道有一种为字符指针char*的指针类型&#xff0c;其使用方法如下&#xff1a; 上面我们是先将字符使用一个变量&#xff0c;然后将变量的地址传给一个字符指针变量&#xff0c;通过指针变 量实现了对这个字符的打印。还有下面的这种…...

【开源】A063—基于Spring Boot的农产品直卖平台的设计与实现

&#x1f64a;作者简介&#xff1a;在校研究生&#xff0c;拥有计算机专业的研究生开发团队&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的网站项目。 代码可以查看项目链接获取⬇️&#xff0c;记得注明来意哦~&#x1f339; 赠送计算机毕业设计600个选题ex…...

Can‘t find variable: token(token is not defined)

文章目录 例子 1&#xff1a;使用 var例子 2&#xff1a;使用 let 或 const例子 3&#xff1a;异步操作你的代码中的情况 Cant find variable: tokentoken is not defined源代码 // index.jsPage({data: {products:[],cardLayout: grid, // 默认卡片布局为网格模式isGrid: tr…...

【JavaEE 初阶】⽹络编程套接字

一、⽹络编程基础 1.应用层 操作系统提供的一组 api >socket api(传输层给应用层提供) 2.传输层 两个核心协议. TCPUDP 差别非常大,编写代码的时候,也是不同的风格 因此, socket api 提供了两套 TCP 有连接, 可靠传输, 面向字节流, 全双工 UDP …...

【Linux内核】Hello word程序

创建测试目录 mkdir -p ~/develop/kernel/hello-1 cd ~/develop/kernel/hello-1 创建MakeFile文件和内核.c文件 nano Makefile nano hello-1.c 编写内容 /* * hello-1.c - The simplest kernel module. */ #include <linux/module.h> /* Needed by all modules */…...

PHP 与 MySQL 搭配的优势

一、PHP 与 MySQL 搭配的优势 强大的动态网页开发能力 PHP 是一种服务器端脚本语言&#xff0c;能够生成动态网页内容。它可以根据用户的请求、数据库中的数据等因素&#xff0c;实时地生成 HTML 页面返回给客户端浏览器。而 MySQL 是一个流行的关系型数据库管理系统&#xf…...

深入浅出:PHP中的变量与常量全解析

文章目录 引言理解变量普通变量赋值操作变量间赋值引用赋值取消引用 可变变量预定义变量 理解常量声明常量使用define()函数const关键字 使用常量预定义常量 扩展话题&#xff1a;作用域与生命周期实战案例总结与展望参考资料 引言 在编程的世界里&#xff0c;变量和常量是两种…...

初步简单的理解什么是库,什么是静态库,什么是动态库

库是什么 库根据名字我们应该很容易理解&#xff0c;在我们日常生活种&#xff0c;包含库的东西有很多&#xff0c;像仓库&#xff0c;库房那些&#xff0c;库是拿来存放&#xff0c;方便管理东西的&#xff0c;在我们编程当中&#xff0c;库的定义也是如此 那么为什么要有库…...

从ctfwiki开始的pwn之旅 3.ret2syscall

ret2syscall 原理 ret2syscall&#xff0c;即控制程序执行系统调用&#xff0c;获取 shell。 那么ret2text——程序中有system("/bin/sh")代码段&#xff0c;控制流执行 那么ret2shellcode——程序中不存在system("/bin/sh/")的代码段&#xff0c;自己…...

使用 httputils + protostuff 实现高性能 rpc

1、先讲讲 protostuf protostuf 一直是高性能序列化的代表之一。但是用起来&#xff0c;可难受了&#xff0c;你得先申明 protostuf 配置文件&#xff0c;并且要把这个配置文件转成类。所以必然要学习新语法、新工具。 可能真的太难受了&#xff01;于是乎&#xff0c;&#…...

系统思考—战略共识

最近与和一位企业创始人深度交流时&#xff0c;他告诉我&#xff1a;“虽然公司在制定战略时总是非常明确&#xff0c;但在执行过程中&#xff0c;经常发现不同层级对战略的理解偏差&#xff0c;甚至部分团队的执行效果与预期大相径庭。每次开会讨论时&#xff0c;大家都说得头…...

Java版-速通数据结构-树基础知识

现在面试问mysql,红黑树好像都是必备问题了。动不动就让手写红黑树或者简单介绍下红黑树。然而&#xff0c;我们如果直接去看红黑树&#xff0c;可能会一下子蒙了。在看红黑树之前&#xff0c;需要先了解下树的基础知识&#xff0c;从简单到复杂&#xff0c;看看红黑树是在什么…...

详尽的oracle sql函数

1&#xff0c;CHR 输入整数&#xff0c;返回对应字符。 用法&#xff1a;select chr(65),chr(78) from dual; 2&#xff0c;ASCII 输入字符&#xff0c;返回对应ASCII码。 用法&#xff1a;select ascii(A),ascii(B) from dual; 3&#xff0c;CONCAT 输入两个字符串&#xff0c…...

SAP IDOC Error VG205

今天在做IDOC 入栈处理销售订单的时候&#xff0c;一直报错VG205 There is no article description for item 000030 这个问题在通过WE19 前台显示的时候就不会遇见&#xff0c; 只有在接口传输的时候才会遇到 搜索发现&#xff0c;可以通过配置忽略此消息号 配置路径如下…...

基于AI的测试用例自动生成:效果与局限

随着人工智能技术的飞速发展与在软件工程领域的深度融合&#xff0c;测试用例自动生成正经历一场深刻的变革。传统的测试用例设计高度依赖测试工程师的经验与手工劳动&#xff0c;面临效率瓶颈、覆盖率不足、维护成本高昂等诸多挑战。以机器学习、自然语言处理、知识图谱等为代…...

Pixel Epic在MBA教学中的应用:学生用像素界面完成商业计划书作业案例

Pixel Epic在MBA教学中的应用&#xff1a;学生用像素界面完成商业计划书作业案例 1. 引言&#xff1a;当商业教育遇上像素冒险 在传统MBA教学中&#xff0c;商业计划书撰写往往是让学生头疼的作业任务。学生们需要花费大量时间收集数据、分析市场、构建财务模型&#xff0c;最…...

开源可部署剧本AI|像素剧本圣殿镜像免配置+Qwen2.5本地化教程

开源可部署剧本AI&#xff5c;像素剧本圣殿镜像免配置Qwen2.5本地化教程 1. 像素剧本圣殿简介 Pixel Script Temple&#xff08;像素剧本圣殿&#xff09;是一款基于Qwen2.5-14B-Instruct模型深度微调的专业剧本创作工具。这个开源项目将强大的AI推理能力与独特的8-Bit复古美…...

颠覆式Alienware设备控制:500KB轻量工具实现10倍性能提升与个性化体验

颠覆式Alienware设备控制&#xff1a;500KB轻量工具实现10倍性能提升与个性化体验 【免费下载链接】alienfx-tools Alienware systems lights, fans, and power control tools and apps 项目地址: https://gitcode.com/gh_mirrors/al/alienfx-tools 当你启动Alienware电…...

AI仿真人剧服务商2025推荐,前沿技术与创新体验结合

AI仿真人剧服务商2025推荐&#xff0c;前沿技术与创新体验结合随着科技的不断进步&#xff0c;AI仿真人剧服务在2025年迎来了爆发式增长。越来越多的企业和个人开始关注这一领域&#xff0c;希望通过AI技术实现更高效、更高质量的内容创作。本文将为大家推荐一家在2025年表现卓…...

项目经理的最高境界,是学会“睁一只眼闭一只眼”

在项目管理圈子里&#xff0c;流行着一种近乎悖论的说法&#xff1a;一个真正优秀的项目经理&#xff0c;往往不是那些事无巨细、火眼金睛的“细节狂魔”&#xff0c;而是懂得适时“睁一只眼闭一只眼”的“智慧型管理者”。 这听起来似乎与PMP&#xff08;项目管理专业人士&…...

BilibiliDown:三步搞定B站视频下载,支持批量收藏夹与UP主作品批量保存

BilibiliDown&#xff1a;三步搞定B站视频下载&#xff0c;支持批量收藏夹与UP主作品批量保存 【免费下载链接】BilibiliDown (GUI-多平台支持) B站 哔哩哔哩 视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader &#x1f633; 项目地址: https:…...

终极Fluxion数组操作指南:掌握ArrayUtils.sh提升脚本效率的10个技巧

终极Fluxion数组操作指南&#xff1a;掌握ArrayUtils.sh提升脚本效率的10个技巧 【免费下载链接】fluxion Fluxion is a remake of linset by vk496 with enhanced functionality. 项目地址: https://gitcode.com/gh_mirrors/fl/fluxion Fluxion作为一款功能强大的网络工…...

突破B站缓存限制:m4s-converter让视频资源自由流动

突破B站缓存限制&#xff1a;m4s-converter让视频资源自由流动 【免费下载链接】m4s-converter 一个跨平台小工具&#xff0c;将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 在数字内容爆炸的时代&#xff0c…...

新手零基础入门:用快马AI生成你的第一个互联网个人主页

作为一个刚接触编程的新手&#xff0c;想要制作个人主页却不知从何下手是很常见的情况。最近我在InsCode(快马)平台上尝试用AI生成我的第一个网页&#xff0c;整个过程比想象中简单很多&#xff0c;特别适合零基础入门。下面分享我的学习过程和收获。 明确需求很关键 在开始前&…...