当前位置：首页 > news >正文

对标Gen-2！Meta发布新模型，进军文生视频赛道

news 2026/2/10 0:34:48

随着扩散模型的飞速发展，诞生了Midjourney、DALL·E 3、Stable Difusion等一大批出色的文生图模型。但在文生视频领域却进步缓慢，因为文生视频多数采用逐帧生成的方式,这类自回归方法运算效率低下、成本高。

即便使用先生成关键帧,再生成中间帧新方法。如何插值帧数,保证生成视频的连贯性也有很多技术难点。

科技、社交巨头Meta则提出了一种全新的文生视频模型Emu Video。该模型使用了分解式生成方法，先生成一张图像,再以该图像和文本作为条件生成视频，不仅生成的视频逼真符合文本描述，算力成本也非常低。

论文：https://emu-video.metademolab.com/assets/emu_video.pdf

在线demo：https://emu-video.metademolab.com/#/demo

Emu Video的核心技术创新在于，使用了分解式生成方法。之前,其他文生视频模型是直接从文本描述映射到高维视频空间。

但由于视频维度非常高,直接映射非常困难。Emu Video的策略是首先生成一张图像,然后以该图像和文本作为条件,生成随后的视频帧。

由于图像空间维度较低,生成第一帧更容易,然后生成后续帧只需要预测图像如何变化,这样整个任务难度很大程度降低。

技术流程方面, Emu Video利用先前训练好的文本到图像模型来固定空间参数,初始化视频模型。

然后仅需要训练时间参数来进行文本到视频任务。在训练时,模型以视频片段及相应文本描述作为样本进行学习。

在推理时,给定一段文本后,先用文本到图像部分生成第一帧图像,再输入该图像及文本到视频部分生成完整的视频。

文本到图像

Emu Video使用了一个训练好的文本到图像模型,可以生成很逼真的图片。为了让生成的图片更有创意,这个模型在海量的图像和文本描述进行预训练,学到了很多图像的风格，例如，朋克、素描、油画、彩绘等。

文本到图像模型采用了U-Net结构,包含编码器和解码器。编码器包含多层卷积块,并降采样获得较低分辨率的特征图。

解码器包含对称的上采样和卷积层,最终输出图像。两个文本编码器(T5和CLIP模型)被并行加入,分别对文本进行编码产生文本特征。

图像到视频

这个模块使用了跟文本到图像模块类似的结构,也是一个编码器-解码器结构。不同的是增加了处理时间信息的模块,也就是说可以学习如何把图片中的内容变化成一个视频。

在训练的过程中,研究人员输入一小段视频,随机抽取其中的一帧图片,让这个模块学习根据这张图片和对应的文本生成整段视频。

在实际使用时,先用第一个模块生成第一帧图片,然后输入这张图片和文本给第二个模块,让它生成整个视频。

这种分解的方法让第二个模块的任务变得比较简单,只需要预测图片会随着时间而怎么变化和运动,就可以生成流畅逼真的视频。

为了生成更高质量逼真的视频，研究人员进行了一些技术优化：1）采用零终端信噪比的散度噪声计划,能够直接生成高清视频,无需级联多个模型。之前的计划在训练和测试阶段信噪比存在偏差,导致生成质量下降。

2）利用预训练文本到图像模型固定参数,保留图像质量和多样性,生成第一帧时不需额外训练数据和计算成本。

3）设计多阶段训练策略,先在低分辨率训练快速采样视频信息,再在高分辨率进行微调,避免全程高分辨率的计算量大。

在人类评估中显示，Emu Video生成的4秒长视频比其他方法更具质量和遵循文本的要求。语义一致性超过86%,质量一致性超过91%,明显优于Gen-2、Pika Labs、Make-A Video等知名商业模型。

本文素材来源Meta官网，如有侵权请联系删除

对标Gen-2！Meta发布新模型，进军文生视频赛道

随着扩散模型的飞速发展，诞生了Midjourney、DALLE 3、Stable Difusion等一大批出色的文生图模型。但在文生视频领域却进步缓慢，因为文生视频多数采用逐帧生成的方式,这类自回归方法运算效率低下、成本高。即便使用先生成关键帧,再生成中间帧新方法。如…...

编程日记 2023/12/6 6:59:00

zabbix的自动发现机制、代理功能、SNMP监控

一、自动发现（不安全，有时会失效，建议手动添加主机） 1、定义 zabbix主动与服务端联系，将自己的地址和端口发送给服务端，实现自动添加监控主机客户端是主动的一方 2、缺点若自定义网段中主机数量太多…...

编程日记 2023/12/6 6:56:59

1、文件上传： Controller： PostMapping("/import")public void importImage(RequestPart("file") FilePart filePart) {imageService.importImage(filePart);}Service： public void importImage(FilePart filePart) {Fi…...

编程日记 2023/12/6 6:55:58

Android MVVM+coroutine+retrofit+flow+hilt

文章目录 Android MVVMcoroutineretrofitflowhilt概述依赖注入层数据层视图层模型视图层代码下载 Android MVVMcoroutineretrofitflowhilt 概述代码结构： 依赖注入层数据库： Module InstallIn(SingletonComponent::class) class DBModule {Singleto…...

编程日记 2023/12/6 6:54:57

elasticsearch副本和分片

1.文档冲突当我们使用index API更新文档，可以一次性读取修改索引副本 rootes-node3:~# curl -XPUT http://192.168.1.136:9200/es-syslog-2023.08.26/_settings -H "Content-Type: application/json" -d { > "settings": { > …...

编程日记 2023/12/6 6:51:54

【Python】zip

Python中的zip()函数可以将多个可迭代对象打包成一个元组序列，然后返回这些元组序列组成的迭代器。zip()函数的语法如下： zip(*iterables)其中，iterables是可迭代对象，可以是多个，也可以是一个。zip()函数将返回一个迭…...

编程日记 2023/12/6 6:45:49

西安安泰——ATA-1220E宽带放大器

ATA-1220E宽带放大器简介 ATA-1220E是一款可放大交直流信号的差分通道宽带放大器。其最大输出电压 60Vp-p(30Vp)，最大输出电流1Ap（>50Hz）。电压增益数控可调，一键保存设置，提供了方便简洁的操作选择，可…...

编程日记 2023/12/6 6:44:48

数据结构和算法专题---4、限流算法与应用

本章我们会对限流算法做个简单介绍，包括常用的限流算法（计数器、漏桶算法、令牌桶案发、滑动窗口）的概述、实现方式、典型场景做个说明。什么是限流算法限流是对系统的一种保护措施。即限制流量请求的频率（每秒处理多少个请求…...

编程日记 2023/12/6 6:42:46

亚信安慧AntDB受邀分享核心业务系统全域数据库替换实践

近日，亚信安慧AntDB数据库凭借丰富的核心业务系统升级替换能力和经验，受邀参与IT168组织的第三期“国产软硬件升级替换之路”的直播沙龙。亚信安慧AntDB数据库相关负责人发表《基于AntDB的CRM全域数据库替换实践》的精彩演讲，通过通信行业率…...

编程日记 2023/12/6 6:41:45

1.uniapp基础

1.uniapp基础官方文档：uni-app官网 1.1开发工具 （1）工具： HBuilderX HBuilderX-高效极客技巧 1.2 新建项目 （1） 文件》新建项目 （2）选择相应的配置信息，填写项目根路…...

编程日记 2023/12/6 6:40:44

typescript中的策略模式

typescript中的策略模式当我们需要以整洁、易于维护和易于调试的方式构建应用程序时，使用设计模式是一种非常好的方式。在本文中，我们的目标是阐明如何将策略模式无缝地集成到我们的应用程序中。如果我们熟悉依赖性注入，可能会发现策略模…...

编程日记 2023/12/6 6:38:42

Hadoop学习笔记（HDP）-Part.16 安装HBase

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …...

编程日记 2023/12/6 6:36:40

C语言练习记录（蓝桥杯练习）（小蓝数点）

目录小蓝数点第一题程序的输出结果是？: 第二题下面代码的执行结果是什么？: 第三题下面代码的执行结果是什么？: 第四题关于关系操作符说法错误的是？: 第五题对于下面代码段，y的值为？ 第六题sum 21 …...

编程日记 2023/12/6 6:34:38

RPG项目01_层级设置

基于“RPG项目01_UI面板Game”， 找到狼人添加组件，让狼人一定区域自动跟随主角进行攻击解释：【烘培蓝色】因为如果什么都不做就会被烘培成蓝色对应的功能就是可修改区域功能当将区域设置成不可行走状态，则不为蓝色烘培&…...

编程日记 2023/12/6 6:33:37

基于单片机的智能健康监测手环的设计

目录 1 绪论... 2 1.1 引言... 2 1.2 智能手环的国内外研究现状... 2 1.3 课题的研究意义... 3 1.4 本文的研究内容和章节安排... 4 2 智能手环系统设计方案... 5 2.1 系统总体设计方案... 5 2.2 主芯片选择... 5 2.3 显示方案的选择... 6 2.4 倾角传感器的选择... 6 2.5 心率…...

编程日记 2023/12/6 6:29:34

boost-字符串处理-判断-查找-裁剪-删除-替换-分割-合并

文章目录 1.判断1.1.equals1.2.all1.3.starts_with1.4.ends_with1.5.contains 2.大小写转换3.字符串删除4.字符串替换5.字符串查找6.字符串修剪7.字符串分割8.字符串合并9.总结 1.判断判别式函数和分类函数大多数都是以is_开头，这些函数如下： 判别式函…...

编程日记 2023/12/6 6:27:32

Django 开发 web 后端，好用过 SpringBoot ？

基础语法 Django（Python）：以简洁和直观著称。它允许更快的开发速度，特别适合快速迭代的项目。例如，一个简单的视图函数： from django.http import HttpResponsedef hello_world(request):return HttpRespon…...

编程日记 2023/12/6 6:25:30

【矩阵】54.螺旋矩阵（顺时针打印矩形元素）

题目 class Solution {public List<Integer> spiralOrder(int[][] matrix) {int m matrix.length, n matrix[0].length;int leftUpM 0, leftUpN 0, rightDownM m - 1, rightDownN n - 1;List<Integer> res new ArrayList<>();while (leftUpM < ri…...

编程日记 2023/12/6 6:24:29

【数据中台】开源项目（5）-Amoro

介绍 Amoro is a Lakehouse management system built on open data lake formats. Working with compute engines including Flink, Spark, and Trino, Amoro brings pluggable and self-managed features for Lakehouse to provide out-of-the-box data warehouse experience,…...

编程日记 2023/12/6 6:22:28

对标Gen-2！Meta发布新模型，进军文生视频赛道

相关文章：

对标Gen-2！Meta发布新模型，进军文生视频赛道

zabbix的自动发现机制、代理功能、SNMP监控

spring webflux文件上传与下载

Android MVVM+coroutine+retrofit+flow+hilt

elasticsearch副本和分片

【Python】zip

西安安泰——ATA-1220E宽带放大器

数据结构和算法专题---4、限流算法与应用

亚信安慧AntDB受邀分享核心业务系统全域数据库替换实践

1.uniapp基础

typescript中的策略模式

Hadoop学习笔记（HDP）-Part.16 安装HBase

C语言练习记录（蓝桥杯练习）（小蓝数点）

RPG项目01_层级设置

相关基础知识

基于单片机的智能健康监测手环的设计

boost-字符串处理-判断-查找-裁剪-删除-替换-分割-合并

Django 开发 web 后端，好用过 SpringBoot ？

【矩阵】54.螺旋矩阵（顺时针打印矩形元素）

【数据中台】开源项目（5）-Amoro

网络六边形受到攻击

云原生核心技术 (7/12): K8s 核心概念白话解读(上)：Pod 和 Deployment 究竟是什么？

K8S认证|CKS题库+答案| 11. AppArmor

PPT|230页| 制造集团企业供应链端到端的数字化解决方案：从需求到结算的全链路业务闭环构建

dedecms 织梦自定义表单留言增加ajax验证码功能

什么是库存周转？如何用进销存系统提高库存周转率？

Nuxt.js 中的路由配置详解

Maven 概述、安装、配置、仓库、私服详解

Android第十三次面试总结（四大组件基础）

Xen Server服务器释放磁盘空间