当前位置: 首页 > news >正文

Sora:视频生成模型作为世界模拟器

我们探索了视频数据上生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和长宽比的视频和图像上联合训练文本条件扩散模型。我们利用了一个在视频和图像潜在码的时空块上操作的变压器架构。我们规模最大的模型 Sora 能够生成一分钟的高保真视频。我们的结果表明,扩大视频生成模型的规模,是建立通用物理世界模拟器的一条有前景的途径。

Sora:一镜到底,惊艳了整个世界

本技术报告重点介绍(1)我们将各类视觉数据转化为统一表示的方法,使生成模型能够进行大规模训练,以及(2)对 Sora 的能力和局限性的定性评估。本报告未包含模型和实现的详细信息。

许多先前的研究工作已经使用各种方法研究了视频数据的生成建模,包括循环网络、1、2、3 生成对抗网络、4、5、6、7 自回归转换器、8、9 和扩散模型。10、11、12 这些工作通常专注于狭窄的视觉数据类别、较短的视频或固定大小的视频。 Sora 是视觉数据的通用模型——它可以生成跨越不同持续时间、长宽比和分辨率的视频和图像,最长可达一分钟的高清视频。

在这里插入图片描述

将视觉数据转化为块

我们从大型语言模型(LLM)中获取灵感,这些模型通过训练互联网规模的数据获得通用能力。13、14 LLM 范式部分成功的原因在于使用了令牌,这些令牌可以优雅地统一文本的多种模态——代码、数学和各种自然语言。在这项工作中,我们考虑视觉数据的生成模型如何继承此类好处。 LLM 有文本令牌,而 Sora 有视觉块。以前的研究已经表明,块是视觉数据模型的有效表示。15、16、17、18 我们发现,块是训练各种类型和图像生成模型的可扩展且有效的表示。

在高级别上,我们首先将视频压缩到较低维度的潜在空间,19 然后将表示分解为时空块,从而将视频转化为块。

视频压缩网络

我们训练了一个降低视觉数据维度的网络。20 这个网络以原始视频为输入,并输出一个同时在时间和空间上被压缩的潜在表示。 Sora 在这个压缩的潜在空间内进行训练,并随后生成视频。我们还训练了一个相应的解码器模型,将生成的潜在值映射回像素空间。

时空潜在块

给定压缩的输入视频,我们提取一系列时空块,这些块充当转换器的令牌。这种方案也适用于图像,因为图像只是具有单个帧的视频。我们基于块的表示使 Sora 能够训练可变分辨率、持续时间和长宽比的视频和图像。在推断时,我们可以通过在适当大小的网格中排列随机初始化的块来控制生成视频的大小。

用于视频生成的变换器扩展

Sora 是一个扩散模型21、22、23、24、25;给定输入噪声块(以及条件信息,如文本提示),它被训练来预测原始“干净”块。重要的是, Sora 是一个扩散转换器。26 转换器在各种领域中展示了出色的扩展性,包括语言建模13、14、计算机视觉15、16、17、18 和图像生成27、28、29。
在这里插入图片描述
在这项工作中,我们发现扩散转换器作为视频模型也能有效地扩展。下面,我们展示了随着训练的进行,具有固定种子和输入的视频样本的比较。随着训练计算量的增加,样本质量明显提高。

可变持续时间、分辨率、长宽比

过去的图像和视频生成方法通常会将视频调整大小、裁剪或修剪为标准大小,例如分辨率为 256x256 的 4 秒视频。我们发现,相反,在数据的原始大小上进行训练可以提供几个好处。

采样灵活性

Sora 可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及它们之间的所有内容。这让 Sora 能够直接以设备的原始长宽比创建内容。它还允许我们在以全分辨率生成之前,使用相同的模型快速生成较低大小的内容原型。

改进构图和构图

我们经验地发现,在视频的原始长宽比上进行训练可以改进构图和构图。我们将 Sora 与我们模型的一个版本进行了比较,该版本将所有训练视频裁剪为正方形,这是在训练生成模型时的常见做法。在正方形裁剪上训练的模型(左)有时会生成仅部分显示主体的视频。相比之下,来自 Sora(右)的视频具有改进的构图。

语言理解

训练文本到视频的生成系统需要大量的带有相应文本字幕的视频。我们将 DALL·E 330 中引入的重新标注技术应用于视频。我们首先训练一个高度描述性的字幕模型,然后使用它为训练集中的所有视频生成文本字幕。我们发现,在高度描述性的视频字幕上进行训练可以提高文本的保真度和视频的整体质量。

与 DALL·E 3 类似,我们还利用 GPT 将简短的用户提示转换为更长的详细字幕,然后将其发送到视频模型。这使 Sora 能够生成高质量的视频,准确遵循用户提示。

使用图像和视频进行提示

上面和我们的着陆页上的所有结果都展示了文本到视频的样本。但 Sora 也可以用其他输入进行提示,例如预先存在的图像或视频。这种能力使 Sora 能够执行广泛的图像和视频编辑任务——创建完美循环的视频、使静态图像动起来、在时间上前向或后向扩展视频等。

使 DALL·E 图像动起来

Sora 能够根据图像和提示作为输入生成视频。下面,我们展示了基于 DALL·E 231 和 DALL·E 330 图像生成的示例视频。

扩展生成的视频

Sora 还能够向前或向后扩展视频。以下是四个从生成的视频片段开始向后扩展的视频。因此,这四个视频的开头各不相同,但最终都以相同的结尾结束。

我们可以使用这种方法向前和向后扩展视频,以产生无缝的无限循环。

视频到视频的编辑

扩散模型使得从文本提示中编辑图像和视频的方法变得丰富多样。下面,我们将其中一种方法 SDEdit32 应用到 Sora 上。这种技术使 Sora 能够零镜头地转换输入视频的风格和环境。

连接视频

我们还可以使用 Sora 逐渐在两个输入视频之间进行插值,从而创建具有完全不同主题和场景组成的视频之间的无缝过渡。在下面的示例中,中间的视频在左侧和右侧对应的视频之间进行插值。

图像生成能力

Sora 也能够生成图像。我们通过在空间网格中排列一个时间长度为一帧的高斯噪声块来做到这一点。该模型可以生成可变大小的图像,最高分辨率为 2048x2048。

新兴的模拟能力

我们发现,当在大规模上进行训练时,视频模型会表现出许多有趣的新兴能力。这些能力使 Sora 能够模拟物理世界中的人、动物和环境的一些方面。这些属性是在没有任何明确的 3D、对象等归纳偏见的情况下出现的——它们完全是规模的现象。

3D 一致性。Sora 可以生成具有动态相机运动的视频。当相机移动和旋转时,人和场景元素会在三维空间中一致地移动。

长程一致性和物体恒存性。对于视频生成系统来说,在采样长视频时保持时间一致性一直是一个重大挑战。我们发现,尽管并非总是如此,但 Sora 通常能够有效地建模短期和长期依赖关系。例如,我们的模型可以在人们、动物和物体被遮挡或离开画面时保持它们的存在。同样,它可以在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观。

与世界互动。Sora 有时可以模拟以简单方式影响世界状态的动作。例如,画家可以在画布上留下随时间持续的新笔触,或者一个人可以吃汉堡并留下咬痕。

模拟数字世界。Sora 还能够模拟人工过程——一个例子是视频游戏。Sora 可以在高保真度的同时,用基本策略同时控制 Minecraft 中的玩家并渲染世界及其动态。通过用提到“Minecraft”的标题提示 Sora,可以零镜头地激发这些能力。

这些能力表明,继续扩大视频模型的规模是实现高度能力的物理和数字世界模拟器,以及其中生活的物体、动物和人的发展的有前途的途径。

讨论

目前,Sora 作为模拟器存在许多限制。例如,它不能准确地模拟许多基本交互的物理性质,如玻璃破碎。其他交互,如吃食物,并不总是会导致对象状态的正确变化。我们在我们的着陆页面上列举了模型的其他常见故障模式,例如在长时间样本中发展的不一致性或对象的自发出现。

我们认为 Sora 目前所具备的能力表明,继续扩大视频模型的规模是实现高度能力的物理和数字世界模拟器,以及其中生活的物体、动物和人的发展的有前途的途径。

相关文章:

Sora:视频生成模型作为世界模拟器

我们探索了视频数据上生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和长宽比的视频和图像上联合训练文本条件扩散模型。我们利用了一个在视频和图像潜在码的时空块上操作的变压器架构。我们规模最大的模型 Sora 能够生成一分钟的高保真视频。我们的结…...

FairyGUI × Cocos Creator 3.x 使用方式

前言 上一篇文章 FariyGUI Cocos Creator 入门 简单介绍了FairyGUI,并且按照官方demo成功在Cocos Creator2.4.0上运行起来了。 当我今天使用Creator 3.x 再引入2.x的Lib时,发现出现了报错。 这篇文章将介绍如何在Creator 3.x上使用fgui。 引入 首先&…...

基于Java的养生健康管理系统

物质生活的丰富而使得人们已经不仅仅满足于吃饱而向着吃好、吃健康的方向阔步前进。生活方式的改变使人们在日常摄入了大量的营养却没有足够的运动进行消耗,因此而导致肥胖成为当前城市生活的主要标志,而高血压、糖尿病等慢性疾病也在偷偷吞噬着人们健康…...

Python课堂16——异常查找及处理

文章目录 前言一、异常是什么?二、异常处理1. 根据提示2. 捕获异常3.抛出异常——raise4.应用场景 总结 前言 我们在日常编写代码的时候,难免会遇到一些不可控的错误,这无疑会导致程序的终止,大大降低了程序的实用性,…...

任务书参考答案-模块1任务一

1.根据网络拓扑图所示,按照IP 地址规划表,对防火墙的名称、各接口IP 地址进行配置。共8 分,每错1 处(行)扣1 分,扣完为止。地址、安全域、接口(状态为UP)、名称都正确。 2.根据网络拓扑图所示,按照IP 地址规划表,对三层交换机的名称进行配置,创建VLAN 并将相应接口划…...

2023最新盲盒交友脱单系统源码

源码获取方式 搜一搜:万能工具箱合集 点击资源库直接进去获取源码即可 如果没看到就是待更新,会陆续更新上 或 源码软件库 最新盲盒交友脱单系统源码,纸条广场,单独抽取/连抽/同城抽取/高质量盒子 新增功能包括心动推荐&#xff…...

Half-Band filter(半带滤波器)

Half-Band filter 引言正文symmetric half-band filtersamplitude half-band filterspower half-band filters引言 今天看文章的时候遇到了一个名词,Half-Band filter,中文名称半带滤波器,特来记录一下。 正文 假设我们通过采样获取到的信号带宽为 f s f_s...

2024年环境安全科学、材料工程与制造国际学术会议(ESSMEM2024)

【EI检索】2024年环境安全科学、材料工程与制造国际学术会议(ESSMEM2024) 会议简介 我们很高兴邀请您参加将在三亚举行的2024年环境安全科学、材料工程和制造国际学术会议(ESSMEM 2024)。 ESSMEM2024将汇集世界各国和地区的研究人员&…...

常用路径规划算法简介及python程序

目录 1、前言2、D*算法2.1简介2.2优缺点2.2.1 优点2.2.2 缺点 2.3 python程序 3、A*算法3.1 优缺点:3.1.1 优点:3.1.2 缺点: 3.2 python程序 4、人工势场算法4.1优缺点4.1.1优点:4.1.2缺点: 4.2 python程序 5、Dijkstr…...

计算x的对数math.log(x)math.log(x, a)math.log2(x)math.log10(x)

【小白从小学Python、C、Java】 【计算机等考500强证书考研】 【Python-数据分析】 计算x的对数 math.log(x) math.log(x, a) math.log2(x) math.log10(x) [太阳]选择题 以下说法错误的是() import math print("【执行】e math.exp(1)") e …...

Golin 弱口令/漏洞/扫描/等保/基线核查的快速安全检查小工具

下载地址: 链接:https://pan.quark.cn/s/db6afba6de1f 主要功能 主机存活探测、漏洞扫描、子域名扫描、端口扫描、各类服务数据库爆破、poc扫描、xss扫描、webtitle探测、web指纹识别、web敏感信息泄露、web目录浏览、web文件下载、等保安全风险问题风险…...

【JavaEE】_HttpServlet类

目录 1. init方法 2. destory方法 3. service方法 4. servlet生命周期 前文已经提及到:servlet是tomcat提供的,用于操作HTTP协议的一组API,可以将这组API理解为HTTP服务器的框架; 编写一个servlet程序,往往都要继…...

11-pytorch-使用自己的数据集测试

b站小土堆pytorch教程学习笔记 import torch import torchvision from PIL import Image from torch import nnimg_path ../imgs/dog.png imageImage.open(img_path) print(image) # imageimage.convert(RGB)transformtorchvision.transforms.Compose([torchvision.transforms.…...

数据安全之路:深入了解MySQL的行锁与表锁机制

欢迎来到我的博客,代码的世界里,每一行都是一个故事 数据安全之路:深入了解MySQL的行锁与表锁机制 前言基础innodb中锁与索引的关系如何避免表锁 前言 在当今数据密集的应用中,数据库锁成为了确保数据一致性和并发操作的关键工具…...

【深度学习】Pytorch 教程(十二):PyTorch数据结构:4、张量操作(3):张量修改操作(拆分、拓展、修改)

文章目录 一、前言二、实验环境三、PyTorch数据结构1、Tensor(张量)1. 维度(Dimensions)2. 数据类型(Data Types)3. GPU加速(GPU Acceleration) 2、张量的数学运算1. 向量运算2. 矩阵…...

适合新手博主站长使用的免费响应式WordPress博客主题JianYue

这款JianYue主题之所以命名为 JianYue,意思就是简单而不简约的。是根据Blogs主题优化而成,剔除了一些不必要的功能及排版,仅保留一种博客布局,让新手站长能够快速手上WordPress。可以说这款主题比较适合新手博主站长使用&#xff…...

FPGA OSERDESE2

Output Parallel-to-Serial Logic Resources (OSERDESE2) OSERDESE2 在Xilinx 7 系列器件是一款专用的并行至串行转换器,具有特定的时钟和逻辑资源,旨在促进高速源同步接口的实现。每个OSERDESE2模块都包括一个专用的数据串行器和 3 状态控制。数据和 3 态串行器都可以在 SD…...

如何卸载Erlang以及RabbitMQ

参考以下两篇文章 https://blog.csdn.net/m0_49605579/article/details/130196536 Windows如何完全卸载RabbitMQ和Erlang_删除注册表hkey_local_machine\software\ericsson\erlang\e-CSDN博客 首先我是按照链接一的操作进行了卸载,但是Erlang的安装目录一直删除不…...

ros自定义action记录

文章目录 自定义action1. 定义action文件2. 修改 package.xml3. 修改 CMakeLists.txt4. 运行 catkin build5. simple_action_server.py6. simple_action_client.py 测试 自定义action ros 版本:kinetic 自定义test包的文件结构如下 |-- test | |-- CMakeLists.t…...

挑战30天学完Python:Day18 正则表达式

📘 Day 18 🎉 本系列为Python基础学习,原稿来源于 30-Days-Of-Python 英文项目,大奇主要是对其本地化翻译、逐条验证和补充,想通过30天完成正儿八经的系统化实践。此系列适合零基础同学,或仅了解Python一点…...

华为云AI开发平台ModelArts

华为云ModelArts:重塑AI开发流程的“智能引擎”与“创新加速器”! 在人工智能浪潮席卷全球的2025年,企业拥抱AI的意愿空前高涨,但技术门槛高、流程复杂、资源投入巨大的现实,却让许多创新构想止步于实验室。数据科学家…...

XCTF-web-easyupload

试了试php,php7,pht,phtml等,都没有用 尝试.user.ini 抓包修改将.user.ini修改为jpg图片 在上传一个123.jpg 用蚁剑连接,得到flag...

【kafka】Golang实现分布式Masscan任务调度系统

要求: 输出两个程序,一个命令行程序(命令行参数用flag)和一个服务端程序。 命令行程序支持通过命令行参数配置下发IP或IP段、端口、扫描带宽,然后将消息推送到kafka里面。 服务端程序: 从kafka消费者接收…...

iPhone密码忘记了办?iPhoneUnlocker,iPhone解锁工具Aiseesoft iPhone Unlocker 高级注册版​分享

平时用 iPhone 的时候,难免会碰到解锁的麻烦事。比如密码忘了、人脸识别 / 指纹识别突然不灵,或者买了二手 iPhone 却被原来的 iCloud 账号锁住,这时候就需要靠谱的解锁工具来帮忙了。Aiseesoft iPhone Unlocker 就是专门解决这些问题的软件&…...

深入理解JavaScript设计模式之单例模式

目录 什么是单例模式为什么需要单例模式常见应用场景包括 单例模式实现透明单例模式实现不透明单例模式用代理实现单例模式javaScript中的单例模式使用命名空间使用闭包封装私有变量 惰性单例通用的惰性单例 结语 什么是单例模式 单例模式(Singleton Pattern&#…...

C++ 求圆面积的程序(Program to find area of a circle)

给定半径r,求圆的面积。圆的面积应精确到小数点后5位。 例子: 输入:r 5 输出:78.53982 解释:由于面积 PI * r * r 3.14159265358979323846 * 5 * 5 78.53982,因为我们只保留小数点后 5 位数字。 输…...

Java线上CPU飙高问题排查全指南

一、引言 在Java应用的线上运行环境中,CPU飙高是一个常见且棘手的性能问题。当系统出现CPU飙高时,通常会导致应用响应缓慢,甚至服务不可用,严重影响用户体验和业务运行。因此,掌握一套科学有效的CPU飙高问题排查方法&…...

Unsafe Fileupload篇补充-木马的详细教程与木马分享(中国蚁剑方式)

在之前的皮卡丘靶场第九期Unsafe Fileupload篇中我们学习了木马的原理并且学了一个简单的木马文件 本期内容是为了更好的为大家解释木马(服务器方面的)的原理,连接,以及各种木马及连接工具的分享 文件木马:https://w…...

Aspose.PDF 限制绕过方案:Java 字节码技术实战分享(仅供学习)

Aspose.PDF 限制绕过方案:Java 字节码技术实战分享(仅供学习) 一、Aspose.PDF 简介二、说明(⚠️仅供学习与研究使用)三、技术流程总览四、准备工作1. 下载 Jar 包2. Maven 项目依赖配置 五、字节码修改实现代码&#…...

【Nginx】使用 Nginx+Lua 实现基于 IP 的访问频率限制

使用 NginxLua 实现基于 IP 的访问频率限制 在高并发场景下,限制某个 IP 的访问频率是非常重要的,可以有效防止恶意攻击或错误配置导致的服务宕机。以下是一个详细的实现方案,使用 Nginx 和 Lua 脚本结合 Redis 来实现基于 IP 的访问频率限制…...