Sora 的工作原理(及其意义)
原文:How Sora Works (And What It Means)
作者:
DAN SHIPPER
OpenAI 的新型文本到视频模型为电影制作开启了新篇章
DALL-E 提供的插图。
让我们先明确一点,我们不会急急忙忙慌乱。我们不会预测乌托邦或预言灾难。我们要保持冷静并...
你真的看到 SORA 了吗???
OpenAI 的新文本到视频模型可以生成一段 60 秒的高度逼真的视频,内容是两只可爱的在山顶上做播客的金毛寻回犬。它能生成一个闪亮的动物园的视频,在这里,一只老虎在镶满翡翠的围栏里懒洋洋地躺着,一只卷尾猴戴着国王的皇冠待在金笼子后面。它还能生成一个AI 意大利奶奶的视频,在乡村厨房里,她穿着粉色的花朵围裙,制作着意大利土豆饺子。(她的手看起来有点像在电影《一切无处不在》中的热狗手指,尽管如此,这也是一部电影!)
这就是疯狂,真是令人难以置信。这让 Mr. Beast 在推特上对 Sam Altman 说:“请不要让我无家可归。”
有一句契诃夫的故事里说的话:“我理解它就像我理解闪电一样。”他也可以这样描述 Sora。这些演示影片给我带来的震撼,就像电击般强烈。
呼,我很高兴终于说出了心里的话。这非常重要,因为写关于 OpenAI 这样一个热门新产品,有点像在心灵的穿梭于狭缝和哈吕布狄斯之间:
这种梗图格式的创意来自于 Visakan Veerasamy。
在我头脑的一部分,有种类似末日恐惧的情绪在警告我,如果不赶紧对那些数据中心进行改革,电影行业就可能会像梅尔·吉布森的职业生涯一样突然走下坡。而另一部分的我,对新技术充满了乐观和期待,已经开始策划,一旦我掌握了这个模型,我将创作出一部皮克斯风格的电影。我相信,世界终会发现我其实是乔治·卢卡斯的未被发现的接班人,尽管我从未亲手制作过一部电影。
然而,问题是,我知道我脑海中的这两种想法都是错误的。这就尴尬了。
我误将这种新奇感理解为了其他的东西。我从这些演示中得到的感觉,并不是我从观看一部精彩的电影、YouTube 视频或 TikTok 时所得到的感觉。为什么呢?因为我知道,随着时间的流逝,这些演示的新奇感会逐渐消失,它们将变得平常——甚至可能变得乏味。我将不再因它们而感到兴奋。而一部精心制作的电影将始终能够吸引人们。
对于这样的技术进步,保持冷静的最佳方式是以长期的趋势来看待它们。Sora,以及一般的 AI 制片,正是以下两个重要趋势的体现:
- 通过使用大量的数据和计算力,取得了令人瞩目的 AI 突破。
- 技术的发展降低了电影制作的成本。
让我们来深入探讨一下这两个方面。
Sora 是如何利用大数据创造出令人瞩目的视频片段的
AI 的效果取决于规模:数据和计算能力越大,结果越好。OpenAI 的 Sora 如此令人瞩目,是因为它找到了将更多的数据和计算投入到文本到视频转换中的方法,比其他人做得更多。以下是我从其白皮书中粗略理解到的公司如何做到这一点的简化版本。
想象一下《黑暗骑士》的电影胶片。你应该知道我在说什么:一个年轻人穿着红色夹克,将一卷胶片绕在一个金属盘上,然后挂在一个老式电影院的投影机上。
你把电影胶卷从盘中展开,然后剪下最前面的 100 帧。你挑出每一帧——这里是小丑疯狂大笑,那里是蝙蝠侠痛苦的表情——并进行以下不同寻常的操作:
你拿起一把 X-acto 精细刻刀,在第一帧电影胶片上剪出一个变形虫状的图案。你像处理精密仪器一样小心翼翼地用镊子提取这片形似变形虫的胶片,然后安全地保存起来。之后,你处理下一帧:在接下来的胶片上切出同样位置、同样形状的变形虫图案。你再次用镊子小心地取出这个新的变形虫形状的胶片——形状与前一个完全相同——并将其精确地放置在第一个之上。你这样做,直到完成所有的 100 帧。
你现在有了一个色彩斑斓的变形虫,沿着 Y 轴扩展。这是一座可以通过投影机播放《黑暗骑士》的小片段的胶片塔,就好像有人在投影机前握着拳头,只让电影的一小部分影像从拳心通过。
然后,这座胶片塔被压缩并转化为所谓的“Patch”——一种随时间变化的色块。Patch 是 Sora 的基本单元,就像 GPT-4 的基本单元是“Token”。Token 是文字的片段,而 Patch 则是电影的片段。
GPT-4 被训练以处理一串 Token,并预测出下一个 Token。Sora 遵循相同的逻辑:它处理一系列的 Patch,并预测出序列中的下一个“Patch”。
Patch 的创新之处——以及 Sora 之所以显得如此强大——在于它们让 OpenAI 能够在大量的图像和视频数据上训练 Sora。想象一下从每一个存在的视频中剪出的 Patch——无尽的胶片塔——被堆叠起来并输入到模型中。
以前的文本转视频方法需要训练时使用的所有图片和视频都要有相同的大小,这就需要大量的预处理工作来裁剪视频至适当的大小。但是,由于 Sora 是基于“Patch”而非视频的全帧进行训练的,它可以处理任何大小的视频或图片,无需进行裁剪。
因此,可以有更多的数据用于训练,得到的输出质量也会更高。例如,将视频预处理至新的长宽比通常会导致视频的原始构图丢失。一个在宽屏中心呈现人物的视频,裁剪后可能只能部分展示该人物。因为 Sora 能接收任何视频作为训练输入,所以其输出不会受到训练输入构图不良的影响。
Sora 的另一个重大突破是其所使用的架构。传统的文本到视频模型,如 Runway,是扩散模型(Diffusion Model),而文本模型像 GPT-4 则是 Transformer 模型。Sora 则是一个融合了两者的 Diffusion Transformer 模型。Sora 不是预测序列中的下一个文本,而是预测序列中的下一个“Patch”。通过使用这种架构,OpenAI 可以在训练 Sora 时倾注更多的数据和计算资源,从而得到令人惊叹的效果。
当 Sora 的视频刚刚发布时,人们惊讶于其能模拟出咖啡在杯子里溅出的液体动力学。他们以为 OpenAI 已经将 Sora 连接到了一个游戏引擎(那些驱动视频游戏并能模拟物理现象的算法)以得到这样的结果。但实际上并非如此,Sora 完全能够自主生成这样的图像。
GPT-4 像是通过学习文本的语法规则,从而预测序列中的下一个词。
而像 Sora 这样的 Diffusion Transformer 模型则像是在学习物理学——宇宙的语法,从而预测视频的下一段内容。OpenAI 把 Sora 看做“世界模拟器”的第一步,能够用文本提示词来模拟任何现实中的场景。
这真是令人震撼!这将对电影制作产生重要影响。
技术如何影响电影制作
在一个视频如此普遍的世界里,会有什么不同呢?可能会彻底改变制作视频的方式,而这是一件好事。
电影制作历来都极其昂贵。摄像机、灯光、情绪不稳定的演员——这些都需要大量的资金。这就是为什么电影行业是一个行业,而不是一个艺术家的聚居地。
在电影的大部分历史上,只有少数人才能制作电影。因为制作电影需要冒险!你需要有资金去制作电影,而只有少数人才能筹集到足够的资金,承担一部电影制作失败的风险。制作电影就像创办一家公司。
然而,在过去的二十年间,这个情况有了改变。例如,互联网和 iPhone 等技术的出现,使得更多的人拥有了电影制作和分发设备。这催生了一种全新的电影制作形式,如 YouTube 视频、TikToks、Reels,和 Quibbis(或许 Quibbis 除外)。
这一代的电影制作有着自己独特的风格,完全不同于好莱坞电影,这种风格受到了可用技术和资源的制约和塑造。比如,YouTubers 以直接对镜头讲话,快速剪辑,以及展示日常生活琐事的视频日志而闻名,这些都是你能独自在房间里,用 iPhone 就能做到的。
AI 视频制作工具使得在你的房间里制作更多种类的视频变得更容易。比如 Runway,一个已经公开可用的视频制作工具,可以让你把一张图片,无论是真实的还是人工智能生成的,变成四秒钟的视频片段。你可以控制图片中的不同元素以不同方式移动,还可以控制摄像机的运动。这就好像你具有了让图片动起来的魔法,就像哈利·波特里的魔法照片一样。
这些工具也孕育了一种新的电影制作风格,这种风格受到了它们独特的能力和限制的制约和塑造。例如,它们让创建在新的环境和风格中使用熟悉角色的 AI 视频变得容易。常见的一种手法是把两部共享的流行文化作品混合在一起,就像在一段视频中,将《星球大战》的角色以韦斯·安德森的风格呈现。
另一个例子是,像 Runway 这样基于扩散模型的视频模型架构,在不同片段中保持角色一致性很困难。你可以让角色看起来有相似性,有一种家族的相似性,但是控制还不够精细,无法让角色看起来完全一样。因此,AI 生成的电影往往更像视觉拼接:一段几秒钟的剪辑,画面快速切换,旁边是讲述者在讲述一个故事,而不是像传统电影那样,一组固定的演员在镜头前进行对话。
Sora 是一种重大的技术突破,它使得 AI 电影制作者能够做更多的事情,而需要的资源更少。每一段片段可以长达 60 秒,这将使得更多种类的剪辑风格成为可能。Sora 可以进行的动态模拟和物理模拟远胜过任何公开可用的模型。这将允许创作出比目前可能的更复杂的场景,角色动作,以及角色与周围环境的互动。
这将对电影制作产生怎样的影响?
当今的 AI 电影制作
有时候,你会感觉整个世界都在帮助你,就像你在玩扑克时手里拿着一对不配的 2 和 3,最后一张河牌却让你意外地连成了顺子。恰巧的是,我对 AI 电影制作有一些了解,因为我在 Sora 发布前两天就采访了这个领域的一位领军人物,这个采访将在两周后在我的播客中直播。在此,我想先和你分享一些我学习到的内容。
Dave Clark是一位传统的电影制作人,他开始制作由 AI 生成的视频。他最近制作了一部名为Borrowing Time的科幻短片,灵感来自于他父亲在 1960 年代作为一名黑人的经历。他完全使用 Midjourney 和 Runway 来生成图像和视频,自己为电影配音,并使用Eleven Labs将他的配音转变成不同角色的声音。
Borrowing Time在网络上广受欢迎,Dave 告诉我他如果没有 AI,他不可能完成这部电影。他的这种类型的科幻短片在传统的好莱坞电影工作室是无法获得资助的。然而,现在这部电影已经发布并且受到了广大的欢迎,他表示他正在接触一些顶级的好莱坞电影工作室,他们希望将其改编成一部全长电影。
这个例子充分展示了像 Sora 这样的 AI 模型将如何改变未来的电影制作。
测试电影理念的成本将显著降低
如果你想在有 Sora 的世界中制作一部科幻电影,你只需要一台笔记本电脑和一些 OpenAI 信用点。更多的人将能够将他们的想象力变成视频,无需通过传统的审核或获得资金支持。而且,能够得到这个机会的不仅仅是播主或者 YouTuber 主播们,任何人都有可能。
那些获得关注的创意视频制作者更有可能获得资金支持,从而将他们的创意变为电影,正如今天的作家们通过推特和新闻简报来获得书籍出版的机会。
大预算电影的制作成本将降低
理想情况下,AI 工具将使传统的好莱坞电影的制作成本降低。比如,Everything Everywhere All at Once,这部电影使用 Runway 进行特效制作,只需要八个人的团队,就能实现令人惊叹的特效(比如形似热狗的手臂!)。相比之下,Shrek的制作团队约有 300 人。
理论上讲,像 EEAAO 这样的作品应该会因为 Sora 而变得更为常见。但实际上,由于现有的商业结构和工会协议的限制,好莱坞可能无法充分利用这些工具。相反,新的电影制作形式可能会在其他地方崭露头角。
AI 电影制作将崛起,好莱坞的影响力将会降低
iPhone 和互联网的发展催生了视频博客和化妆教程的繁荣,同样,AI 电影制作也将创造出属于自己的电影类型,独特的风格和形式。我预期我们已经看到的那种视频会越来越多:利用现有的 IP 来制作混搭和剪辑,更快的剪辑和旁白独白会成为这个类型的主流,至少在技术再次发生变革之前是如此。(据我们所知,由 Sora 生成的视频中的演员无法表现出与特定对话线匹配的面部动作。)
这些 AI 制作的视频不会取代传统的好莱坞电影制作——就像 YouTube 视频没能取代——但它们可能会占据更多的市场份额,尤其是在年轻人群体中。
创造力的未来
在本文的前面,我们谈到了 Sora 正在延续的几个长期趋势:
- 数据增多和计算能力提升带来更出色的 AI 成果
- 技术降低了电影制作的成本,改变了哪种电影会被制作以及由谁来制作
希望这能让你们对 Sora 的一些能力有更宽广的理解。但还有一个我想要强调的重要趋势。
过去的几个月,我一直在写我们正从知识经济向资源配置经济转变:我们正在从一个你的收入取决于你知道什么的世界,转变为一个你的收入取决于你如何分配智能的世界。在这个世界中,即使是个人创作者或创业者也会成为管理者——不过我们管理的不再是人,而是模型。
显然,Sora 就是这个范式的一个例子:你越能熟练地运用它作为工具创造出惊人的东西,你在新经济中的地位就越高。但最令人兴奋的部分是,它扩大了可以在世界上创造事物的人的范围。
就像 GPT-4 让任何人只要有足够的坚持,就可以开发一个网络应用程序一样,Sora 让任何人都有可能制作一个视频。而当我说任何人时,我指的包括你。
Sora 并不意味着任何人只需轻轻一按按钮就可以制作出一部伟大的视频。讲故事需要更多的技巧、品味和热忱。但任何人都可以开始,学习这些技能,并有机会成为伟大的——只需要一台笔记本电脑。
如果你是一个有创造力的人,那么毫无疑问,这是生活的最好时代。
相关文章:

Sora 的工作原理(及其意义)
原文:How Sora Works (And What It Means) 作者: DAN SHIPPER OpenAI 的新型文本到视频模型为电影制作开启了新篇章 DALL-E 提供的插图。 让我们先明确一点,我们不会急急忙忙慌乱。我们不会预测乌托邦或预言灾难。我们要保持冷静并... 你…...

Java学习笔记2024/2/16
知识点 面向对象 题目1(完成) 定义手机类,手机有品牌(brand),价格(price)和颜色(color)三个属性,有打电话call()和sendMessage()两个功能。 请定义出手机类,类中要有空参、有参构造方法,set/get方法。 …...

XLNet做文本分类
import torch from transformers import XLNetTokenizer, XLNetForSequenceClassification from torch.utils.data import DataLoader, TensorDataset # 示例文本数据 texts ["This is a positive example.", "This is a negative example.", "Anot…...

Swift 5.9 新 @Observable 对象在 SwiftUI 使用中的陷阱与解决
概览 在 Swift 5.9 中,苹果为我们带来了全新的可观察框架 Observation,它是观察者开发模式在 Swift 中的一个全新实现。 除了自身本领过硬以外,Observation 框架和 SwiftUI 搭配起来也能相得益彰,事倍功半。不过 Observable 对象…...

分享一个学英语的网站
名字叫:公益大米网 Freerice 这个网站是以做题的形式来记忆单词,题干是一个单词,给出4个选项,需要选出其中最接近题干单词的选项。 答对可以获得10粒大米,网站的创办者负责捐赠。如图 触发某些条件&a…...

【动态规划】【C++算法】2742. 给墙壁刷油漆
作者推荐 【数位dp】【动态规划】【状态压缩】【推荐】1012. 至少有 1 位重复的数字 本文涉及知识点 动态规划汇总 LeetCode2742. 给墙壁刷油漆 给你两个长度为 n 下标从 0 开始的整数数组 cost 和 time ,分别表示给 n 堵不同的墙刷油漆需要的开销和时间。你有…...

【后端高频面试题--设计模式上篇】
🚀 作者 :“码上有前” 🚀 文章简介 :后端高频面试题 🚀 欢迎小伙伴们 点赞👍、收藏⭐、留言💬 往期精彩内容 【后端高频面试题–设计模式上篇】 【后端高频面试题–设计模式下篇】 【后端高频…...

P3141 [USACO16FEB] Fenced In P题解
题目 如果此题数据要小一点,那么我们可以用克鲁斯卡尔算法通过,但是这个数据太大了,空间会爆炸,时间也会爆炸。 我们发现,如果用 MST 做,那么很多边的边权都一样,我们可以整行整列地删除。 我…...

Android Compose 一个音视频APP——Magic Music Player
Magic Music APP Magic Music APP Magic Music APP概述效果预览-视频资源功能预览Library歌曲播放效果预览歌曲播放依赖注入设置播放源播放进度上一首&下一首UI响应 歌词歌词解析解析成行逐行解析 视频播放AndroidView引入Exoplayer自定义Exoplayer样式横竖屏切换 歌曲多任…...

Nginx实战:安装搭建
目录 前言 一、yum安装 二、编译安装 1.下载安装包 2.解压 3.生成makefile文件 4.编译 5.安装执行 6.执行命令软连接 7.Nginx命令 前言 nginx的安装有两种方式: 1、yum安装:安装快速,但是无法在安装的时候带上想要的第三方包 2、…...

Qt之条件变量QWaitCondition详解(从使用到原理分析全)
QWaitCondition内部实现结构图: 相关系列文章 C之Pimpl惯用法 目录 1.简介 2.示例 2.1.全局配置 2.2.生产者Producer 2.3.消费者Consumer 2.4.测试例子 3.原理分析 3.1.源码介绍 3.2.辅助函数CreateEvent 3.3.辅助函数WaitForSingleObject 3.4.QWaitCo…...

OpenSource - 一站式自动化运维及自动化部署平台
文章目录 orion-ops 是什么重构特性快速开始技术栈功能预览添砖加瓦License orion-ops 是什么 orion-ops 一站式自动化运维及自动化部署平台, 使用多环境的概念, 提供了机器管理、机器监控报警、Web终端、WebSftp、机器批量执行、机器批量上传、在线查看日志、定时调度任务、应…...

【后端高频面试题--设计模式下篇】
🚀 作者 :“码上有前” 🚀 文章简介 :后端高频面试题 🚀 欢迎小伙伴们 点赞👍、收藏⭐、留言💬 后端高频面试题--设计模式下篇 往期精彩内容设计模式总览模板方法模式怎么理解模板方法模式模板方…...

这才是大学生该做的副业,别再痴迷于游戏了!
感谢大家一直以来的支持和关注,尤其是在我的上一个公众号被关闭后,仍然选择跟随我的老粉丝们,你们的支持是我继续前行的动力。为了回馈大家长期以来的陪伴,我决定分享一些实用的干货,这些都是我亲身实践并且取得成功的…...

Ubuntu20.04 安装jekyll
首先使根据官方文档安装:Jekyll on Ubuntu | Jekyll • Simple, blog-aware, static sites 如果没有报错,就不用再继续看下去了。 我这边在执行gem install jekyll bundler时报错,所以安装了rvm,安装rvm可以参考这篇文章Ubuntu …...

AWK语言
一. awk awk:报告生成器,格式化输出。 在 Linux/UNIX 系统中,awk 是一个功能强大的编辑工具,逐行读取输入文本,默认以空格或tab键作为分隔符作为分隔,并按模式或者条件执行编辑命令。而awk比较倾向于将一行…...

精通Nmap:网络扫描与安全的终极武器
一、引言 Nmap,即NetworkMapper,是一款开源的网络探测和安全审计工具。它能帮助您发现网络中的设备,并识别潜在的安全风险。在这个教程中,我们将一步步引导您如何有效地使用Nmap,让您的网络更加安全。 因为Nmap还有图…...

Java 学习和实践笔记(11)
三大神器: 官方网址: http://www.jetbrains.com/idea/ 官方网址: https://code.visualstudio.com/ 官方网址: http://www.eclipse.org 装好了idea社区版,并试运行以下代码,OK! //TIP To <b>Run</b> code, press &l…...

开发实体类
开发实体类之间先在pom文件中加入该依赖 <!-- 开发实体类--><dependency><groupId>org.projectlombok</groupId><artifactId>lombok</artifactId><scope>provided</scope></dependency>我们在实体类中声明各个属…...

人工智能学习与实训笔记(十五):Scikit-learn库的基础与使用
人工智能专栏文章汇总:人工智能学习专栏文章汇总-CSDN博客 本篇目录 一、介绍 1. 1 Scikit-learn的发展历程及定义 1.2 理解算法包、算法库及算法框架之间的区别和联系 二、Scikit-learn官网结构 三、安装与设置 3.1 Python环境的安装与配置 3.2 Scikit-lea…...

插值与拟合算法介绍
在数据处理和科学计算领域,插值与拟合是两种极为重要的数据分析方法。它们被广泛应用于信号处理、图像处理、机器学习、金融分析等多个领域,对于理解和预测数据趋势具有至关重要的作用。本文将深入浅出地介绍这两种算法的基本原理,并结合C语言编程环境探讨如何在CSDN开发者社…...

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO
下一代Windows操作系统提前曝光了?? 微软首个为Windows而设的智能体(Agent) 亮相: 基于GPT-4V,一句话就可以在多个应用中无缝切换,完成复杂任务。整个过程无需人为干预,其执行成功…...

二.自定义头文件
一.Worker.h 1.1概述 - 类名:Worker - 继承关系:所有其他类(Employee、Manager、Boss)都继承自该抽象类 - 头文件保护:使用 pragma once 防止头文件重复包含 - 引入标准库:包含 <iostream> 和 <st…...

【AIGC】Stable Diffusion之模型微调工具
推荐一款好用的模型微调工具,cybertron furnace 是一个lora训练整合包,提供训练 lora 模型的工具集或环境。集成环境包括必要的依赖项和配置文件、预训练脚本,支持人物、二次元、画风、自定义lora的训练,以简化用户训练 lora 模型…...

探索未来科技前沿:深度学习的进展与应用
深度学习的进展 摘要:深度学习作为人工智能领域的重要分支,近年来取得了巨大的进展,并在各个领域展现出惊人的应用潜力。本文将介绍深度学习的发展历程、技术原理以及在图像识别、自然语言处理等领域的应用,展望深度学习在未来的…...

PTA | Wifi密码
下面是微博上流传的一张照片:“各位亲爱的同学们,鉴于大家有时需要使用 wifi,又怕耽误亲们的学习,现将 wifi 密码设置为下列数学题答案:A-1;B-2;C-3;D-4;请同学们自己作答…...

Linux中gdb使用说明书
首先我们要使用gdb,必须明白gdb使用范围: 要使用gdb调试,必须在源代码生成二进制程序的时候, 加上 -g 选项(gcc/g) 其次,我们就要来学习gdb使用的一些命令了: list/l 行号:显…...

LInux——开发工具的使用
目录 Linux软件包管理器 yum rzsz Linux编辑器——vim vim的使用 vim的基本操作 命令模式的常见命令 底行模式的常见命令 vim是需要配置的 Linux编译器——gcc/g 预处理 编译 汇编 链接 函数库 Linux项目自动化构建工具 make/makefile make原理 项目清理 Linux调试器g…...

沁恒CH32V30X学习笔记03--64位systick
systick CH32F2x 系列产品Cortex-M3 内核自带了一个 24 位自减型计数器(SysTick timer)。支持 HCLK 或 HCLK/8 作为时基,具有较高优先级别(6)。一般可用于操作系统的时基。 CH32V3x 系列产品内核自带了一个 64 位加减计数器(SysTick),支持 HCLK 或者 HCLK/8 作为时基,…...

【JavaEE】IP协议
作者主页:paper jie_博客 本文作者:大家好,我是paper jie,感谢你阅读本文,欢迎一建三连哦。 本文于《JavaEE》专栏,本专栏是针对于大学生,编程小白精心打造的。笔者用重金(时间和精力)打造&…...