当前位置：首页 > news >正文

Sora (text-to-video model-文本转视频模型)

news 2026/5/23 20:14:56

在这里插入图片描述

以下翻译自维基百科

Introduction

Sora 是由美国人工智能 (AI) 研究组织 OpenAI 开发的文本到视频模型。它可以根据描述性提示生成视频，并及时向前或向后扩展现有视频。截至 2024 年 2 月，它尚未发布，尚未向公众开放。

History

在 Sora 之前，已经创建了其他几个文本到视频生成模型，包括 Meta 的 Make-A-Video、Runway 的 Gen-2 和 Google 的 Lumiere，其中最后一个截至 2024 年 2 月也仍处于研究阶段. Sora 背后的公司 OpenAI 于 2023 年 9 月发布了 DALL·E 3，这是其第三个 DALL-E 文本到图像模型。
开发 Sora 的团队以日语中的“天空”一词命名它，表示其“无限的创造潜力”。[1] 2024 年 2 月 15 日，OpenAI 首次预览了 Sora，发布了多段其制作的高清视频片段，包括一辆 SUV 行驶在山路上、蜡烛旁边的“短毛怪”动画、两个人走过雪中的东京，以及加州淘金热的虚假历史镜头，并表示能够生成长达一分钟的视频。该公司随后分享了一份技术报告，其中重点介绍了用于训练模型的方法。OpenAI 首席执行官 Sam Altman 还发布了一系列推文，用 Sora 生成的提示视频回应 Twitter 用户的提示。
OpenAI 表示，它计划向公众开放 Sora，但不会很快；它没有指定何时。[5][3]该公司为一个小型“红队”提供了有限的访问权限，其中包括错误信息和偏见方面的专家，以对模型进行对抗性测试。 [6]该公司还与一小群创意专业人士（包括视频制作者和艺术家）分享了 Sora，以寻求有关其在创意领域实用性的反馈。

Capabilities and limitations

Sora 背后的技术是 DALL-E 3 背后技术的改编。根据 OpenAI 的说法，Sora 是一个扩散变压器[9]——一种去噪潜在扩散模型，用一个 Transformer 作为降噪器。通过对 3D“补丁”进行去噪，在潜在空间中生成视频，然后通过视频解压缩器将其转换为标准空间。重新字幕用于通过使用视频到文本模型在视频上创建详细字幕来增强训练数据。
OpenAI 使用公开视频以及为此目的获得许可的受版权保护的视频来训练模型，但没有透露视频的数量或确切来源。[1] OpenAI 在发布后承认了 Sora 的一些缺点，包括难以模拟复杂的物理、理解因果关系以及区分左右。[10] OpenAI 还表示，为了遵守公司现有的安全实践，Sora 将限制有关性、暴力、仇恨或名人图像的文本提示，以及具有现有知识产权的内容。
Sora 的研究员 Tim Brooks 表示，该模型弄清楚了如何仅从其数据集创建 3D 图形，而 Sora 研究员 Bill Peebles 表示，该模型会在没有提示的情况下自动创建不同的视频角度。根据 OpenAI 的说法，Sora 生成的视频带有 C2PA 元数据标记，以表明它们是 AI 生成的。

Reception

麻省理工学院技术评论的 Will Douglas Heaven 称演示视频“令人印象深刻”，但指出它们一定是经过精心挑选的，可能无法代表 Sora 的典型输出。 [8]美国学者 Oren Etzioni 对该技术为政治运动制造在线虚假信息的能力表示担忧。[1]史蒂文·利维（Steven Levy）在《连线》杂志上同样写道，它有可能成为“错误信息火车残骸”，并认为其预览剪辑“令人印象深刻”，但“并不完美”，并且“显示出对电影语法的新兴掌握”由于其无意识的镜头变化。 Levy 补充道，“如果有的话，也需要很长一段时间，文字转视频才会威胁到实际的电影制作。”[5] CNET 的丽莎·莱西 (Lisa Lacy) 称其示例视频“非常逼真，除非是人脸”近距离或当海洋生物游泳时出现”。

Sora (text-to-video model-文本转视频模型)

Introduction

History

Capabilities and limitations

Reception

相关文章：

Sora (text-to-video model-文本转视频模型)

java生态环境评价Myeclipse开发mysql数据库web结构java编程计算机网页项目

数据结构-最短路径（Dijkstra算法与Floyd算法）

文献速递：GAN医学影像合成--联邦生成对抗网络基础医学图像合成中的后门攻击与防御

Java实现自动化pdf打水印小项目使用技术pdfbox、Documents4j

hive load data未正确读取到日期

C++ 遍历map的3中方法

redis 主从模式，sentinel 模式配置

小型医院医疗设备管理系统|基于springboot小型医院医疗设备管理系统设计与实现(源码+数据库+文档)

CSS学习（三）

CentOS7安装InfluxDB2简易教程

数据库：信息存储与管理的关键

极智芯 | 解读NVIDIA RTX5090 又是一波被禁售的节奏

rtt的io设备框架面向对象学习-硬件rtc设备

产品经理学习-产品运营《流程管理》

压缩感知——革新数据采集的科学魔法

华为配置直连三层组网直接转发示例

MCAL知识点（二十八）：TC275如何通过EB-Tresos配置实现硬件触发ADC同步采样（电机控制器三相电流同步采样）

proteus8.15图文安装教程

ACP科普：敏捷开发之kanban

linux IO重定向

别让‘单电源供电’坑了你：运放参考电压旁路电容的选型与避坑全攻略

Ubuntu 20.04服务器静态网络配置：从Netplan配置到MobaXterm远程连接一条龙

一多操作系统的生命体架构与当前主流开发语言的区别

Qwen-Image-2512+LoRA：构建Godot原生像素素材生成管线

从零开始掌握ShiroAttack2：5步搞定Shiro反序列化漏洞利用

深度解析Magic VLSI：开源集成电路布局设计的基石工具

AI Agent在体脂管理中的临床级精度突破：基于3276名受试者的双盲对照试验（FDA Class II类器械预审中）

如何用Easy Voice Toolkit轻松实现语音AI全流程：从识别到合成的完整指南

极验三代w参数生成原理与逆向解析