当前位置: 首页 > news >正文

突破性创新:OpenAI推出Sora视频模型,预示视频制作技术的未来已到来!

一、前言

此页面上的所有视频均由 Sora 直接生成,未经修改。

OpenAI - Sora is an AI model that can create realistic and imaginative scenes from text instructions.

在这里插入图片描述

2024 年 2 月 16 日,OpenAI 发布 AI 视频模型 Sora,60 秒的一镜到底,惊艳的效果生成。AI 视频生成可能要变天?


二、主要内容

能力

OpenAI 正在教授 AI 理解和模拟运动中的物理世界,目标是训练出能帮助人们解决需要与现实世界互动的问题的模型。目前的成果是 Sora,OpenAI 最新发布的从文本生成视频模型。Sora 能够生成长达一分钟的视频,同时保持视觉品质和对用户提示的遵循。

2024 年 2 月 26 日,Sora 即将向红队人员开放,以评估关键领域的潜在危害或风险。OpenAI 还允许一些视觉艺术家、设计师和电影制作人使用,以便获得反馈,进一步优化模型,使其对创意专业人士更有帮助。OpenAI 提早分享他们的研究进展,以便开始与 OpenAI 之外的人们合作并从他们那里获取反馈,同时让公众对即将到来的 AI 能力有所了解。

Sora 能够生成包含多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。这个模型不仅理解用户在提示中请求的内容,还理解这些事物在物理世界中的存在方式。该模型对语言有着深刻的理解,使其能够准确解读提示并生成表情丰富的引人入胜的角色。Sora 还能在单个生成的视频中创造出多个画面,准确地保持角色和视觉风格的一致性。

当前模型有缺陷。它可能在准确模拟复杂场景的物理现象方面遇到困难,也可能无法理解特定的因果关系。例如,一个人可能会咬一口饼干,但之后,饼干可能不会留下咬痕。该模型也可能会混淆提示的空间细节,例如,将左和右搞混,而且可能难以准确描述随时间发生的事件,比如遵循特定的摄像机轨迹。

安全

在将 Sora 应用于 OpenAI 产品之前,OpenAI 将采取几个重要的安全措施。OpenAI 正在与红队人员(错误信息、仇恨内容和偏见等领域的专家)合作,他们将对模型进行对抗性测试。OpenAI 还在开发一些工具来帮助检测误导性内容,例如检测分类器,它可以分辨出视频是由 Sora 生成的。如果在 OpenAI 产品中部署该模型,OpenAI 计划在未来加入 C2PA 元数据。

除了开发新技术为部署做准备外,OpenAI 还在利用现有的安全方法,这些方法是 OpenAI 为使用 DALL-E 3 的产品建立的,也适用于 Sora。例如,一旦进入 OpenAI 产品,OpenAI 的文本分类器就会检查并拒绝违反 OpenAI 使用政策的文本输入提示,例如要求输入极端暴力、性内容、仇恨图像、名人肖像或他人知识产权的内容。OpenAI 还开发了强大的图像分类器,用于审查生成的每段视频的帧数,以帮助确保视频在播放给用户之前符合使用政策。

OpenAI 将与世界各地的政策制定者、教育工作者和艺术家接触,以了解他们的担忧,并确定这项新技术的积极应用案例。尽管进行了广泛的研究和测试,但 OpenAI 无法预测人们使用这项技术的所有有益方式,也无法预测人们滥用技术的所有方式。这就是为什么 OpenAI 相信,从现实世界的使用中学习,是随着时间的推移创建和发布越来越安全的人工智能系统的重要组成部分。

研究技术

Sora 是一种扩散模型,它从一个看起来像静态噪音的视频开始生成视频,然后通过多个步骤去除噪音,逐渐转换视频。Sora 能够一次性生成整个视频,或延长生成的视频,使其更长。通过让模型一次预见多帧画面,OpenAI 解决了一个具有挑战性的问题,那就是即使主体暂时离开视线,也要确保主体保持不变

与 GPT 模型类似,Sora 也采用了 Transformer 架构,释放了卓越的扩展性能。OpenAI 将视频和图像表示为更小的数据单元集合,称为 “补丁”(patches),每个补丁类似于 GPT 中的令牌(token)。通过统一数据表示方式,我们可以在比以往更广泛的视觉数据上训练 diffusion transformers,包括不同的持续时间、分辨率和宽高比。

Sora 建立在过去对 DALL-E 和 GPT 模型的研究基础之上。它采用了 DALL-E 3 中的重述技术,即为视觉训练数据生成高度描述性的字幕。因此,该模型能够在生成的视频中更忠实地遵循用户的文字说明。该模型不仅能根据文字说明生成视频,还能根据现有的静止图像生成视频,并能准确、细致地对图像内容进行动画处理。该模型还能提取现有视频,并对其进行扩展或填充缺失的帧。更多信息,请参阅 OpenAI 的技术报告。

Sora 是能够理解和模拟现实世界的模型的基础,我们相信这种能力将是实现 AGI 的重要里程碑。


三、总结

OpenAI 发布其首个 AI 视频生成模型 Sora:这是一个能够根据文本指令生成逼真而富有想象力的视频的模型,它使用了扩散模型和 Transformer 架构,能够生成长达一分钟的超长视频,还能保持多镜头的一致性。

Sora 展现了对世界的理解和模拟:这个模型能够学习到关于 3D 几何、物理规律、语义理解和故事叙述的知识,它甚至能够创造出类似皮克斯作品的动画效果,有着世界模型的雏形。

Sora 颠覆了视频生成领域:这个模型的效果远超过了目前的 AI 视频工具,如 Runway Gen 2 和 Pika,它能够实现视频和现实的无缝对接,让普通人也能在社交媒体上制作出高质量的视频内容。

Sora 可能为实现 AGI 奠定了基础:这个模型是对真实世界和虚构世界的模拟,是通用人工智能的重要步骤,也是 OpenAI 的核心使命。


最新消息:本文是设想的方式,但 Sora 目前还未正式对外上线。后续预计先在 ChatGPT Plus 会员覆盖。

如果你想体验 ChatGPT4 服务,可以查看这篇文章:ChatGPT4.0升级教程

相关文章:

突破性创新:OpenAI推出Sora视频模型,预示视频制作技术的未来已到来!

一、前言 此页面上的所有视频均由 Sora 直接生成,未经修改。 OpenAI - Sora is an AI model that can create realistic and imaginative scenes from text instructions. 2024 年 2 月 16 日,OpenAI 发布 AI 视频模型 Sora,60 秒的一镜到底…...

【Web前端笔记10】CSS3新特性

10 CSS3新特性 1、圆角 2、阴影 (1)盒阴影 3、背景渐变 (1)线性渐变(主要掌握这种就可) (2)径向渐变 &…...

LabVIEW荧光显微镜下微管运动仿真系统开发

LabVIEW荧光显微镜下微管运动仿真系统开发 在生物医学研究中,对微管运动的观察和分析至关重要。介绍了一个基于LabVIEW的仿真系统,模拟荧光显微镜下微管的运动过程。该系统提供了一个高效、可靠的工具,用于研究微管与运动蛋白(如…...

【Java面试】MQ(Message Queue)消息队列

目录 一、MQ介绍二、MQ的使用1应用解耦2异步处理3流量削峰4日志处理5消息通讯三、使用 MQ 的缺陷1.系统可用性降低:2.系统复杂性变高3.一致性问题四、常用的 MQActiveMQ:RabbitMQ:RocketMQ:Kafka:五、如何保证MQ的高可用?ActiveMQ:RabbitMQ:RocketMQ:Kafka:六、如何保…...

【安卓基础1】初识Android

🏆作者简介:|康有为| ,大四在读,目前在小米安卓实习,毕业入职。 🏆安卓学习资料推荐: 视频:b站搜动脑学院 视频链接 (他们的视频后面一部分没再更新,看看前面…...

08-静态pod(了解即可,不重要)

我们都知道,pod是kubelet创建的,那么创建的流程是什么呐? 此时我们需要了解我们k8s中config.yaml配置文件了; 他的存放路径:【/var/lib/kubelet/config.yaml】 一、查看静态pod的路径 [rootk8s231 ~]# vim /var/lib…...

PROBIS铂思金融破产后续:ASIC牌照已注销

2024年1月31日,PROBIS铂思金融的澳大利亚ASIC牌照 (AFSL 338241) 被注销《差价合约经纪商PROBIS宣布破产,澳大利亚金融服务牌照遭暂停》,这也就意味着,PROBIS铂思金融目前已经没有任何金融牌照。 值得注意的是,时至今日…...

数字世界的探索者:计算机相关专业电影精选推荐

目录 推荐计算机专业必看的几部电影 《黑客帝国》 《社交网络》 《乔布斯传》 《心灵捕手》 《源代码》 《盗梦空间》 《头号玩家》 《我是谁:没有绝对安全的系统》 《战争游戏》(WarGames) 《模仿游戏》(The Imitation Game) 《硅谷》(Silicon Valley) …...

Spring Boot项目中TaskDecorator的应用实践

一、前言 TaskDecorator是一个执行回调方法的装饰器,主要应用于传递上下文,或者提供任务的监控/统计信息,可以用于处理子线程与主线程间数据传递的问题。 二、开发示例 1.自定义TaskDecorator import org.springframework.core.task.Task…...

511. 游戏玩法分析 I

文章目录 题意思路代码 题意 题目链接 统计每个用户第一次登陆平台时间 思路 代码 select player_id, min(event_date) as first_login from Activity group by player_id;...

大模型训练流程(三)奖励模型

为什么需要奖励模型 因为指令微调后的模型输出可能不符合人类偏好,所以需要利用强化学习优化模型,而奖励模型是强化学习的关键一步,所以需要训练奖励模型。 1.模型输出可能不符合人类偏好 上一篇讲的SFT只是将预训练模型中的知识给引导出来…...

替换if...else的锦囊妙计

目录 前言 一、又臭又长的if...else 二、消除if...else的锦囊妙计 1、使用注解 2、动态拼接名称 3、模板方法判断 4.策略工厂模式 5.责任链模式 6、其他的消除if...else的方法 1.根据不同的数字返回不同的字符串 2.集合中的判断 3.简单的判断 4.spring中的判断 原文…...

新建一个flask项目

在Flask中创建一个新的项目,您可以遵循以下步骤: 确保您已经安装了Python环境。如果还未安装Flask,可以通过pip来安装: pip install flask创建一个新的文件夹作为您的项目文件夹,例如myflaskapp: mkdir …...

【Linux 内核源码分析】物理内存组织结构

多处理器系统两种体系结构: 非一致内存访问(Non-Uniform Memory Access,NUMA):这种体系结构下,内存被划分成多个内存节点,每个节点由不同的处理器访问。访问一个内存节点所需的时间取决于处理器…...

力扣日记2.21-【回溯算法篇】46. 全排列

力扣日记:【回溯算法篇】46. 全排列 日期:2023.2.21 参考:代码随想录、力扣 46. 全排列 题目描述 难度:中等 给定一个不含重复数字的数组 nums ,返回其 所有可能的全排列 。你可以 按任意顺序 返回答案。 示例 1&…...

[AIGC] Kafka 消费者的实现原理

在 Kafka 中,消费者通过订阅主题来消费数据。每个消费者都属于一个消费者组,消费者组中的多个消费者可以共同消费一个主题,实现分布式消费。每个消费者都会维护自己的偏移量,用于记录已经读取到的消息位置。消费者可以选择手动提交…...

Dubbo框架admin搭建

Dubbo服务监控平台,dubbo-admin是图形化的服务管理界面,从服务注册中心获取所有的提供者和消费者的配置。 dubbo-admin是前后端分离的项目,前端使用Vue,后端使用springboot。因此,前端需要nodejs环境,后端需…...

Linux 内存top命令详解

通过top命令可以监控当前机器的内存实时使用情况,该命令的参数解释如下: 第一行 15:30:14 —— 当前系统时间 up 1167 days, 5:02 —— 系统已经运行的时长,格式为时:分 1 users ——当前有1个用户登录系统 load average: 0.00, 0.01, 0.05…...

OCP使用CLI创建和构建应用

文章目录 环境登录创建project赋予查看权限部署第一个image创建route检查pod扩展应用 部署一个Python应用连接数据库创建secret加载数据并显示国家公园地图 清理参考 环境 RHEL 9.3Red Hat OpenShift Local 2.32 登录 通过 crc console --credentials 可以查看登录信息&…...

Chrome关闭时出现弹窗runtime error c++R6052,且无法关闭

环境: Chrome 版本121 Win10专业版 问题描述: Chrome关闭时出现弹窗runtime error cR6052,且无法关闭 解决方案: 1.任务管理器打开,强制结束进程 2.再次打开谷歌浏览器,打开设置关于Chrome&#xff0…...

使用分级同态加密防御梯度泄漏

抽象 联邦学习 (FL) 支持跨分布式客户端进行协作模型训练,而无需共享原始数据,这使其成为在互联和自动驾驶汽车 (CAV) 等领域保护隐私的机器学习的一种很有前途的方法。然而,最近的研究表明&…...

Linux简单的操作

ls ls 查看当前目录 ll 查看详细内容 ls -a 查看所有的内容 ls --help 查看方法文档 pwd pwd 查看当前路径 cd cd 转路径 cd .. 转上一级路径 cd 名 转换路径 …...

解决本地部署 SmolVLM2 大语言模型运行 flash-attn 报错

出现的问题 安装 flash-attn 会一直卡在 build 那一步或者运行报错 解决办法 是因为你安装的 flash-attn 版本没有对应上,所以报错,到 https://github.com/Dao-AILab/flash-attention/releases 下载对应版本,cu、torch、cp 的版本一定要对…...

【Zephyr 系列 10】实战项目:打造一个蓝牙传感器终端 + 网关系统(完整架构与全栈实现)

🧠关键词:Zephyr、BLE、终端、网关、广播、连接、传感器、数据采集、低功耗、系统集成 📌目标读者:希望基于 Zephyr 构建 BLE 系统架构、实现终端与网关协作、具备产品交付能力的开发者 📊篇幅字数:约 5200 字 ✨ 项目总览 在物联网实际项目中,**“终端 + 网关”**是…...

Android15默认授权浮窗权限

我们经常有那种需求,客户需要定制的apk集成在ROM中,并且默认授予其【显示在其他应用的上层】权限,也就是我们常说的浮窗权限,那么我们就可以通过以下方法在wms、ams等系统服务的systemReady()方法中调用即可实现预置应用默认授权浮…...

Mobile ALOHA全身模仿学习

一、题目 Mobile ALOHA:通过低成本全身远程操作学习双手移动操作 传统模仿学习(Imitation Learning)缺点:聚焦与桌面操作,缺乏通用任务所需的移动性和灵活性 本论文优点:(1)在ALOHA…...

服务器--宝塔命令

一、宝塔面板安装命令 ⚠️ 必须使用 root 用户 或 sudo 权限执行! sudo su - 1. CentOS 系统: yum install -y wget && wget -O install.sh http://download.bt.cn/install/install_6.0.sh && sh install.sh2. Ubuntu / Debian 系统…...

人机融合智能 | “人智交互”跨学科新领域

本文系统地提出基于“以人为中心AI(HCAI)”理念的人-人工智能交互(人智交互)这一跨学科新领域及框架,定义人智交互领域的理念、基本理论和关键问题、方法、开发流程和参与团队等,阐述提出人智交互新领域的意义。然后,提出人智交互研究的三种新范式取向以及它们的意义。最后,总结…...

使用LangGraph和LangSmith构建多智能体人工智能系统

现在,通过组合几个较小的子智能体来创建一个强大的人工智能智能体正成为一种趋势。但这也带来了一些挑战,比如减少幻觉、管理对话流程、在测试期间留意智能体的工作方式、允许人工介入以及评估其性能。你需要进行大量的反复试验。 在这篇博客〔原作者&a…...

宇树科技,改名了!

提到国内具身智能和机器人领域的代表企业,那宇树科技(Unitree)必须名列其榜。 最近,宇树科技的一项新变动消息在业界引发了不少关注和讨论,即: 宇树向其合作伙伴发布了一封公司名称变更函称,因…...