当前位置: 首页 > news >正文

OpenAI全新发布的Sora,到底意味着什么?

16日凌晨,OpenAI发布了文本视频的工具(text-do-video)Sora,整个世界再次被震撼。
Sora的出现,到底意味着什么?

目录

  • Sora的背景与概述
    • Sora是什么?
    • 能为我们做些什么?
    • 存在的一些问题
  • 文本视频模型效果展示
    • 一年前AI生成的视频
    • 一位24岁女性在摩洛哥马拉喀什的魔法时刻眨眼的极端特写镜头
    • 一堆金毛巡回犬的幼崽在雪地里玩耍,它们的头从雪中探出,满是雪花
    • 摄像机围绕一大堆展示不同节目的复古电视旋转
    • 一个机器人在赛博朋克设定中的生活故事。
    • 纽约城像亚特兰蒂斯一样沉没。鱼、鲸鱼、海龟和鲨鱼在纽约街道中游动。
    • 一个形状如同巨人的巨大云朵盘踞在地球上方,向地球发射雷电。
  • Sora的基本原理
    • 自我学习物理规律
    • 世界模型
  • 通用人工智能

Sora的背景与概述

Sora是什么?

简单来说,就是OpenAI用GPT的能力来做视频文本对齐,通过将多个高分率视频素材进行降维处理,然后进行密集训练,最后达到一个想看什么就生成什么视频的效果。

Sora的底层同样采用的是Transformer架构,建立在过去的DALL·E和GPT的研究基础之上,采用了DALL·E3的重述技术,所以能更好的遵循用户的文本描述,并且也有极强的扩展性。

在这里插入图片描述

能为我们做些什么?

Sora能为我们做什么呢?我们只需要一段文本描述,就可以生成60秒1080P的视频,不光场景细腻、角色的表情也栩栩如生。

此外,Sora还能从静态图像中生成动画或拓展现有视频,从而创造多个画面,并且能够保持角色和视觉风格的一致性。

在这里插入图片描述

存在的一些问题

  1. 该模型会混淆提示的空间细节,并且难以准确模拟复杂场景中的物理现象。如下图,老人吹蜡烛前后,火苗没有丝毫变化。

在这里插入图片描述

  1. 它无法理解一个事例中包含的因果关系,比如酒杯摔碎,但是液体的流动和玻璃的破裂关系。
    在这里插入图片描述

文本视频模型效果展示

一年前AI生成的视频

在这里插入图片描述

一位24岁女性在摩洛哥马拉喀什的魔法时刻眨眼的极端特写镜头

在这里插入图片描述

一堆金毛巡回犬的幼崽在雪地里玩耍,它们的头从雪中探出,满是雪花

在这里插入图片描述

摄像机围绕一大堆展示不同节目的复古电视旋转

在这里插入图片描述

一个机器人在赛博朋克设定中的生活故事。

在这里插入图片描述

纽约城像亚特兰蒂斯一样沉没。鱼、鲸鱼、海龟和鲨鱼在纽约街道中游动。

在这里插入图片描述

一个形状如同巨人的巨大云朵盘踞在地球上方,向地球发射雷电。

在这里插入图片描述

Sora的基本原理

OpenAI官方公布的Sora的技术文档,它没有透露太多关于Sora的技术细节,但大致介绍了Sora的基本原理:简单来说,Sora就是通过大量的学习视频来理解现实世界的动态变化,并用计算机视觉技术来模拟这些变化,并创造出全新的视觉内容。换句话说,就是Sora它所学习的不仅仅是视频里面的画面、像素点之类的,它同时也在学习视频里面那个世界的“物理规律”。

在这里插入图片描述

自我学习物理规律

听上去可能让人觉得难以费解,打个比方,比如你咬一口食物,食物这个时候应该出现一个咬痕,这就是物理规律。

如果咬完食物,它还是完整的状态,那它就不符合物理规律,现在大部分的视频软件并不能理解这些所谓的物理规律,它们所处理的对象只是画面,而不是画面里面的食物和人,以及它们之间的关系。

但是Sora似乎能够理解它们之间的关系,当Sora学习人咬食物的视频时,它记住的不仅仅是食物和嘴在一起的具体画面,还有咬过就会留痕的这个物理规律,当它以后有生成视频的时候,一旦涉及到咬这个动作,Sora就会知道下面应该会出现一个咬痕了。

世界模型

这是用Sora生成的一个咬食物的视频,用的是先记忆,再预测,这种理解世界的方式,是人类理解世界的方式,这种方式还有个名字,它被称为世界模型。

在这里插入图片描述
那什么叫世界模型,举个例子,你的记忆当中一定知道,一杯咖啡大概有多重,所以当你拿起一杯咖啡的时候,大脑准确预测说应该用多大的力,于是杯子用那个力就会被顺利拿起来,人都不会有意识的,但是如果这个杯子里面,碰巧没有咖啡呢,你就会用很大的力,去拿这个很轻的杯子,这个时候你的手就会立刻感觉不对,但杯子已经飞出去了,不过没关系,很快在你的记忆当中就会就会加上一条:杯子也有可能空的时候,于是,下次再去预测杯子重和不重的时候,你就不会太乱使力。

你做的事情越多,你的大脑里就会形成越复杂的世界模型,用于更准确的预测这个世界的反应,这就是人类与世界交互的方式:世界模型。

通用人工智能

Sora的技术文档里面有这么一句话,我们的结果表明,扩展视频生成模型是朝着构建通用物理世界模拟器迈进的有希望的模型,这样感觉很复杂,它实际是什么意思呢?

它的意思就是,OpenAI它最终想要做的,不是一个文本视频的工具,而是一个通用的物理世界模拟器,他们真正想要做的是为真实世界建模,而Sora只是验证了这条道路可行。

Sora的出现可能意味着,通用人工智能,也就是所谓的AGI正在加速到来,这才是OpenAI真正想做的事情。

为什么Sam Altman要筹集七万亿美金来重塑全球AI芯片的基础设施,7万亿相当于全球GDP的10%,它能买下2.5个微软,4个英伟达,或者11.5个特斯拉,为什么?

因为通往通用人工智能的道路上,除了要算法,还需要大量的算力,Sora来了,通用人工智能还会远吗?

这个世界正在发生着难以想象的变化,看似很远,但又瞬间近在眼前。

相关文章:

OpenAI全新发布的Sora,到底意味着什么?

16日凌晨,OpenAI发布了文本视频的工具(text-do-video)Sora,整个世界再次被震撼。 Sora的出现,到底意味着什么? 目录 Sora的背景与概述Sora是什么?能为我们做些什么?存在的一些问题 文…...

预防.locked.locked1勒索病毒攻击:保护数据安全

导言: 随着科技的发展,网络安全问题日益严重,其中勒索病毒是一种令人头痛的威胁。.locked和.locked1是两种常见的勒索病毒,它们会将用户的数据文件加密,并要求支付赎金以获取解密密钥。本文将介绍这两种勒索病毒的特点…...

【力扣hot100】刷题笔记Day5

前言 回学校了,荒废了半天之后打算奋发图强猛猛刷题,找实习!赚钱!! 560. 和为 K 的子数组 - 力扣(LeetCode) 前缀法 哈希表 这个题解解释比官方清晰,截个图方便看,另一…...

解锁Spring Boot中的设计模式—04.桥接模式:探索【桥接模式】的奥秘与应用实践!

桥接模式 桥接模式也称为桥梁模式、接口模式或者柄体(Handle and Body)模式,是将抽象部分与他的具体实现部分分离,使它们都可以独立地变化,通过组合的方式建立两个类之间的联系,而不是继承。 桥接模式是一种…...

[talib][python]ta-lib所有whl文件下载地址汇总

TA-Lib-0.4.28-cp312-cp312-win-amd64.whl下载地址:https://download.csdn.net/download/FL1623863129/88589956 ta-lib-0.4.25-cp311-cp311-win-amd64.whl下载地址:https://download.csdn.net/download/FL1623863129/88265329 TA-Lib-0.4.24-cp310-cp31…...

【开源】JAVA+Vue.js实现农村物流配送系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 系统登录、注册界面2.2 系统功能2.2.1 快递信息管理:2.2.2 位置信息管理:2.2.3 配送人员分配:2.2.4 路线规划:2.2.5 个人中心:2.2.6 退换快递处理:…...

锁相放大器,数字锁相放大器.C和python版的源代码

数字锁相放大器. 锁相放大器, 它是一种可以从高噪声环境中提取出特定频率信号的放大器,工作原理主要是利用正弦函数的正交性进行信号的相位检测和幅值测量。如果你对锁相放大器感兴趣,我可以给你更详细的解释。 数字锁相放大器是利用软件算法来实现提取…...

(02)Hive SQL编译成MapReduce任务的过程

目录 一、架构及组件介绍 1.1 Hive底层架构 1.2 Hive组件 1.3 Hive与Hadoop交互过程 二、Hive SQL 编译成MR任务的流程 2.1 HQL转换为MR源码整体流程介绍 2.2 程序入口—CliDriver 2.3 HQL编译成MR任务的详细过程—Driver 2.3.1 将HQL语句转换成AST抽象语法树 词法、语…...

【C++初阶】值得一刷的字符串string相关oj题

👦个人主页:Weraphael ✍🏻作者简介:目前学习C和算法 ✈️专栏:C航路 🐋 希望大家多多支持,咱一起进步!😁 如果文章对你有帮助的话 欢迎 评论💬 点赞&#x1…...

《Go 简易速速上手小册》第10章:微服务与云原生应用(2024 最新版)

文章目录 10.1 构建微服务架构 - 探索 Go 语言的微观世界10.1.1 基础知识讲解10.1.2 重点案例:订单处理系统订单服务测试服务 10.1.3 拓展案例 1:用户认证服务安装所需的包实现用户模型和存储实现 JWT 生成和验证实现认证服务测试服务 10.1.4 拓展案例 2…...

代码随想录算法训练营第34天| Leetcode 860.柠檬水找零、406.根据身高重建队列、452. 用最少数量的箭引爆气球

文章目录 Leetcode 860.柠檬水找零Leetcode 406.根据身高重建队列Leetcode 452. 用最少数量的箭引爆气球 Leetcode 860.柠檬水找零 题目链接:Leetcode 860.柠檬水找零 题目描述: 在柠檬水摊上,每一杯柠檬水的售价为 5 美元。顾客排队购买你的…...

数据结构~二叉树(基础知识)

上一篇博客我们对树有了初步了解与学习,这篇我将初步学习二叉树!!(新年快乐!) 目录 二叉树 1、定义: 2、特点: 3、基本形态: 4、二叉树的种类: &…...

AI大模型学习笔记之四:生成式人工智能(AIGC)是如何工作的?

OpenAI 发布 ChatGPT 已经1年多了,生成式人工智能(AIGC)也已经广为人知,我们常常津津乐道于 ChatGPT 和 Claude 这样的人工智能系统能够神奇地生成文本与我们对话,并且能够记忆上下文情境。 Midjunery和DALLE 这样的AI…...

bat脚本 创建计划任务 一分钟设置ntp同步周期为60s

要在Windows中使用批处理脚本(.bat)创建一个计划任务来每分钟同步一次NTP时间,你可以使用schtasks命令来创建计划任务。下面是一个示例脚本,展示了如何创建这样一个计划任务: echo off set "taskNameSyncNTP"…...

python数据分析numpy基础之mean用法和示例

1 python数据分析numpy基础之mean用法和示例 python的numpy库的mean()函数&#xff0c;用于计算沿指定轴(一个轴或多个轴)的算术平均值。 用法 numpy.mean(a, axisNone, dtypeNone, outNone, keepdims<no value>, *, where<no value>)描述 返回数组元素的平均值…...

微服务学习 | Springboot整合Dubbo+Nacos实现RPC调用

&#x1f3f7;️个人主页&#xff1a;鼠鼠我捏&#xff0c;要死了捏的主页 &#x1f3f7;️系列专栏&#xff1a;Golang全栈-专栏 &#x1f3f7;️个人学习笔记&#xff0c;若有缺误&#xff0c;欢迎评论区指正 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&…...

只允许访问固定网址,如何让电脑只能上指定的网站

在企业管理中&#xff0c;确保员工在工作时能够专注于指定的任务和资源至关重要。为了实现这一目标&#xff0c;许多企业选择限制员工电脑的访问权限&#xff0c;只允许他们访问固定的网址或网站。 这种策略不仅有助于提高工作效率&#xff0c;还能减少因不当上网行为带来的安全…...

作业帮 x TiDB丨多元化海量数据业务的支撑

导读 作业帮是一家成立于 2015 年的在线教育品牌&#xff0c;致力于用科技手段助力教育普惠。经过近十年的积累&#xff0c;作业帮运用人工智能、大数据等技术&#xff0c;为学生、老师、家长提供学习、教育解决方案&#xff0c;智能硬件产品等。随着公司产品和业务场景越来越…...

文生图提示词:天气条件

天气和气候 --天气条件 Weather Conditions 涵盖了从基本的天气类型到复杂的气象现象&#xff0c;为描述不同的天气和气候条件提供了丰富的词汇。 Sunny 晴朗 Cloudy 多云 Overcast 阴天 Partly Cloudy 局部多云 Clear 清晰 Foggy 雾 Misty 薄雾 Hazy 朦胧 Rainy 下雨 Showers …...

【nginx实践连载-3】发布VSTO应用

要使用 Nginx 发布 VSTO 应用程序&#xff0c;需要将 ClickOnce 发布文件夹部署到 Nginx 服务器上。以下是一些步骤&#xff1a; 将 ClickOnce 发布文件夹复制到 Nginx 服务器上。确认 Nginx 配置文件中有一个指向 ClickOnce 发布文件夹的位置块。确保Nginx 配置文件中启用了 …...

python如何将word的doc另存为docx

将 DOCX 文件另存为 DOCX 格式&#xff08;Python 实现&#xff09; 在 Python 中&#xff0c;你可以使用 python-docx 库来操作 Word 文档。不过需要注意的是&#xff0c;.doc 是旧的 Word 格式&#xff0c;而 .docx 是新的基于 XML 的格式。python-docx 只能处理 .docx 格式…...

《基于Apache Flink的流处理》笔记

思维导图 1-3 章 4-7章 8-11 章 参考资料 源码&#xff1a; https://github.com/streaming-with-flink 博客 https://flink.apache.org/bloghttps://www.ververica.com/blog 聚会及会议 https://flink-forward.orghttps://www.meetup.com/topics/apache-flink https://n…...

OPENCV形态学基础之二腐蚀

一.腐蚀的原理 (图1) 数学表达式&#xff1a;dst(x,y) erode(src(x,y)) min(x,y)src(xx,yy) 腐蚀也是图像形态学的基本功能之一&#xff0c;腐蚀跟膨胀属于反向操作&#xff0c;膨胀是把图像图像变大&#xff0c;而腐蚀就是把图像变小。腐蚀后的图像变小变暗淡。 腐蚀…...

算法:模拟

1.替换所有的问号 1576. 替换所有的问号 - 力扣&#xff08;LeetCode&#xff09; ​遍历字符串​&#xff1a;通过外层循环逐一检查每个字符。​遇到 ? 时处理​&#xff1a; 内层循环遍历小写字母&#xff08;a 到 z&#xff09;。对每个字母检查是否满足&#xff1a; ​与…...

JS手写代码篇----使用Promise封装AJAX请求

15、使用Promise封装AJAX请求 promise就有reject和resolve了&#xff0c;就不必写成功和失败的回调函数了 const BASEURL ./手写ajax/test.jsonfunction promiseAjax() {return new Promise((resolve, reject) > {const xhr new XMLHttpRequest();xhr.open("get&quo…...

uniapp手机号一键登录保姆级教程(包含前端和后端)

目录 前置条件创建uniapp项目并关联uniClound云空间开启一键登录模块并开通一键登录服务编写云函数并上传部署获取手机号流程(第一种) 前端直接调用云函数获取手机号&#xff08;第三种&#xff09;后台调用云函数获取手机号 错误码常见问题 前置条件 手机安装有sim卡手机开启…...

uniapp 字符包含的相关方法

在uniapp中&#xff0c;如果你想检查一个字符串是否包含另一个子字符串&#xff0c;你可以使用JavaScript中的includes()方法或者indexOf()方法。这两种方法都可以达到目的&#xff0c;但它们在处理方式和返回值上有所不同。 使用includes()方法 includes()方法用于判断一个字…...

在 Spring Boot 中使用 JSP

jsp&#xff1f; 好多年没用了。重新整一下 还费了点时间&#xff0c;记录一下。 项目结构&#xff1a; pom: <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://ww…...

2025年低延迟业务DDoS防护全攻略:高可用架构与实战方案

一、延迟敏感行业面临的DDoS攻击新挑战 2025年&#xff0c;金融交易、实时竞技游戏、工业物联网等低延迟业务成为DDoS攻击的首要目标。攻击呈现三大特征&#xff1a; AI驱动的自适应攻击&#xff1a;攻击流量模拟真实用户行为&#xff0c;差异率低至0.5%&#xff0c;传统规则引…...

Python学习(8) ----- Python的类与对象

Python 中的类&#xff08;Class&#xff09;与对象&#xff08;Object&#xff09;是面向对象编程&#xff08;OOP&#xff09;的核心。我们可以通过“类是模板&#xff0c;对象是实例”来理解它们的关系。 &#x1f9f1; 一句话理解&#xff1a; 类就像“图纸”&#xff0c;对…...