OpenAI全新发布的Sora,到底意味着什么?
16日凌晨,OpenAI发布了文本视频的工具(text-do-video)Sora,整个世界再次被震撼。
Sora的出现,到底意味着什么?
目录
- Sora的背景与概述
- Sora是什么?
- 能为我们做些什么?
- 存在的一些问题
- 文本视频模型效果展示
- 一年前AI生成的视频
- 一位24岁女性在摩洛哥马拉喀什的魔法时刻眨眼的极端特写镜头
- 一堆金毛巡回犬的幼崽在雪地里玩耍,它们的头从雪中探出,满是雪花
- 摄像机围绕一大堆展示不同节目的复古电视旋转
- 一个机器人在赛博朋克设定中的生活故事。
- 纽约城像亚特兰蒂斯一样沉没。鱼、鲸鱼、海龟和鲨鱼在纽约街道中游动。
- 一个形状如同巨人的巨大云朵盘踞在地球上方,向地球发射雷电。
- Sora的基本原理
- 自我学习物理规律
- 世界模型
- 通用人工智能
Sora的背景与概述
Sora是什么?
简单来说,就是OpenAI用GPT的能力来做视频文本对齐,通过将多个高分率视频素材进行降维处理,然后进行密集训练,最后达到一个想看什么就生成什么视频的效果。
Sora的底层同样采用的是Transformer架构,建立在过去的DALL·E和GPT的研究基础之上,采用了DALL·E3的重述技术,所以能更好的遵循用户的文本描述,并且也有极强的扩展性。
能为我们做些什么?
Sora能为我们做什么呢?我们只需要一段文本描述,就可以生成60秒1080P的视频,不光场景细腻、角色的表情也栩栩如生。
此外,Sora还能从静态图像中生成动画或拓展现有视频,从而创造多个画面,并且能够保持角色和视觉风格的一致性。
存在的一些问题
- 该模型会混淆提示的空间细节,并且难以准确模拟复杂场景中的物理现象。如下图,老人吹蜡烛前后,火苗没有丝毫变化。
- 它无法理解一个事例中包含的因果关系,比如酒杯摔碎,但是液体的流动和玻璃的破裂关系。
文本视频模型效果展示
一年前AI生成的视频
一位24岁女性在摩洛哥马拉喀什的魔法时刻眨眼的极端特写镜头
一堆金毛巡回犬的幼崽在雪地里玩耍,它们的头从雪中探出,满是雪花
摄像机围绕一大堆展示不同节目的复古电视旋转
一个机器人在赛博朋克设定中的生活故事。
纽约城像亚特兰蒂斯一样沉没。鱼、鲸鱼、海龟和鲨鱼在纽约街道中游动。
一个形状如同巨人的巨大云朵盘踞在地球上方,向地球发射雷电。
Sora的基本原理
OpenAI官方公布的Sora的技术文档,它没有透露太多关于Sora的技术细节,但大致介绍了Sora的基本原理:简单来说,Sora就是通过大量的学习视频来理解现实世界的动态变化,并用计算机视觉技术来模拟这些变化,并创造出全新的视觉内容。换句话说,就是Sora它所学习的不仅仅是视频里面的画面、像素点之类的,它同时也在学习视频里面那个世界的“物理规律”。
自我学习物理规律
听上去可能让人觉得难以费解,打个比方,比如你咬一口食物,食物这个时候应该出现一个咬痕,这就是物理规律。
如果咬完食物,它还是完整的状态,那它就不符合物理规律,现在大部分的视频软件并不能理解这些所谓的物理规律,它们所处理的对象只是画面,而不是画面里面的食物和人,以及它们之间的关系。
但是Sora似乎能够理解它们之间的关系,当Sora学习人咬食物的视频时,它记住的不仅仅是食物和嘴在一起的具体画面,还有咬过就会留痕的这个物理规律,当它以后有生成视频的时候,一旦涉及到咬这个动作,Sora就会知道下面应该会出现一个咬痕了。
世界模型
这是用Sora生成的一个咬食物的视频,用的是先记忆,再预测,这种理解世界的方式,是人类理解世界的方式,这种方式还有个名字,它被称为世界模型。
那什么叫世界模型,举个例子,你的记忆当中一定知道,一杯咖啡大概有多重,所以当你拿起一杯咖啡的时候,大脑准确预测说应该用多大的力,于是杯子用那个力就会被顺利拿起来,人都不会有意识的,但是如果这个杯子里面,碰巧没有咖啡呢,你就会用很大的力,去拿这个很轻的杯子,这个时候你的手就会立刻感觉不对,但杯子已经飞出去了,不过没关系,很快在你的记忆当中就会就会加上一条:杯子也有可能空的时候,于是,下次再去预测杯子重和不重的时候,你就不会太乱使力。
你做的事情越多,你的大脑里就会形成越复杂的世界模型,用于更准确的预测这个世界的反应,这就是人类与世界交互的方式:世界模型。
通用人工智能
Sora的技术文档里面有这么一句话,我们的结果表明,扩展视频生成模型是朝着构建通用物理世界模拟器迈进的有希望的模型,这样感觉很复杂,它实际是什么意思呢?
它的意思就是,OpenAI它最终想要做的,不是一个文本视频的工具,而是一个通用的物理世界模拟器,他们真正想要做的是为真实世界建模,而Sora只是验证了这条道路可行。
Sora的出现可能意味着,通用人工智能,也就是所谓的AGI正在加速到来,这才是OpenAI真正想做的事情。
为什么Sam Altman要筹集七万亿美金来重塑全球AI芯片的基础设施,7万亿相当于全球GDP的10%,它能买下2.5个微软,4个英伟达,或者11.5个特斯拉,为什么?
因为通往通用人工智能的道路上,除了要算法,还需要大量的算力,Sora来了,通用人工智能还会远吗?
这个世界正在发生着难以想象的变化,看似很远,但又瞬间近在眼前。
相关文章:

OpenAI全新发布的Sora,到底意味着什么?
16日凌晨,OpenAI发布了文本视频的工具(text-do-video)Sora,整个世界再次被震撼。 Sora的出现,到底意味着什么? 目录 Sora的背景与概述Sora是什么?能为我们做些什么?存在的一些问题 文…...
预防.locked.locked1勒索病毒攻击:保护数据安全
导言: 随着科技的发展,网络安全问题日益严重,其中勒索病毒是一种令人头痛的威胁。.locked和.locked1是两种常见的勒索病毒,它们会将用户的数据文件加密,并要求支付赎金以获取解密密钥。本文将介绍这两种勒索病毒的特点…...

【力扣hot100】刷题笔记Day5
前言 回学校了,荒废了半天之后打算奋发图强猛猛刷题,找实习!赚钱!! 560. 和为 K 的子数组 - 力扣(LeetCode) 前缀法 哈希表 这个题解解释比官方清晰,截个图方便看,另一…...

解锁Spring Boot中的设计模式—04.桥接模式:探索【桥接模式】的奥秘与应用实践!
桥接模式 桥接模式也称为桥梁模式、接口模式或者柄体(Handle and Body)模式,是将抽象部分与他的具体实现部分分离,使它们都可以独立地变化,通过组合的方式建立两个类之间的联系,而不是继承。 桥接模式是一种…...
[talib][python]ta-lib所有whl文件下载地址汇总
TA-Lib-0.4.28-cp312-cp312-win-amd64.whl下载地址:https://download.csdn.net/download/FL1623863129/88589956 ta-lib-0.4.25-cp311-cp311-win-amd64.whl下载地址:https://download.csdn.net/download/FL1623863129/88265329 TA-Lib-0.4.24-cp310-cp31…...

【开源】JAVA+Vue.js实现农村物流配送系统
目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 系统登录、注册界面2.2 系统功能2.2.1 快递信息管理:2.2.2 位置信息管理:2.2.3 配送人员分配:2.2.4 路线规划:2.2.5 个人中心:2.2.6 退换快递处理:…...
锁相放大器,数字锁相放大器.C和python版的源代码
数字锁相放大器. 锁相放大器, 它是一种可以从高噪声环境中提取出特定频率信号的放大器,工作原理主要是利用正弦函数的正交性进行信号的相位检测和幅值测量。如果你对锁相放大器感兴趣,我可以给你更详细的解释。 数字锁相放大器是利用软件算法来实现提取…...

(02)Hive SQL编译成MapReduce任务的过程
目录 一、架构及组件介绍 1.1 Hive底层架构 1.2 Hive组件 1.3 Hive与Hadoop交互过程 二、Hive SQL 编译成MR任务的流程 2.1 HQL转换为MR源码整体流程介绍 2.2 程序入口—CliDriver 2.3 HQL编译成MR任务的详细过程—Driver 2.3.1 将HQL语句转换成AST抽象语法树 词法、语…...

【C++初阶】值得一刷的字符串string相关oj题
👦个人主页:Weraphael ✍🏻作者简介:目前学习C和算法 ✈️专栏:C航路 🐋 希望大家多多支持,咱一起进步!😁 如果文章对你有帮助的话 欢迎 评论💬 点赞…...

《Go 简易速速上手小册》第10章:微服务与云原生应用(2024 最新版)
文章目录 10.1 构建微服务架构 - 探索 Go 语言的微观世界10.1.1 基础知识讲解10.1.2 重点案例:订单处理系统订单服务测试服务 10.1.3 拓展案例 1:用户认证服务安装所需的包实现用户模型和存储实现 JWT 生成和验证实现认证服务测试服务 10.1.4 拓展案例 2…...
代码随想录算法训练营第34天| Leetcode 860.柠檬水找零、406.根据身高重建队列、452. 用最少数量的箭引爆气球
文章目录 Leetcode 860.柠檬水找零Leetcode 406.根据身高重建队列Leetcode 452. 用最少数量的箭引爆气球 Leetcode 860.柠檬水找零 题目链接:Leetcode 860.柠檬水找零 题目描述: 在柠檬水摊上,每一杯柠檬水的售价为 5 美元。顾客排队购买你的…...

数据结构~二叉树(基础知识)
上一篇博客我们对树有了初步了解与学习,这篇我将初步学习二叉树!!(新年快乐!) 目录 二叉树 1、定义: 2、特点: 3、基本形态: 4、二叉树的种类: &…...

AI大模型学习笔记之四:生成式人工智能(AIGC)是如何工作的?
OpenAI 发布 ChatGPT 已经1年多了,生成式人工智能(AIGC)也已经广为人知,我们常常津津乐道于 ChatGPT 和 Claude 这样的人工智能系统能够神奇地生成文本与我们对话,并且能够记忆上下文情境。 Midjunery和DALLE 这样的AI…...
bat脚本 创建计划任务 一分钟设置ntp同步周期为60s
要在Windows中使用批处理脚本(.bat)创建一个计划任务来每分钟同步一次NTP时间,你可以使用schtasks命令来创建计划任务。下面是一个示例脚本,展示了如何创建这样一个计划任务: echo off set "taskNameSyncNTP"…...
python数据分析numpy基础之mean用法和示例
1 python数据分析numpy基础之mean用法和示例 python的numpy库的mean()函数,用于计算沿指定轴(一个轴或多个轴)的算术平均值。 用法 numpy.mean(a, axisNone, dtypeNone, outNone, keepdims<no value>, *, where<no value>)描述 返回数组元素的平均值…...

微服务学习 | Springboot整合Dubbo+Nacos实现RPC调用
🏷️个人主页:鼠鼠我捏,要死了捏的主页 🏷️系列专栏:Golang全栈-专栏 🏷️个人学习笔记,若有缺误,欢迎评论区指正 前些天发现了一个巨牛的人工智能学习网站,通俗易懂&…...

只允许访问固定网址,如何让电脑只能上指定的网站
在企业管理中,确保员工在工作时能够专注于指定的任务和资源至关重要。为了实现这一目标,许多企业选择限制员工电脑的访问权限,只允许他们访问固定的网址或网站。 这种策略不仅有助于提高工作效率,还能减少因不当上网行为带来的安全…...

作业帮 x TiDB丨多元化海量数据业务的支撑
导读 作业帮是一家成立于 2015 年的在线教育品牌,致力于用科技手段助力教育普惠。经过近十年的积累,作业帮运用人工智能、大数据等技术,为学生、老师、家长提供学习、教育解决方案,智能硬件产品等。随着公司产品和业务场景越来越…...

文生图提示词:天气条件
天气和气候 --天气条件 Weather Conditions 涵盖了从基本的天气类型到复杂的气象现象,为描述不同的天气和气候条件提供了丰富的词汇。 Sunny 晴朗 Cloudy 多云 Overcast 阴天 Partly Cloudy 局部多云 Clear 清晰 Foggy 雾 Misty 薄雾 Hazy 朦胧 Rainy 下雨 Showers …...
【nginx实践连载-3】发布VSTO应用
要使用 Nginx 发布 VSTO 应用程序,需要将 ClickOnce 发布文件夹部署到 Nginx 服务器上。以下是一些步骤: 将 ClickOnce 发布文件夹复制到 Nginx 服务器上。确认 Nginx 配置文件中有一个指向 ClickOnce 发布文件夹的位置块。确保Nginx 配置文件中启用了 …...

Lombok 的 @Data 注解失效,未生成 getter/setter 方法引发的HTTP 406 错误
HTTP 状态码 406 (Not Acceptable) 和 500 (Internal Server Error) 是两类完全不同的错误,它们的含义、原因和解决方法都有显著区别。以下是详细对比: 1. HTTP 406 (Not Acceptable) 含义: 客户端请求的内容类型与服务器支持的内容类型不匹…...
python如何将word的doc另存为docx
将 DOCX 文件另存为 DOCX 格式(Python 实现) 在 Python 中,你可以使用 python-docx 库来操作 Word 文档。不过需要注意的是,.doc 是旧的 Word 格式,而 .docx 是新的基于 XML 的格式。python-docx 只能处理 .docx 格式…...
鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个生活电费的缴纳和查询小程序
一、项目初始化与配置 1. 创建项目 ohpm init harmony/utility-payment-app 2. 配置权限 // module.json5 {"requestPermissions": [{"name": "ohos.permission.INTERNET"},{"name": "ohos.permission.GET_NETWORK_INFO"…...

《基于Apache Flink的流处理》笔记
思维导图 1-3 章 4-7章 8-11 章 参考资料 源码: https://github.com/streaming-with-flink 博客 https://flink.apache.org/bloghttps://www.ververica.com/blog 聚会及会议 https://flink-forward.orghttps://www.meetup.com/topics/apache-flink https://n…...
代码随想录刷题day30
1、零钱兑换II 给你一个整数数组 coins 表示不同面额的硬币,另给一个整数 amount 表示总金额。 请你计算并返回可以凑成总金额的硬币组合数。如果任何硬币组合都无法凑出总金额,返回 0 。 假设每一种面额的硬币有无限个。 题目数据保证结果符合 32 位带…...

【VLNs篇】07:NavRL—在动态环境中学习安全飞行
项目内容论文标题NavRL: 在动态环境中学习安全飞行 (NavRL: Learning Safe Flight in Dynamic Environments)核心问题解决无人机在包含静态和动态障碍物的复杂环境中进行安全、高效自主导航的挑战,克服传统方法和现有强化学习方法的局限性。核心算法基于近端策略优化…...
适应性Java用于现代 API:REST、GraphQL 和事件驱动
在快速发展的软件开发领域,REST、GraphQL 和事件驱动架构等新的 API 标准对于构建可扩展、高效的系统至关重要。Java 在现代 API 方面以其在企业应用中的稳定性而闻名,不断适应这些现代范式的需求。随着不断发展的生态系统,Java 在现代 API 方…...

Java后端检查空条件查询
通过抛出运行异常:throw new RuntimeException("请输入查询条件!");BranchWarehouseServiceImpl.java // 查询试剂交易(入库/出库)记录Overridepublic List<BranchWarehouseTransactions> queryForReagent(Branch…...

LeetCode - 148. 排序链表
目录 题目 思路 基本情况检查 复杂度分析 执行示例 读者可能出的错误 正确的写法 题目 148. 排序链表 - 力扣(LeetCode) 思路 链表归并排序采用"分治"的策略,主要分为三个步骤: 分割:将链表从中间…...
C#调用Rust动态链接库DLL的案例
C#调用Rust动态链接库DLL的案例 项目概述 这是一个演示C#调用Rust动态链接库DLL的项目,包含: C#主程序 (Program.cs)Rust动态链接库 (rust_to_csharp目录) 使用C#创建一个net9的控制台项目,不使用顶级语句 dotnet new console --framewo…...