当前位置: 首页 > news >正文

OpenAI SORA团队负责人 通往智能的方式 报告笔记

OpenAI SORA团队负责人 通往智能的方式 报告笔记

这个报告其实是2024年智源大会的主旨报告,OpenAI SORA和DALL-E团队负责人Aditya Ramesh给出的一段有关多模态大模型的报告。我去听了现场,感觉倍受启发,但是感觉很多并不能当场理解,于是下来又看了几遍,实在是非常的inspiring,于是打算写下一段笔记,来记录这个报告。但是与其说主题是多模态大模型,我更认为这个负责人在讨论的是通向智能的方式,所以自作主张换了个名字。

一. DaLL-E 1是通向智能的方式吗

DALL-E是一个基于自回归的图像生成模型,给定一段文本,生成一个图像。可以看到,生成的图像还是比较符合文本的描述的。

这里强调了它看到了Scaling with DALL-E,也就是DALL-E的缩放定律,就像大语言模型的缩放定律一样。即,

  1. 如果在一个小规模的模型上进行训练的话,可以看到光和反射、颜色和现状被很好的绘制出来了。
  2. 在一个相对大一点的规模上呢,就可以学习到艺术风格,更换一些属性等。
  3. 再大一点呢,就可以看到能够渲染出文字了!组合的一个泛化,甚至是image的上下文学习了!甚至可以实现image上的一些iq测试。

如下图

在这里插入图片描述

即便如此,Aditya在想一个关键的问题这是学习智能的好的方式吗,作者提到DALL-E 1的方法是学习一个模型,来压缩世界上所有的像素是一个非常困难的事情,需要建模很多信息(是VQGAN的那个部分吗)。Aditya还列出了一些其他的文章,这些文章都暗示了DALL-E不是实现智能的方式。比如说虽然iGPT能够在scale的时候取得比较好的结果,但是呢效率并不如CLIP。Aditya提到CLIP在从图像中提取智能的效率是CLIP的好几个数量级之倍。

所以作者给了一个很重要的结论DALL-E是一个有趣的项目,但是不是通向AGI的关键路径

二、图像表示学习的演化

Aditya先简单介绍了一下CLIP,这里就略过了。在介绍完CLIP后,作者提到了CLIP是一个巨大的范式转变,因为不需要手工标注的样本了。手工标准样本又花时间又痛苦,然而CLIP可以利用互联网上的自由文本,去学习一个在各个领域都很好的分类器。

接着,Aditya讨论了,图像表征学习的发展。最开始的时候,deep learning在image net上进行有监督的学习,预测图像的分类。接着呢,CLIP出现之后,可以通过互联网的文本-图像进行学习了,不需要提取手工特征了。最后还提到了一个文章,大致是通过训练一个图像编码器,用这个编码器来重建这个图像的caption,有点像之前的反过来。如下图。

在这里插入图片描述

所以,Aditya再次发问**基于文本的模拟是通向智能的方式吗?**作者又提到了iGPT。iGPT(似乎是一个生成式的图像模型,纯图像)通过大规模生成式学习能够学习到数据的结构,然后得到较好的表示(尽管不是很足够),那么文生图模型也能够学习到好的表示吗?Aditya得到的答案是:是。提到了your diffusion model is secretly a zero-shot classfier这个文章(如果没看过可以看我往期的博客)。这个文章基本的思想就是,即使你在建模给定文本的图像分布,这个模型也可以转换为分类模型。

所以作者给出了一个结论:我们的范式正在从给定图像来预测文本(比如说文本是分类的标签),转换为给定文本来预测图像

在这里插入图片描述

三、下一步与未来

接着作者提到了DALL-E3,这里有一个take away就是,在最具描述性(ultradescriptive)的文本上训练,会更具有效率。这告诉人们可以通过将语言当作脚手架,得到一个更好的无监督模型,脚手架这个比喻在智源大会里也经常被提到。

接着,作者举了一个比较有意思的例子来解释他的思想,如下图。中间这一列代表的是加了不同程度噪声的图像。加噪声的意义是为了代表剩下的部分(即没加噪声的部分)是希望去建模(or生成的),(这里应该没说错,就是没加噪声的部分是要生成的,然后噪声的部分可能就是只要生成的合理即可的这样)。

  1. 如果说图像里没有噪声的话,必须要用每一个具体的像素点来进行描述,图像里就没有不确定性了。
  2. 如果给模型添加一些噪声,那么就会有一些模型需要学习才能得到的,比如说狗的纹理之类的,就会存在一些不确定性,但是剩下的不确定性仅需要通过一个真正描述性的标题来得到。
  3. 如果增加了很多的噪声,那么就会有很多的不确定性,为了解释仍然存在信号的部分,只需要一个简单的说明了。
  4. 如果再加的话,模型就需要学习一切。此时并没有标题了,因为anything is possible。

接着,Aditya介绍了左边的这个环的意义。假设现在要学习一个文生图的模型, p ( i m a g e ∣ c a p t i o n ) p(image|caption) p(imagecaption),如果给它输入的是每个点的pixel value,那么它可能什么都学不到。如果计算量更多的话,那么就可以学到一个把比较有描述性的文本,转换成图像的模型,但是它可能学不到特别多,因为给它说得比较详细。如果计算量还能多,那么就能够从更多的描述性文本中进行学习。如果有特别大的规模,有可能就完全不需要conditional了。

在这里插入图片描述

接着Aditya进行了一段总结,然后补充了一下第二个图,如下图。说觉得可以从模拟 p ( t e x t ∣ i m a g e ) p(text|image) p(textimage),转移到 p ( i m a g e ∣ t e x t ) p(image|text) p(imagetext)。还提到说,有一些迹象证明,无条件建模任务的性能也会随着时间推移而提高。

对着这个图,Aditya又在这里进行了一番回顾,我们最开始其实不太用文本,只在预测一些信息的时候使用。接着就在训练模型的过程中越来越多的使用文本,比如CLIP和Image captioners。最后发现了其实可以通过使用非常描述性的标题来训练良好的生成式模型,最后,可能随着时间的推移,规模的扩大,语言可能真的只是脚手架,可以扔掉了,因为视觉世界可能是比文本更通用的界面

Aditya在这里提到说,之前的讨论代表了一个思维的转变。之前的思维是,固定数据集,找到更好的优化目标和模型结构来改善认知。 而最近而言呢,固定了优化目标,和模型结构,去找到更好的数据集。这个意思是,比如说如何使用更加描述性的文本,如何对文本排序等。

在这里插入图片描述

四、在将语言纳入视觉中,我们得到了什么

Aditya在这里又进行了一遍回顾,最开始我们想从图里生成文本,接着又想从文本里生成图。在随着计算的增加,语言的作用似乎在被纳入视觉。

在这里回顾了DALLE-2,因为DALLE-2可以做一些有趣的风格迁移,在拍了张图片之后,使用CLIP得到图像表征之后,就可以在视觉空间中进行风格化,而且保持本身的细节。

接着回顾了DALLE-1,DALLE-1学习到了图像的上下文学习,仅需给模型上半部分的图像,就可以生成对上半部分进行一些改变的下半部分, (如第一个图的im2im),尽管并没有被训练为如此。所以Aditya当时就认为这是一个通向各种图像控制的一个路径。

五、总结

作者最后总结压缩一切可能是正确的路径,而语言只是一个必要的脚手架。当然,最后可能也不够,需要一些额外的trick来让我们抵达。

语言虽然似乎可以帮我们抵达,但是最终也会归为视觉智能。

最后会给我们一个通用的界面,来模拟任何我们想要的东西。

相关文章:

OpenAI SORA团队负责人 通往智能的方式 报告笔记

OpenAI SORA团队负责人 通往智能的方式 报告笔记 这个报告其实是2024年智源大会的主旨报告,OpenAI SORA和DALL-E团队负责人Aditya Ramesh给出的一段有关多模态大模型的报告。我去听了现场,感觉倍受启发,但是感觉很多并不能当场理解&#xff…...

006-Sleuth(Micrometer)+ZipKin分布式链路追踪

这里写目录标题 1 分布式链路追踪概述1.1 为什么会出现这个技术?需要解决哪些问题?1.2 在分布式与微服务场景下需要解决的问题 2 新一代Spring Cloud Sleuth:Micrometer2.1 官网重要提示2.1.1 新一代Sleuth2.1.2 官网2.1.3 说明2.1.3.1 老项目…...

AI模型:追求全能还是专精?-- 之6 语言复杂度类别(Category 0~3 类)和语言功能性类型(Type 0~Ⅲ 型)之2

Q17、我前面说过,语言复杂度的0~3级(Category 0~3)表示了语言的的上下文相关性 : 完全不相关, 单相关的 单词上下文, 双相关的句子上下文 全相关的文章上下文 。我准备翻译为 Context - irrelative /relati…...

20240907 每日AI必读资讯

大疆发布 DJI Neo 掌上 Vlog 无人机! - DJI Neo 是 DJI 迄今最轻、最小的无人机,无需遥控器,掌上起降即可轻松拍出主角大片… |135 克轻巧便携 丨零门槛掌上起降 丨AI 智能跟拍 ,一键成片 丨多种操控,丰富…...

深度学习基础--卷积基础模块

本节主要关注卷积神经网络发展过程中具有里程碑意义的基础模块,了解它们的原理和设计细节 1. 批归一化 在机器学习中,一般会假设模型的输入数据的分布是稳定的。如果这个假设不成立,即模型输入数据的分布发生变化,则称为协变量偏…...

视频智能分析打手机检测算法安防监控打手机检测算法应用场景、算法源码、算法模型介绍

随着智能手机的普及,手机已成为人们生活中不可或缺的一部分。然而,在某些场合,如驾驶、会议、学校课堂等,不当使用手机可能会导致安全隐患或干扰他人。因此,开发出一种能够准确识别并阻止不当使用手机的行为检测算法显…...

6.2图的存储及基本操作

6.2.1顺序存储 邻接矩阵法,用一个一维数组存储图中顶点信息,二维数组存储图中边的信息 无向图 1.无向图的邻接矩阵关于对角线对称,可采用压缩存储 2.边数为e,则邻接矩阵中1为2e; 3.第i行or 第i列非零元素之和恰好为顶点i的度数 4.判断是否有边用0,1 5. 有向图 1.关于对…...

Java语法全解析:掌握基本规则,打造稳固编程基础!

Java基本语法是编写Java程序的核心,它包括了数据类型、运算符、控制结构、类与对象等基本组成部分。这些语法要素共同构成了Java程序的基础框架,掌握它们是进行Java编程的前提。以下是Java基本语法的详细介绍: 数据类型 基本数据类型&#x…...

同时播放多个视频

介绍一款小众的视频播放器,之前有小伙伴找那种可以同时播放多个视频的软件,“恒硕加播放”可以做到这一点,功能不是太多,但是日常播放是足够了。 同时播放多个视频控制多个视频跳到指定进度同时暂停/播放/停止/静音/倍速浏览系统…...

伴奏提取消除人声如何操作?轻松几步玩转音乐世界

你是否梦想着独自演绎一曲,或是进行个性化的混音创作,却又希望摆脱原唱声音的干扰?那么,学会免费伴奏提取就显得尤为关键。 在这篇文章中,我将为你展示四种简单易学的方法,让你能够轻松地从歌曲中提取出伴…...

uniapp二维码生成

uniapp二维码生成 参考文档依赖引入代码html部分生成代码&#xff08;vue3 hook&#xff09;使用 参考文档 【博主&#xff1a;ChoneyLove】uniapp中生成二维码及解决微信小程序端问题总结 依赖引入 npm i uqrcodejs代码 html部分 <canvas type"2d" id"…...

Android UID 和 userID 以及 appID

我们知道Android 操作系统是基于Linux内核的&#xff0c;所以Android 的UID 是基于 Linux UID的。 Linux UID Linux 本身就是一个多用户操作系统&#xff0c;每一个用户都会有一个UID&#xff0c;不同UID 之间的资源访问是受限的。 其中&#xff0c;Linux的DAC权限模型&#…...

Kafka的三高设计原理

1.生产者缓存机制--高性能 生产者缓存机制的主要目的是将消息打包&#xff0c;减少网络IO频率 kafka生产者端存在消息累加器RecordAccumulator&#xff0c;它会对每个Partition维护一个双端队列&#xff0c;队列中消息到达一定数量后 或者 到达一定时间后&#xff0c;通过sen…...

生信圆桌x生信宝库:生物信息学资源与工具的终极指南

介绍 生物信息学作为现代生物科学的重要分支&#xff0c;涉及到大量的数据处理、分析和存储工作。随着领域的不断发展&#xff0c;各类生物信息学资源与工具也如雨后春笋般涌现。这些资源涵盖了从基因组数据、蛋白质结构到代谢路径的方方面面&#xff0c;极大地丰富了科研人员的…...

centos7 install rocketmq 宿主机快速搭建RocketMQ单机开发环境_centos7 单机部署rocketmq命令

2214 Jps 2071 BrokerStartup 1947 NamesrvStartup ### 第四步&#xff1a;发送消息测试消费着启动export NAMESRV_ADDRlocalhost:9876 ./tools.sh org.apache.rocketmq.example.quickstart.Consumer 发送测试消息export NAMESRV_ADDRlocalhost:9876 ./tools.sh org.apache.roc…...

2024高教社杯全国大学生数学建模竞赛(A题)深度剖析 _ 建模完整过程+详细思路+代码全解析

问题1解答过程 1.1 螺线运动的基本几何模型 板凳龙的舞动路径为等距螺线。螺线是极坐标中一类常见曲线&#xff0c;其特点是半径随角度线性增加。我们可以用以下极坐标方程描述这条螺线&#xff1a; r ( θ ) p 2 π θ r(\theta) \frac{p}{2\pi} \theta r(θ)2πp​θ 其…...

What is Approximation Ratio?

Approximation Ratio 近似比率是用来衡量一个算法找到的近似解与最优解之间的差距的一个量化指标. 假设有一个优化问题&#xff0c;其最优解的值是OPT&#xff0c;用时间T&#xff0c;而我们的算法得到的解的值是ALG,用时间t。如果算法有一个2的近似比率&#xff0c;那么我们…...

探索Unity与C#的无限潜能:从新手到高手的编程之旅

在数字创意与技术创新交织的今天&#xff0c;Unity游戏引擎凭借其强大的跨平台能力和灵活的编程接口&#xff0c;成为了无数开发者心中的首选。而C#&#xff0c;作为Unity的官方脚本语言&#xff0c;更是以其面向对象的特性和丰富的库支持&#xff0c;为游戏开发注入了无限可能…...

初始MYSQL数据库(2)——创建、查询、更新、删除数据表的相关操作

找往期文章包括但不限于本期文章中不懂的知识点&#xff1a; 个人主页&#xff1a;我要学编程(ಥ_ಥ)-CSDN博客 所属专栏&#xff1a; MYSQL 前面我们学习了创建、删除数据库以及创建、查看、删除数据表的相关操作。 我们知道数据库中所存储的数据其实就是数据表中一条一条的记…...

OpenCV直方图计算

#include <opencv2/opencv.hpp> #include <vector>using namespace cv; using namespace std;int main() {cout << "直方图calcHist" << endl;Mat src imread("left.png", IMREAD_GRAYSCALE);if (src.empty()){cout << &qu…...

手游刚开服就被攻击怎么办?如何防御DDoS?

开服初期是手游最脆弱的阶段&#xff0c;极易成为DDoS攻击的目标。一旦遭遇攻击&#xff0c;可能导致服务器瘫痪、玩家流失&#xff0c;甚至造成巨大经济损失。本文为开发者提供一套简洁有效的应急与防御方案&#xff0c;帮助快速应对并构建长期防护体系。 一、遭遇攻击的紧急应…...

【Linux】shell脚本忽略错误继续执行

在 shell 脚本中&#xff0c;可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行&#xff0c;可以在脚本开头添加 set e 命令来取消该设置。 举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令&#xff0c;并忽略错误 rm somefile…...

python打卡day49

知识点回顾&#xff1a; 通道注意力模块复习空间注意力模块CBAM的定义 作业&#xff1a;尝试对今天的模型检查参数数目&#xff0c;并用tensorboard查看训练过程 import torch import torch.nn as nn# 定义通道注意力 class ChannelAttention(nn.Module):def __init__(self,…...

MySQL 隔离级别:脏读、幻读及不可重复读的原理与示例

一、MySQL 隔离级别 MySQL 提供了四种隔离级别,用于控制事务之间的并发访问以及数据的可见性,不同隔离级别对脏读、幻读、不可重复读这几种并发数据问题有着不同的处理方式,具体如下: 隔离级别脏读不可重复读幻读性能特点及锁机制读未提交(READ UNCOMMITTED)允许出现允许…...

基于服务器使用 apt 安装、配置 Nginx

&#x1f9fe; 一、查看可安装的 Nginx 版本 首先&#xff0c;你可以运行以下命令查看可用版本&#xff1a; apt-cache madison nginx-core输出示例&#xff1a; nginx-core | 1.18.0-6ubuntu14.6 | http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages ng…...

LeetCode - 394. 字符串解码

题目 394. 字符串解码 - 力扣&#xff08;LeetCode&#xff09; 思路 使用两个栈&#xff1a;一个存储重复次数&#xff0c;一个存储字符串 遍历输入字符串&#xff1a; 数字处理&#xff1a;遇到数字时&#xff0c;累积计算重复次数左括号处理&#xff1a;保存当前状态&a…...

【Redis技术进阶之路】「原理分析系列开篇」分析客户端和服务端网络诵信交互实现(服务端执行命令请求的过程 - 初始化服务器)

服务端执行命令请求的过程 【专栏简介】【技术大纲】【专栏目标】【目标人群】1. Redis爱好者与社区成员2. 后端开发和系统架构师3. 计算机专业的本科生及研究生 初始化服务器1. 初始化服务器状态结构初始化RedisServer变量 2. 加载相关系统配置和用户配置参数定制化配置参数案…...

【项目实战】通过多模态+LangGraph实现PPT生成助手

PPT自动生成系统 基于LangGraph的PPT自动生成系统&#xff0c;可以将Markdown文档自动转换为PPT演示文稿。 功能特点 Markdown解析&#xff1a;自动解析Markdown文档结构PPT模板分析&#xff1a;分析PPT模板的布局和风格智能布局决策&#xff1a;匹配内容与合适的PPT布局自动…...

Qwen3-Embedding-0.6B深度解析:多语言语义检索的轻量级利器

第一章 引言&#xff1a;语义表示的新时代挑战与Qwen3的破局之路 1.1 文本嵌入的核心价值与技术演进 在人工智能领域&#xff0c;文本嵌入技术如同连接自然语言与机器理解的“神经突触”——它将人类语言转化为计算机可计算的语义向量&#xff0c;支撑着搜索引擎、推荐系统、…...

项目部署到Linux上时遇到的错误(Redis,MySQL,无法正确连接,地址占用问题)

Redis无法正确连接 在运行jar包时出现了这样的错误 查询得知问题核心在于Redis连接失败&#xff0c;具体原因是客户端发送了密码认证请求&#xff0c;但Redis服务器未设置密码 1.为Redis设置密码&#xff08;匹配客户端配置&#xff09; 步骤&#xff1a; 1&#xff09;.修…...