当前位置：首页 > news >正文

DALLE 3技术分析 - 训练方式/模型结构

news 2026/5/19 20:32:30

DALLE 3技术分析 - 训练方式/模型结构

1. 引言:

从 DALLE 3 开发者技术轨迹中，以及模型的演示视频，我们可以推导 DALLE 3 模型的某些架构信息。

2. DALLE 2 的评价:

DALLE 2 的性能不佳，主要归因于 CLIP 模型的限制。

CLIP 在为后续的 diffusion model 提供充足内容和详细特征上遇到了困难。

在生成详细图像方面，该模型遇到了显著的挑战。

3. GPT 模型的作用:

之前的实验使用 GPT 2 作为音频/视觉媒体的核心处理系统，任务是解释人类的文本输入并将其转化为 diffusion model 的视觉表示。

该基于 GPT 2 模型的性能超越了其众多同时代的模型，使得这种策略看起来是可行的。

对于 DALLE 3，作为自回归核心的 GPT 模型的确切版本，是 GPT 3 还是 GPT 4，尚未确定。但为了此次分析，我们假设使用了 GPT 4。

4. GPT 4 的图像解读:

几个月前，GPT 4 的图像解读能力已经显著提高，但 OpenAI 并未公之于众。

从商业角度来看，OpenAI 可能没有足够的计算资源进行图像解释。这引起了一个问题：计算能力被引导到哪里？

随着 DALLE 3 的发布，我们猜测 GPT 4 的图像能力被用于生成适合 DALLE 3 的训练数据。

GPT 4 的图像模型的架构可能采用与 BLIP2/mini GPT 4 相似的方法。这可能包括一个额外的视觉编码器(VIT)和几个转换层（例如 Qformer）来将图像转换为模型可以理解的格式。

预计 OpenAI 的 visual encoder/decoder 是自行训练的，可能导致更好的结果。

5. GPT 4 图像发布延迟的可能原因:

GPT 4 图像版本发布之久的可能原因：服务器被用于生产 image-text pair 数据集。

有了充足的数据，自然就为 DALLE 3 的创造铺平了道路。

6. DALLE 3 的假设结构和训练:

OpenAI 首先训练了一个高效的 visual encoder/decoder。

之后，他们可能采用与 miniGPT 4 类似的方法来训练 GPT 4 进行图像处理。

拥有了图像能力的 GPT 4 之后，可以生成一个全面的 image-text pair 数据集。这也可能是图像(image tokens)到文本(text tokens)的格式。

text tokens 到 image tokens 的配对可能被用于培养 DALLE 的主要部分，我们暂时称之为“GPT 4 image creator”。

接下来的步骤可能涉及将 image tokens 转换回图像。目前，diffusion model 在此任务上表现出色，甚至超过了原生 decoder。

我们猜测使用了一个 diffusion decoder 进行图像生成。

7. 最后的话:

此分析避免深入到模型的复杂细节，例如模型之间是否有潜在的 residual 结构，或 text tokens 是否与 image tokens 同时输入到 diffusion model 中。确定这些细节需要实际的实验操作。另外由于已经写的太长了，其中部分基于视频内容的推理暂时没有解释。

参考文献：
AI绘画软件DALL-E3上线，功能强大且免费使用

DALLE 3技术分析 - 训练方式/模型结构

DALLE 3技术分析 - 训练方式/模型结构 1. 引言: 从 DALLE 3 开发者技术轨迹中，以及模型的演示视频，我们可以推导 DALLE 3 模型的某些架构信息。 2. DALLE 2 的评价: DALLE 2 的性能不佳，主要归因于 CLIP 模型的限制。 CLIP 在为后续的 diffus…...

编程日记 2023/11/4 15:37:00

Go的自定义错误

在上一篇教程中，我们了解了 Go 中的错误表示以及如何处理标准库中的错误。我们还学习了如何从错误中提取更多信息。本教程介绍如何创建我们自己的自定义错误，我们可以在函数和包中使用这些错误。我们还将使用标准库所采用的相同技术来提供有关自定义错…...

编程日记 2023/11/4 15:35:59

在SpringMVC中Dubbo的使用https://tiantian.blog.csdn.net/article/details/134194696?spm1001.2014.3001.5502 阿里巴巴提供了Dubbo集成SpringBoot开源项目。(这个.....) 地址GitHub https://github.com/apache/dubbo-spring-boot-project 查看入门教程反正是pilipala一大…...

编程日记 2023/11/4 15:34:58

利用shp文件构建mask【MATLAB和ARCGIS】两种方法

1 ARCGIS （推荐！！！-速度很快） 利用Polygon to Raster 注意：由于我们想要的mask有效值是1，在进行转换的时候，注意设置转换字段【Value field】【Value field】通过编辑shp文件属性表…...

编程日记 2023/11/4 15:32:55

Luminar Neo Mac/Windows中文版：引领AI图像编辑的革命性时代

Luminar Neo运用先进的AI技术，能够自动化地完成许多繁琐的编辑任务，如色彩校正、噪点消除、人脸识别等。这不仅大大提高了工作效率，同时也降低了对专业知识和技能的要求。无论你是专业摄影师，还是摄影爱好者，甚至是一个…...

编程日记 2023/11/4 15:31:52

远程设备常用工具：向日葵、Todesk

其实按理说远程工具例如向日葵、Todesk如果是计算机专业、计算机从业者是必须知道的一个东西，但是在大学期间身边知道的人是少之又少的。向日葵、Todesk工具的优势：方便、快捷、速度快等等我就不过多阐述了 PS:现在我就是在学校用远程写这篇很多时候…...

编程日记 2023/11/4 15:30:51

JAVA七种常见排序算法

前言： 排序算法在计算机科学中扮演着至关重要的角色，它们用于将无序数据变为有序数据，以便更有效地检索和处理信息。不同的排序算法适用于不同的情况，因此了解它们的工作原理和性能特点对于选择正确的算法至关重要。本文提供的Jav…...

编程日记 2023/11/4 15:28:48

高质量绝世玄幻小说，情节引人入胜，一读成痴的绝佳选择

《我有一个修仙世界》在这个高科技后修仙时代，主角拥有资源丰富的原始修仙世界。他需要不断地探索、发掘、修炼，才能成为真正的修仙者。这是一本充满想象力和创意的小说。《长生武道：从五禽养生拳开始》林轩修炼养生类功法，通过…...

编程日记 2023/11/4 15:27:47

Flask三种添加路由的方法

Flask 是一个流行的 Python Web 框架，它提供了多种方法来添加路由。路由是将 URL 映射到特定函数的过程，它是构建 Web 应用程序的基础。本文将介绍 Flask 中几种常用的路由添加方法，并附带代码示例。方法一：使用装饰器 from flas…...

编程日记 2023/11/4 15:24:43

基于layui的select选择框修改为多选框

layui-xm-select 的功能强大，可多选、可下拉树、下拉日期多选、下拉折叠面板、下拉穿梭框、级联模式。首先在引用layui css和js 的基础上，再引用js：layui-xm-select layui-xm-select点击下载地址基本使用第一步: 下载第二步: 引入 layu…...

编程日记 2023/11/4 15:23:42

【技术分享】RK356X Android 使用 libgpiod 测试gpio

前言 libgpiod 是用于与 Linux GPIO 字符设备交互的 C 库和工具库；此项目包含六种命令行工具（gpiodetect、gpioinfo、gpioset、gpioget、gpiomon），使用这些工具可以在命令行设置和获取GPIO的状态信息；在程序开发中也可…...

编程日记 2023/11/4 15:22:41

代碼隨想錄算法訓練營|第五十九天|647. 回文子串、7516.最长回文子序列、动态规划总结篇。刷题心得（c++）

目录讀題 647. 回文子串看完代码随想录之后的想法 516.最长回文子序列看完代码随想录之后的想法 647. 回文子串 - 實作思路動態規劃思路雙指針思路 Code 動態規劃思路雙指針思路 516.最长回文子序列 - 實作思路 Code 动态规划 - 總結動態規劃基礎動…...

编程日记 2023/11/4 15:20:36

Qt封装的Halcon显示控件，支持ROI绘制

前言目前机器视觉ROI交互控件在C#上做的比较多，而Qt上做的比较少，根据作者 VSQtHalcon——显示图片，实现鼠标缩放、移动图片的文章，我在显示和移动控件的基础上，增加了ROI设置功能，并封装成了一个独立的Q…...

编程日记 2023/11/4 15:19:35

基于深度学的图像修复图像补全计算机竞赛

1 前言 🔥 优质竞赛项目系列，今天要分享的是基于深度学的图像修复图像补全该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！ 🧿 更多资料, 项目分享： https://gitee.com/dancheng-se…...

编程日记 2023/11/4 15:17:31

vue3框架全局修改样式（字体颜色以及初始化定义基础elemplent颜色）

问题1、全局修改vue管理系统框架的字体颜色（index.scss目录下修改） 问题2、vue3中使用elemplent-plus中的el-select组件，默认选中二级或三级的一个数据，没有显示label只显示了id 问题如下原因是因为这个属性为true了&#xff0…...

编程日记 2023/11/4 15:16:29

Linux - 进程控制（上篇）- 进程创建和进程终止

进程控制进程创建对于进程的创建，你肯定知道，在 C/C 当中使用 fork（）函数，以当前可执行程序生成的进程为父进程，创建这个父进程的一个子进程，这个子进程就是一个新的进程。如上图所示&a…...

编程日记 2023/11/4 15:15:27

NiceGui：Python中的轻量级GUI框架初体验

目录一、引言二、NiceGui概述三、NiceGui实战：一个简单的计算器应用四、NiceGui与其他GUI框架的比较五、注意事项总结与展望一、引言 Python作为一门功能强大且易于学习的编程语言，广泛应用于各种领域。在图形用户界面（GUI&…...

编程日记 2023/11/4 15:13:26

php 常用的接口和函数

ArrayAccess — interface to provide accessing to objects as arrays 提供以数组形式访问对象的接口。 interface synopsis 接口需要实现下面几个方法 interface ArrayAccess { /* Methods */ public offsetExists(mixed $offset): bool public offsetGet(mixed $offset):…...

编程日记 2023/11/4 15:12:24

【Flutter】Flutter 动画深入解析（2）：掌握 AnimatedBuilder 将动画的逻辑和 UI 代码分离

【Flutter】Flutter 动画深入解析（2）：掌握 AnimatedBuilder 将动画的逻辑和 UI 代码分离文章目录一、前言二、Flutter 动画简介三、什么是 AnimatedBuilder四、AnimatedBuilder 与其他动画小部件的比较五、如何使用 AnimatedBuilder六、实际业务中的应用场景七、完整示例八…...

编程日记 2023/11/4 15:11:22

Spring Boot中解决跨域问题(CORS)

1. 跨域介绍首先解释什么是跨域，跨域就是前端和后端的端口号不同；会产生跨域问题，这里浏览器的保护机制（同源策略）。同源策略：前端和后端的协议、域名、端口号三者都相同叫做同源。我们看一下不同源&am…...

编程日记 2023/11/4 15:10:21

Claude Code 用户如何通过 Taotoken 配置稳定 API 连接避免封号困扰

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度 Claude Code 用户如何通过 Taotoken 配置稳定 API 连接避免封号困扰基础教程类，针对经常遇到 Claude Code 封号或 Tok…...

编程新知 2026/5/19 20:27:31

AIGC 检测‘句长标准差‘到底是什么？嘎嘎降 AI 帮你 AI 率从 70% 降到 7%

AIGC 检测"句长标准差"到底是什么？嘎嘎降 AI 帮你 AI 率从 70% 降到 7% AIGC 检测算法 4.0 版本看的 5 项底层指标里——句长标准差权重最高（约 35%）。理解了这一项你就知道为什么手改一周降不下 AI 率。这篇文章把"句长标准差…...

编程新知 2026/5/19 19:55:04

ESP32玩转1.8寸LCD屏：用TFT_eSPI库做个桌面小时钟（附完整代码）

ESP32打造高颜值桌面时钟：从TFT_eSPI库到完整项目实战在创客的世界里，将硬件与代码结合创造出实用又有趣的项目总是令人兴奋。今天我们要用ESP32开发板和1.8寸ST7735驱动的LCD屏幕，打造一个功能完善、界面美观的桌面电子时钟。这个项目不仅适…...

编程新知 2026/5/19 18:51:23

探索ONVIF世界：轻松对接RTSP视频流的开源宝藏

探索ONVIF世界：轻松对接RTSP视频流的开源宝藏【下载地址】ONVIF协议RTSP视频流与OnvifDeviceManager对接实现本资源文件提供了一个成功实现ONVIF协议RTSP视频流与OnvifDeviceManager对接的代码示例。该示例对于希望实现ONVIF视频对接的开发者具有一定的参考价值 …...

编程新知 2026/5/19 18:25:40

如何在MATLAB中调用Taotoken聚合大模型API进行智能分析

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度如何在MATLAB中调用Taotoken聚合大模型API进行智能分析对于使用MATLAB进行科学计算、数据分析或算法开发的工程师和研究人员而言&…...

编程新知 2026/5/19 18:11:30

PDF转换器，PDF转换成Word， pdf转换成word文件，如何将pdf转换成word格式，pdf转换成word免费版，pdf转word免费版下载，pdf转换成可编辑的word

文章底部获取资源 PDF文件因其跨平台、格式固定的特性而被广泛应用。PDF文件的编辑难题时常困扰，想要对PDF文件进行修改或提取其中的内容时，却发现如同“铁板一块”，难以撼动。为了解决这一痛点，今天向大家推荐一款高效实用的PDF…...

编程新知 2026/5/19 17:54:45

Display Driver Uninstaller：专业显卡驱动清理工具完全指南

Display Driver Uninstaller：专业显卡驱动清理工具完全指南【免费下载链接】display-drivers-uninstaller Display Driver Uninstaller (DDU) a driver removal utility / cleaner utility 项目地址: https://gitcode.com/gh_mirrors/di/display-drivers-uninsta…...

编程新知 2026/5/19 17:43:44

2023B卷，书籍叠放

👨‍⚕️ 主页： gis分享者 👨‍⚕️ 感谢各位大佬点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏：华为OD面试文章目录一、🍀前言 1.1 ☘️题目详情 1.2 ☘️参考解题答案一、🍀前言 2023B卷，书籍叠放。 1.1 ☘️题目详情题目：书籍的长、…...

编程新知 2026/5/19 14:44:30

从“整蛊脚本”到实战：在虚拟机里安全玩转Windows批处理与VBS的5个实验

从“整蛊脚本”到实战：在虚拟机里安全玩转Windows批处理与VBS的5个实验当你第一次在网上看到那些号称能让电脑蓝屏、自动关机甚至修改注册表的脚本时，是否既好奇又害怕？这些看似神秘的代码背后，其实隐藏着Windows系统管理的核心…...

编程新知 2026/5/19 13:57:23

STM32F103C8T6驱动安信可GP-01定位模块：从NMEA数据解析到经纬度显示的完整流程

STM32F103C8T6与安信可GP-01定位模块实战：高精度经纬度解析全指南在物联网和嵌入式系统开发中，位置服务已成为核心功能之一。无论是资产追踪、导航设备还是智能农业系统，精准的定位能力都是实现这些应用的基础。本文将带你深入探索如何利用S…...

编程新知 2026/5/19 11:55:10

DALLE 3技术分析 - 训练方式/模型结构

DALLE 3技术分析 - 训练方式/模型结构

1. 引言:

2. DALLE 2 的评价:

3. GPT 模型的作用:

4. GPT 4 的图像解读:

5. GPT 4 图像发布延迟的可能原因:

6. DALLE 3 的假设结构和训练:

7. 最后的话:

相关文章：

DALLE 3技术分析 - 训练方式/模型结构

Go的自定义错误

SpringBoot集成Dubbo

利用shp文件构建mask【MATLAB和ARCGIS】两种方法

Luminar Neo Mac/Windows中文版：引领AI图像编辑的革命性时代

远程设备常用工具：向日葵、Todesk

JAVA七种常见排序算法

高质量绝世玄幻小说，情节引人入胜，一读成痴的绝佳选择

Flask三种添加路由的方法

基于layui的select选择框修改为多选框

【技术分享】RK356X Android 使用 libgpiod 测试gpio

代碼隨想錄算法訓練營|第五十九天|647. 回文子串、7516.最长回文子序列、动态规划总结篇。刷题心得（c++）

Qt封装的Halcon显示控件，支持ROI绘制

基于深度学的图像修复图像补全计算机竞赛

vue3框架全局修改样式（字体颜色以及初始化定义基础elemplent颜色）

Linux - 进程控制（上篇）- 进程创建和进程终止

NiceGui：Python中的轻量级GUI框架初体验

php 常用的接口和函数

【Flutter】Flutter 动画深入解析（2）：掌握 AnimatedBuilder 将动画的逻辑和 UI 代码分离

Spring Boot中解决跨域问题(CORS)

Claude Code 用户如何通过 Taotoken 配置稳定 API 连接避免封号困扰

AIGC 检测‘句长标准差‘到底是什么？嘎嘎降 AI 帮你 AI 率从 70% 降到 7%

ESP32玩转1.8寸LCD屏：用TFT_eSPI库做个桌面小时钟（附完整代码）

探索ONVIF世界：轻松对接RTSP视频流的开源宝藏

如何在MATLAB中调用Taotoken聚合大模型API进行智能分析

PDF转换器，PDF转换成Word， pdf转换成word文件，如何将pdf转换成word格式，pdf转换成word免费版，pdf转word免费版下载，pdf转换成可编辑的word

Display Driver Uninstaller：专业显卡驱动清理工具完全指南

2023B卷，书籍叠放

从“整蛊脚本”到实战：在虚拟机里安全玩转Windows批处理与VBS的5个实验

STM32F103C8T6驱动安信可GP-01定位模块：从NMEA数据解析到经纬度显示的完整流程