当前位置：首页 > news >正文

Dalle-3、Sora、Stable Diffusion 3 掀起AIGC新浪潮

news 2026/2/10 17:50:25

随着科技的飞速发展，我们迎来了视觉AIGC高光时刻，一个充满无限可能与机遇的新时代。在这个时代里，三大里程碑Dalle-3、Sora和Stable Diffusion 3以其炸裂式的技术发展，引领着AIGC领域的新浪潮。文章首先做相应简要介绍，后半部分着重做新兴技术拆解分析，看看究竟哪些模块值得借鉴！

Dalle-3在2023年9月以其强大的图像生成能力惊艳了世人。它从精细化的文本描述入手，融合进了GPT-4的丰富caption能力，另外还引入了早已验证成功了latent空间替代逐pixel的预测，大幅提高了生成图像的质量和多样性。Dalle-3的出现，极大地推动了视觉AIGC领域的发展，为后续的效果创新奠定了坚实的基础。以下是官方样例：

紧随其后的是2024年2月15的Sora，它在通用视频生成领域取得了突破性的进展。Sora引入了先进的DiTs模块替换掉了UNET，并且将视频处理成了Transformer结构中的visual patch，极大的提升了视频生成的性能，引发了业界广泛的关注。

压轴的是2024年2月22的Stable Diffusion 3，即图像生成领域的最新SOTA。它引入了更为先进的扩散过程和噪声估计技术Flow Matching，精细化的文本描述配合多模DiTs，使得生成的图像更具指令跟随能力，尤其在图像中文本控制的表现上刷新了新高度。Stable Diffusion 3的出现，不仅提升了扩散模型在图像生成任务中的性能，还为其他领域如自然语言处理、语音识别等提供了可借鉴的技术思路。以下是官方样例：

这三大技术的崛起，标志着视觉AIGC元年技术大爆炸的到来。它们不仅在各自领域内取得了卓越的成就，还在相互融合中催生出更多新的应用场景和商业模式。未来，随着技术的不断进步和创新，我们有理由相信，视觉AIGC将会为人类带来更多的惊喜和可能。

一、Dalle-3
论文题目：Improving Image Generation with Better Captions，https://cdn.openai.com/papers/dall-e-3.pdf

体验入口：Bing AI - 搜索，https://cn.bing.com/create

发布时间：2023.9

亮点：
1.）精细化caption
论文着重宣传部分。caption生成模块使用了CLIP（Contrastive Language-Image Pretraining）图像编码器和GPT语言模型（GPT-4），可为每张图像生成细致的文字描述。以下是用GPT-4生成更加精细化caption的例子：

2.）LDM diffusion
图像生成模块先用VAE将高分辨率图像压缩为低维向量，降低学习难度，然后使用T5 Transformer将文本编码为向量，并通过GroupNorm层将其注入LDM diffusion模型而且像素级diffusion，指导图像生成方向。与SDXL类似在潜空间进行diffusion是DALL-E 3比前两代生成的图片质量更好的核心原因之一。

二、Sora
论文题目：Video generation models as world simulators，https://openai.com/research/video-generation-models-as-world-simulators

体验入口：Video generation models as world simulators

发布时间：2024.2.15

亮点：
1.）visual patch
Sora将视频数据转换成Transformer大模型可以使用的tokens。这个过程涉及到将视频中的多帧图像进行深度学习压缩，并加上第三维的时间信息，形成patches。这些patches作为tokens，可以应用于Transformer模型中。这种数据转换方式使得Sora能够处理和理解视频数据，为后续的视频生成和处理打下基础。：

2.）diffusion transformer（DiTs）
Sora运用扩散模型来处理视频生成的连续性和细节刻画问题，而Transformer则用于理解并整合复杂的时空上下文信息。通过这样的组合方式，Sora能够高效且创造性地生成高质量的视频内容。具体来讲，使用Transformers替换扩散模型中U-Net主干网络，分析发现，这种Diffusion Transformers（DiTs）不仅速度更快（更高的Gflops），而且在ImageNet 512×512和256×256的类别条件图片生成任务上，取得了更好的效果，256×256上实现了SOTA的FID指标（2.27）。DiTs论文：Scalable Diffusion Models with Transformers，https://arxiv.org/abs/2212.09748。

其中DiTs结构如下：

三、SD-3
论文题目：Scaling Rectified Flow Transformers for High-Resolution Image Synthesis，https://arxiv.org/pdf/2403.03206.pdf

体验入口：https://stability.ai/stablediffusion3

发布时间：2024.02.22

该图表以 SD3 为基准，基于人类偏好评估，展示了 SD3 在视觉美学、提示遵循和排版等方面相对于其他竞争模型的优势。

亮点：
1.）diffusion transformer（DiTs）
与Sora类似用Latent Diffusion Transformer（DiTs）换掉扩散模型中的 U-Net 结构。SD 3架构图如下所示：

具体来讲，多模态扩散是基座，该架构是建立在 DiT基础上。原始DiT 只考虑类别条件下的图像生成，并使用调制机制来对扩散过程的时间步和类别标签进行条件约束。MM-DiT有如下特点。

1、输入侧：简单文本特征+timestep，丰富文本特征，带噪latent特征+位置编码。

2、多模态DiT：如图 2b 所示，为文本和图像两种模态使用两组独立的权重，然后将两种模态转化后的特征连接起来进行attention后继续分拆出来文本与图像分支，如此嵌套。最终达到文本控制的最大化。

2.）Flow Matching
Flow Matching是一个新的生成模型框架，这项研究为基于连续归一化流（CNF）的生成建模引入了一种新范式，实现了以前所未有的规模训练 CNF。这个框架不依赖复杂的模拟或对数似然估计，而是直接处理生成目标概率路径的向量场。简单来说，Flow Matching给我们提供了一张地图（向量场）和一条路线（概率路径），让我们能够更清晰地了解数据是如何生成的。通过这张地图和路线，我们可以更轻松地训练生成模型，让它学习从噪声中生成出我们想要的数据。Flow Matching还提出了一个叫做条件Flow Matching (CFM)的损失函数，这个函数让模型的训练变得更容易。同时，它还支持各种概率路径，包括diffusion路径和OT路径，这让我们在训练模型时有了更多的选择。使用 Flow Matching 技术的意义则在于提升采样效率。Flow Matching论文：Flow Matching for Generative Modeling，https://arxiv.org/pdf/2210.02747.pdf。

图2和图6是Flow Matching对比diffusion和OT示意图
————————————————

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/sunbaigui/article/details/136898729

Dalle-3、Sora、Stable Diffusion 3 掀起AIGC新浪潮

相关文章：

Dalle-3、Sora、Stable Diffusion 3 掀起AIGC新浪潮

Unity 视频组件 VideoPlayer

RSTP环路避免实验（华为）

Arduino IDE工程代码多文件编程和中文设置

【微服务】Eureka（服务注册，服务发现）

windows上ssh设置代理，直接访问公司内网

C++ union用法

JavaSE_运算符案例分析

15、Spring Cloud Alibaba Sentinel实现熔断与限流

Linux logout命令教程：如何安全地退出Linux会话(附实例详解和注意事项)

数据结构——顺序表（C语言版）

Knative 助力 XTransfer 加速应用云原生 Serverless 化

服务器离线配置vscode连接，conda虚拟环境

各种需要使用的方法--＞vue/微信小程序/layui

360奇酷刷机 360刷机助手 QGDP360手机QGDP刷机

2299. 强密码检验器 II

跟着cherno手搓游戏引擎【29】Batch简单合批

粘包/半包及解决方案

2024华为软件精英挑战赛记录

数据可视化艺术：Matplotlib与Seaborn实战

基于算法竞赛的c++编程（28）结构体的进阶应用

R语言AI模型部署方案：精准离线运行详解

深入理解JavaScript设计模式之单例模式

深入解析C++中的extern关键字：跨文件共享变量与函数的终极指南

Unity | AmplifyShaderEditor插件基础（第七集：平面波动shader）

html css js网页制作成品——HTML+CSS榴莲商城网页设计（4页）附源码

MFC 抛体运动模拟：常见问题解决与界面美化

Kafka主题运维全指南：从基础配置到故障处理

Docker、Wsl 打包迁移环境

【汇编逆向系列】六、函数调用包含多个参数之多个整型-参数压栈顺序，rcx,rdx,r8,r9寄存器