当前位置：首页 > article >正文

生成式深度学习（四）

article 2026/3/15 18:37:20

原文Generative Deep Learning译者飞龙协议CC BY-NC-SA 4.0第十四章结论2018 年 5 月我开始着手第一版这本书的工作。五年后我对生成 AI 的无限可能性和潜在影响感到比以往任何时候都更加兴奋。在这段时间里我们看到了这个领域的惊人进步对真实世界应用有着看似无限的潜力。我对我们迄今为止所取得的成就感到敬畏和惊叹并迫不及待地期待着生成 AI 未来几年将对世界产生的影响。生成深度学习有能力以我们无法想象的方式塑造未来。此外随着我为这本书研究内容我越来越清楚地意识到这个领域不仅仅是关于创建图像、文本或音乐。我相信生成深度学习的核心是智能本身的秘密。本章的第一部分总结了我们在生成 AI 之旅中达到这一点的过程。我们将按时间顺序浏览自 2014 年以来的生成 AI 发展时间轴以便您可以看到每种技术在生成 AI 历史中的位置。第二部分解释了我们目前在最先进的生成 AI 方面的位置。我们将讨论生成深度学习方法的当前趋势以及普通公众可以使用的当前现成模型。接下来我们将探讨生成 AI 的未来以及前方的机遇和挑战。我们将考虑未来五年生成 AI 可能会是什么样子以及它对社会和商业的潜在影响并解决一些主要的伦理和实际问题。生成 AI 时间轴图 14-1 是我们在本书中一起探索的生成建模关键发展的时间轴。颜色代表不同的模型类型。生成 AI 领域建立在深度学习早期发展的基础上比如反向传播和卷积神经网络这些技术解锁了模型在大规模数据集上学习复杂关系的可能性。在本节中我们将研究生成 AI 的现代历史从 2014 年开始这一历史发展速度惊人。为了帮助我们理解所有内容如何相互关联我们可以大致将这段历史分为三个主要时代2014 年至 2017 年VAE 和 GAN 时代2018 年至 2019 年Transformer 时代2020 年至 2022 年大模型时代https://github.com/OpenDocCN/ibooker-dl-zh/raw/master/docs/gen-dl/img/gdl2_1401.png图 14-1。从 2014 年到 2023 年的生成 AI 简史注意一些重要的发展如 LSTM 和早期基于能量的模型[例如玻尔兹曼机]在这个时间轴之前2014 年至 2017 年VAE 和 GAN 时代VAE 的发明可以说是点燃生成 AI 火药桶的火花。这篇论文展示了不仅可以生成简单的图像如 MNIST 数字还可以生成更复杂的图像如面孔而且可以在一个可以平滑遍历的潜在空间中生成。2014 年GAN 的引入紧随其后这是一种全新的对抗性框架用于解决生成建模问题。接下来的三年被逐渐更令人印象深刻的 GAN 系列扩展所主导。除了对 GAN 模型架构DCGAN2015、损失函数Wasserstein GAN2017和训练过程ProGAN2017的基本改变外还使用 GAN 处理了新的领域如图像到图像的转换pix2pix2016和 CycleGAN2017和音乐生成MuseGAN2017。在这个时代还引入了重要的 VAE 改进如 VAE-GAN2015和后来的 VQ-VAE2017并且在“世界模型”论文中看到了对强化学习的应用。在这段时间内已建立的自回归模型如 LSTMs 和 GRUs仍然是文本生成的主导力量。相同的自回归思想也被用于生成图像PixelRNN2016 年和 PixelCNN2016 年被引入作为思考图像生成的新方法。还在测试其他图像生成方法例如 RealNVP 模型2016 年为后来的各种归一化流模型铺平了道路。在 2017 年 6 月一篇开创性的论文《注意力就是一切》发表开启了以 Transformer 为中心的生成 AI 的下一个时代。2018 年至 2019 年Transformer 时代Transformer 的核心是注意力机制它消除了旧的自回归模型如 LSTMs中存在的循环层的需求。Transformer 随着 2018 年 GPT仅解码器 Transformer和 BERT仅编码器 Transformer的推出迅速崭露头角。接下来的一年逐渐建立了更大的语言模型通过将它们视为纯文本到文本生成问题擅长各种任务其中 GPT-22018 年15 亿参数和 T52019 年110 亿参数是杰出的例子。Transformer 也开始成功应用于音乐生成例如 Music Transformer2018 年和 MuseNet2019 年模型的引入。在这两年里也发布了几个令人印象深刻的 GAN巩固了该技术作为图像生成的最先进方法的地位。特别是SAGAN2018 年和更大的 BigGAN2018 年将注意力机制与 GAN 框架结合起来取得了令人难以置信的结果而 StyleGAN2018 年和后来的 StyleGAN22019 年展示了如何以惊人的细粒度控制生成图像的风格和内容。另一个正在积聚动力的生成 AI 领域是基于分数的模型NCSN2019 年最终为生成 AI 领域的下一个重大变革——扩散模型铺平了道路。2020 年至 2022 年大模型时代这个时代见证了几个模型的推出这些模型融合了不同生成建模家族的思想并加速了现有架构。例如VQ-GAN2020 年将 GAN 鉴别器引入 VQ-VAE 架构Vision Transformer2020 年展示了如何训练 Transformer 在图像上运行的可能性。2022 年发布了 StyleGAN-XL这是对 StyleGAN 架构的进一步更新可以生成 1024×1024 像素的图像。2020 年推出了两个模型为所有未来大型图像生成模型奠定了基础DDPM 和 DDIM。突然之间扩散模型在图像生成质量方面成为 GAN 的竞争对手正如 2021 年的论文标题“扩散模型在图像合成方面击败了 GAN”所明确说明的那样。扩散模型的图像质量令人难以置信地好它们只需要训练一个单一的 U-Net 网络而不是 GAN 的双网络设置使训练过程更加稳定。大约在同一时间GPT-32020 年发布了——这是一个庞大的 1750 亿参数的 Transformer可以以一种几乎难以理解的方式生成几乎任何主题的文本。该模型通过一个网络应用程序和 API 发布允许公司在其基础上构建产品和服务。ChatGPT2022 年是一个围绕 OpenAI 最新版本的 GPT 的网络应用程序和 API 封装器允许用户与 AI 就任何主题进行自然对话。在 2021 年和 2022 年一大批其他大型语言模型相继发布以与 GPT-3 竞争包括微软和英伟达的 Megatron-Turing NLG2021 年DeepMind 的 Gopher2021 年和 Chinchilla2022 年谷歌的 LaMDA2022 年和 PaLM2022 年以及 Aleph Alpha 的 Luminous2022 年。还发布了一些开源模型如 EleutherAI 的 GPT-Neo2021 年GPT-J2021 年和 GPT-NeoX2022 年Meta 的 66B 参数 OPT 模型2022 年谷歌的 Fine-tuned Flan-T5 模型2022 年Hugging Face 的 BLOOM2022 年等等。这些模型都是 Transformer 的变体训练在大量数据语料库上。强大的 Transformer 用于文本生成和最先进的扩散模型用于图像生成的迅速崛起意味着过去两年生成 AI 发展的重点大部分集中在多模态模型上即在超过一个领域例如文本到图像模型上运行的模型。这一趋势始于 2021 年当 OpenAI 发布了 DALL.E这是一个基于离散 VAE类似于 VQ-VAE和 CLIP一种预测图像/文本对的 Transformer 模型的文本到图像模型。随后是 GLIDE2021 年和 DALL.E 22022 年更新了模型的生成部分使用扩散模型而不是离散 VAE取得了真正令人印象深刻的结果。这一时代还见证了谷歌发布的三个文本到图像模型Imagen2022 年使用 Transformer 和扩散模型Parti2022 年使用 Transformers 和 ViT-VQGAN 模型以及后来的 MUSE2023 年使用 Transformers 和 VQ-GANs。DeepMind 也发布了 Flamingo2022 年这是一个视觉语言模型建立在他们的大型语言模型 Chinchilla 的基础上允许图像作为提示数据的一部分。2021 年引入的另一个重要扩散进展是潜在扩散其中扩散模型在自动编码器的潜在空间内进行训练。这一技术推动了 Stable Diffusion 模型的诞生该模型由 Stability AI、CompVis 和 Runway 在 2022 年联合合作发布。与 DALL.E 2、Imagen 和 Flamingo 不同Stable Diffusion 的代码和模型权重是开源的这意味着任何人都可以在自己的硬件上运行该模型。生成 AI 的当前状态当我们结束对生成 AI 历史的探索时现在重要的是反思我们在当前最先进应用和模型方面的立足点。让我们花一点时间评估我们在这一领域迄今取得的进展和关键成就。大型语言模型现在文本生成的生成 AI 几乎完全集中在构建大型语言模型LLMs上它们的唯一目的是直接从大量文本语料库中建模语言即它们被训练来预测下一个词以解码器 Transformer 的风格。大型语言模型方法被广泛采用因为它具有灵活性和在各种任务上表现出色的能力。同一模型可以用于问答、文本摘要、内容创作等多种示例因为最终每个用例都可以被构建为一个文本到文本问题其中特定任务指令提示作为模型输入的一部分给出。让我们以GPT-3为例。图 14-2 展示了同一模型如何用于文本摘要和内容创作。https://github.com/OpenDocCN/ibooker-dl-zh/raw/master/docs/gen-dl/img/gdl2_1402.png图 14-2。来自 GPT-3 的输出——未突出显示的文本是提示绿色突出显示的文本是 GPT-3 的输出请注意在这两种情况下提示包含相关的指令。GPT-3 的任务只是逐个标记地继续提示。它没有一个可以查找信息的事实数据库也没有可以复制到答案中的文本片段。它只被要求预测接下来最有可能跟随现有标记的标记然后将这个预测附加到提示中以生成下一个标记依此类推。令人难以置信的是这种简单的设计足以使语言模型在各种任务中表现出色如图 14-2 所示。此外它赋予了语言模型令人难以置信的灵活性可以根据任何提示生成逼真的文本作为回应——想象力通常是限制因素图 14-3 显示自 2018 年原始 GPT 模型发布以来大型语言模型的规模如何增长。参数数量呈指数增长直到 2021 年底Megatron-Turing NLG 达到 5300 亿参数。最近更多的重点放在构建更高效的语言模型上这些模型使用更少的参数因为更大的模型在生产环境中更昂贵且速度较慢。https://github.com/OpenDocCN/ibooker-dl-zh/raw/master/docs/gen-dl/img/gdl2_1403.png图 14-3. 大型语言模型橙色和多模型粉色的参数数量随时间变化许多人仍认为 OpenAI 的 GPT 系列GPT-3、GPT-3.5、GPT-4 等是目前个人和商业使用中最强大的最新语言模型套件。它们可以通过网络应用和API使用。大型语言模型家族的另一个最新成员是 Meta 推出的大型语言模型 Meta AILLaMA¹这是一套从 7B 到 65B 参数大小的模型系列纯粹基于公开可用的数据集进行训练。今天存在的一些最强大的 LLM 的摘要显示在表 14-1 中。有些模型如 LLaMA是不同规模模型的系列—在这种情况下最大模型的规模显示在这里。一些模型的预训练权重是完全开源的这意味着任何人都可以免费使用和构建。表 14-1. 大型语言模型模型日期开发者# 参数开源GPT-32020 年 5 月OpenAI1750 亿否GPT-Neo2021 年 3 月EleutherAI27 亿是GPT-J2021 年 6 月EleutherAI60 亿是Megatron-Turing NLG2021 年 10 月微软和英伟达5300 亿否Gopher2021 年 12 月DeepMind2800 亿否LaMDA2022 年 1 月谷歌1370 亿否GPT-NeoX2022 年 2 月EleutherAI200 亿是Chinchilla2022 年 3 月DeepMind700 亿否PaLM2022 年 4 月谷歌5400 亿否Luminous2022 年 4 月Aleph Alpha700 亿否OPT2022 年 5 月Meta1750 亿是660 亿BLOOM2022 年 7 月Hugging Face 合作1750 亿是Flan-T52022 年 10 月谷歌110 亿是GPT-3.52022 年 11 月OpenAI未知否LLaMA2023 年 2 月Meta650 亿否GPT-42023 年 3 月OpenAI未知否尽管大型语言模型有令人印象深刻的应用但仍然存在重大挑战需要克服。最值得注意的是它们容易虚构事实无法可靠地应用逻辑思维过程如图 14-4 所示。https://github.com/OpenDocCN/ibooker-dl-zh/raw/master/docs/gen-dl/img/gdl2_1404.png图 14-4. 虽然大型语言模型在某些任务上表现出色但也容易出现与事实或逻辑推理相关的错误显示了 GPT-3 的输出重要的是要记住LLMs 只是被训练来预测下一个单词。它们与现实没有其他联系无法可靠地识别事实或逻辑谬误。因此在生产中使用这些强大的文本预测模型时我们必须非常谨慎——它们尚不能可靠地用于需要精确推理的任何事情。文本到代码模型大型语言模型的另一个应用是代码生成。2021 年 7 月OpenAI 推出了一个名为 Codex 的模型这是一个在 GitHub 上的代码上进行了微调的 GPT 语言模型。该模型能够成功地为一系列问题编写新颖的编码解决方案只需根据要解决的问题的评论或函数名称进行提示。这项技术如今驱动着 GitHub Copilot这是一个可以在您输入时实时建议代码的 AI 对编程师。Copilot 是一个基于订阅的付费服务提供免费试用期。图 14-5 显示了两个自动生成的完成示例。第一个示例是一个从给定用户那里获取推文的函数使用 Twitter API。给定函数名称和参数Copilot 能够自动完成函数定义的其余部分。第二个示例要求 Copilot 解析一组费用还包括在 docstring 中包含一个自由文本描述解释输入参数的格式以及与任务相关的具体说明。Copilot 能够仅通过描述自动完成整个函数。这项引人注目的技术已经开始改变程序员处理特定任务的方式。程序员通常会花费相当大的时间搜索现有解决方案的示例阅读社区问答论坛如 Stack Overflow并查阅包文档中的语法。这意味着离开交互式开发环境IDE切换到 Web 浏览器并从 Web 上复制和粘贴代码片段以查看它们是否解决了您的特定问题。在许多情况下Copilot 消除了这样做的必要性因为您只需在 IDE 中写下您希望实现的简要描述后就可以通过 AI 生成的潜在解决方案进行选项卡切换。https://github.com/OpenDocCN/ibooker-dl-zh/raw/master/docs/gen-dl/img/gdl2_1405.png图 14-5. GitHub Copilot 功能的两个示例来源GitHub Copilot文本到图像模型目前最先进的图像生成主要由将给定文本提示转换为图像的大型多模态模型主导。文本到图像模型非常有用因为它们允许用户通过自然语言轻松地操纵生成的图像。这与诸如 StyleGAN 之类的模型形成对比后者虽然非常令人印象深刻但没有通过您可以描述要生成的图像的文本界面。目前可供商业和个人使用的三个重要的文本到图像生成模型是 DALL.E 2、Midjourney 和 Stable Diffusion。OpenAI 的 DALL.E 2 是一项按需付费服务可通过 Web 应用程序和 API 获得。Midjourney 通过其 Discord 频道提供基于订阅的文本到图像服务。DALL.E 2 和 Midjourney 都为那些加入平台进行早期实验的用户提供免费积分。MidjourneyMidjourney 是用于本书第 II 部分故事插图的服务Stable Diffusion 不同因为它是完全开源的。用于训练模型的模型权重和代码都可以在 GitHub 上找到因此任何人都可以在自己的硬件上运行该模型。用于训练 Stable Diffusion 的数据集也是开源的。这个名为 LAION-5B 的数据集包含了 58.5 亿个图像文本对目前是世界上最大的公开可访问的图像文本数据集。这种方法的一个重要推论是基线稳定扩散模型可以被构建并适应不同的用例。ControlNet 就是这一点的一个很好的演示它是一种神经网络结构允许通过添加额外条件对稳定扩散的输出进行细粒度控制。例如输出图像可以根据给定输入图像的Canny 边缘图进行条件化如图 14-6 所示。https://github.com/OpenDocCN/ibooker-dl-zh/raw/master/docs/gen-dl/img/gdl2_1406.png图 14-6。使用 Canny 边缘图和 ControlNet 对稳定扩散输出进行条件化来源Lvmin Zhang, ControlNetControlNet 包含一个可训练的稳定扩散编码器副本以及一个完整的稳定扩散模型的锁定副本。这个可训练的编码器的任务是学习如何处理输入条件例如Canny 边缘图而锁定副本保留了原始模型的功能。这样稳定扩散可以仅使用少量图像对进行微调。零卷积简单地是所有权重和偏置都为零的 1×1 卷积因此在训练之前ControlNet 没有任何效果。https://github.com/OpenDocCN/ibooker-dl-zh/raw/master/docs/gen-dl/img/gdl2_1407.png图 14-7。ControlNet 架构可训练的稳定扩散编码器块用蓝色突出显示来源Lvmin Zhang, ControlNet稳定扩散的另一个优点是它能够在仅具有 8 GB VRAM 的单个中等大小 GPU 上运行这使得它可以在边缘设备上运行而不是通过调用云服务。随着文本到图像服务包含在下游产品中生成速度变得越来越重要。这也是为什么多模态模型的大小通常趋向于减小的原因之一参见图 14-3。三种模型的示例输出可以在图 14-8 中看到。所有这些模型都非常出色能够捕捉给定描述的内容和风格。https://github.com/OpenDocCN/ibooker-dl-zh/raw/master/docs/gen-dl/img/gdl2_1408.png图 14-8。稳定扩散 v2.1、Midjourney 和 DALL.E 2 对相同提示的输出今天存在的一些最强大的文本到图像模型的摘要显示在表 14-2 中。表 14-2。文本到图像模型模型日期开发者# 参数开源DALL.E 22022 年 4 月OpenAI35 亿否Imagen2022 年 5 月谷歌46 亿否Parti2022 年 6 月谷歌200 亿否稳定扩散2022 年 8 月Stability AI、CompVis 和 Runway8.9 亿是MUSE2023 年 1 月谷歌30 亿否使用文本到图像模型的技巧之一是创建一个提示既描述您想要生成的图像的内容又使用鼓励模型生成特定风格或类型图像的关键词。例如诸如令人惊叹或获奖之类的形容词通常可以用来提高生成的质量。然而并不总是同一个提示在不同模型上都能很好地工作——这取决于用于训练模型的特定文本-图像数据集的内容。发现适合特定模型的提示的艺术被称为提示工程。其他应用生成式人工智能正在迅速在各种新领域中找到应用从强化学习到其他种类的文本到 X多模态模型。例如2022 年 11 月Meta 发表了一篇关于 CICERO 的论文这是一个训练有素的 AI 代理人用于玩《外交》这个棋盘游戏。在这个游戏中玩家代表第一次世界大战前欧洲的不同国家必须与彼此进行谈判和欺骗以控制整个大陆。对于 AI 代理人来说这是一个非常复杂的游戏因为其中有一个沟通元素玩家必须与其他玩家讨论他们的计划以获得盟友、协调行动并提出战略目标。为了实现这一点CICERO 包含一个能够发起对话并回应其他玩家消息的语言模型。至关重要的是对话与代理人的战略计划一致这些计划由模型的另一部分生成以适应不断变化的情景。这包括代理人在与其他玩家交谈时虚张声势即说服另一个玩家与代理人合作然后在后续回合中对该玩家采取激进的行动。值得注意的是在一个匿名的外交联盟中涉及 40 场比赛CICERO 的得分超过了人类玩家的平均水平的两倍以上并且在参与多场比赛的参与者中排名前 10%。这是一个很好的例子展示了生成式 AI 如何成功地与强化学习相结合。体现大型语言模型的发展是一个令人兴奋的研究领域谷歌的 PaLM-E 模型进一步证明了这一点。该模型将强大的语言模型 PaLM 与 Vision Transformer 相结合将视觉和传感器数据转换为可以与文本指令交错的标记使机器人能够根据文本提示和来自其他感官模式的持续反馈执行任务。PaLM-E 网站展示了该模型的能力包括控制机器人根据文本描述排列方块和取物品。文本到视频模型涉及从文本输入创建视频。这个领域建立在文本到图像建模的概念基础上还有一个额外的挑战即融入时间维度。例如2022 年 9 月Meta 发布了 Make-A-Video这是一个生成模型可以仅通过文本提示作为输入创建一个短视频。该模型还能在两个静态图像之间添加动作并生成给定输入视频的变体。有趣的是它仅在配对的文本-图像数据和无监督视频素材上进行训练而不是直接在文本-视频对上进行训练。无监督的视频数据足以让模型学习世界如何移动然后它使用文本-图像对学习如何映射文本图像模态然后将其动画化。Dreamix 模型能够进行视频编辑根据给定的文本提示转换输入视频同时保留原始视频的摄像机角度、背景和照明元素。同样文本到 3D模型将传统的文本到图像方法扩展到第三维。2022 年 9 月Google 发布了DreamFusion这是一个扩散模型根据输入的文本提示生成 3D 资产。关键是该模型不需要标记的 3D 资产进行训练。作者使用一个预先训练的 2D 文本到图像模型Imagen作为先验然后训练一个 3D 神经辐射场NeRF使其能够在随机角度渲染时产生良好的图像。另一个例子是 OpenAI 的Point-E于 2022 年 12 月发布。Point-E 是一个纯扩散系统能够根据给定的文本提示生成一个 3D 点云。虽然其输出质量不如 DreamFusion但这种方法的优势在于比基于 NeRF 的方法快得多——它可以在单个 GPU 上在一到两分钟内产生输出而不需要多个 GPU 小时。鉴于文本和音乐之间的相似性不足为奇的是也有人尝试创建文本到音乐模型。Google 于 2023 年 1 月发布的MusicLM是一种语言模型能够将音乐片段的文本描述例如“一段由失真吉他伴奏的平静小提琴旋律”转换为准确反映描述的音频时长数分钟。它建立在早期工作AudioLM的基础上通过添加模型能够由文本提示引导的功能您可以在 Google 研究网站上找到可听的示例。生成 AI 的未来在这最后一部分中我们将探讨强大的生成 AI 系统可能对我们生活的世界产生的潜在影响——在我们的日常生活中、工作场所以及教育领域。我们还将阐明生成 AI 将面临的关键实际和伦理挑战如果它要成为一个使社会获得显著净正面贡献的无处不在的工具。生成 AI 在日常生活中的应用毫无疑问未来生成 AI 将在人们的日常生活中扮演越来越重要的角色特别是大型语言模型。通过 OpenAI 的ChatGPT已经可以使用生成 AI 为求职申请生成完美的求职信为同事生成专业的电子邮件回复或者在特定主题上生成有趣的社交媒体帖子。这项技术真正是互动的它能够包含您请求的具体细节回应反馈并在某些地方不清楚时提出自己的问题。这种个人助手AI 的风格应该是科幻小说的内容但它并不是——它已经出现了任何选择使用它的人都可以使用。这种应用成为主流的后果是什么最直接的影响可能是书面沟通质量的提高。使用具有用户友好界面的大型语言模型将使人们能够在几秒钟内将一个想法的草图转化为连贯、高质量的段落。电子邮件写作、社交媒体帖子甚至短格式即时通讯都将因此技术而发生变革。它不仅消除了与拼写、语法和可读性相关的常见障碍而且直接将我们的思维过程与可用输出联系起来通常无需参与构建句子的过程。生成良好文本只是大型语言模型的一个用途。人们将开始使用这些模型进行创意生成、建议和信息检索。我相信我们可以将这视为作为一个物种获取、分享、检索和综合信息能力的第四阶段。我们开始通过获取周围人的信息或亲自前往新地点来获取信息。印刷术的发明使书籍成为传播思想的主要载体。最后互联网的诞生使我们能够在触摸按钮时即时搜索和检索信息。生成 AI 开启了一个新的信息综合时代我相信它将取代今天搜索引擎的许多当前用途。例如OpenAI 的 GPT 系列模型可以提供定制的假日目的地推荐如图 14-9 所示或者如何应对困难情况的建议或者对一个晦涩概念的详细解释。使用这项技术更像是向朋友询问而不是在搜索引擎中输入查询因此人们迅速涌向这项技术。ChatGPT 是发展最快的技术平台在推出后的 5 天内获得了 100 万用户。为了对比Instagram 花了 2.5 个月才达到相同数量的用户Facebook 花了 10 个月。https://github.com/OpenDocCN/ibooker-dl-zh/raw/master/docs/gen-dl/img/gdl2_1409.png图 14-9。来自 GPT-3 的输出提供定制的假日推荐工作场所中的生成 AI除了一般用途外生成 AI 还将在需要创造力的特定工作中找到应用。以下是一些可能受益的职业的非尽头列表广告生成 AI 可以用来创建针对特定人群的个性化广告活动基于他们的浏览和购买历史。音乐制作生成 AI 可以用来创作和制作原创音乐曲目为无限的可能性提供可能。建筑学生成 AI 可以用来设计建筑和结构考虑因素如风格和布局约束。时尚设计生成 AI 可以用来创建独特多样的服装设计考虑到潮流和穿着者的喜好。汽车设计生成 AI 可以用来设计和开发新的车型并自动找到特定设计的有趣变化。电影和视频制作生成 AI 可以用来创建特效和动画以及为整个场景或故事情节生成对话。制药研究生成 AI 可以用来生成新的药物化合物有助于开发新的治疗方法。创意写作生成 AI 可以用来生成书面内容如小说故事、诗歌、新闻文章等。游戏设计生成 AI 可以用来设计和开发新的游戏关卡和内容创造无限种游戏体验。数字设计生成 AI 可以用来创建原创数字艺术和动画以及设计和开发新的用户界面和网页设计。人们经常说 AI 对这些领域的工作构成存在威胁但我并不认为事实就是如此。对我来说AI 只是这些创意角色工具箱中的另一个工具尽管是一个非常强大的工具而不是角色本身的替代品。选择拥抱这项新技术的人会发现他们能够更快地探索新想法并以以前不可能的方式迭代概念。教育中的生成 AI我相信最终将受到显著影响的另一个日常生活领域是教育。生成式人工智能挑战了教育的基本公理这是我们自互联网诞生以来从未见过的。互联网使学生能够即时和明确地检索信息使纯粹测试记忆和回忆的考试显得过时和无关紧要。这促使了一种以测试学生能够以新颖方式综合思想为重点的方法转变而不仅仅是测试事实知识。我相信生成式人工智能将在教育领域引起另一场变革性转变需要重新评估和调整当前的教学方法和评估标准。如果每个学生现在都可以在口袋里拥有一个可以对问题生成新颖回答的论文写作机器那么基于论文的课程的目的是什么许多人呼吁禁止使用这种人工智能工具就像禁止剽窃一样。然而情况并不那么简单因为检测人工智能生成的文本比检测剽窃要困难得多甚至更难以无疑地证明。此外学生可以使用人工智能工具为论文生成一个骨架草稿然后根据需要添加额外细节或更新事实不正确的信息。在这种情况下是学生的原创作品还是人工智能的显然这些是需要解决的重大问题以便教育和认证保持其完整性。在我看来抵制人工智能工具在教育中的传播是毫无意义的-任何这样的方法注定会失败因为它们将在日常生活中变得如此普遍以至于试图限制它们的使用将是徒劳的。相反我们需要找到方法来拥抱这项技术并询问如何设计开放式人工智能课程就像我们允许开卷考试课程一样并鼓励学生使用互联网和人工智能工具公开研究材料。生成式人工智能在辅助学习过程本身方面的潜力也是巨大且深刻的。一个由人工智能驱动的导师可以帮助学生学习新主题如图 14-10 所示克服误解或生成完全个性化的学习计划。从生成的虚构中过滤真相的挑战与我们目前在互联网上可用信息所面临的挑战并无二致这是一个需要跨学科进一步关注的生活技能。https://github.com/OpenDocCN/ibooker-dl-zh/raw/master/docs/gen-dl/img/gdl2_1410.png图 14-10。GPT-3 的输出-展示了大型语言模型如何用于学习的示例生成式人工智能可以是一个非常强大的工具可以在那些有机会接触优秀教师和最佳学习材料的人与那些没有这种机会的人之间拉平竞争场。我对这一领域的进展感到兴奋因为我相信它可以释放全球范围内的巨大潜力。生成式人工智能的伦理和挑战尽管在生成式人工智能领域取得了令人难以置信的进展但仍然有许多挑战需要克服。其中一些挑战是实际的另一些是伦理的。例如大型语言模型的一个主要批评是当询问一个陌生或矛盾的主题时它们很容易生成错误信息如图 14-4 所示。这种危险在于很难知道生成的回应中包含的信息是否真实准确。即使您要求 LLM 解释其推理或引用来源它可能会编造参考文献或说出一系列逻辑上不相连的陈述。这不是一个容易解决的问题因为 LLM 只是一组权重准确捕捉给定一组输入标记时最可能的下一个词-它没有可以用作参考的真实信息库。解决这个问题的一个潜在方案是为大型语言模型提供调用结构化工具的能力如计算器、代码编译器和在线信息源用于需要精确执行或事实的任务。例如图 14-11 展示了 Meta 于 2023 年 2 月发布的名为Toolformer的模型的输出。⁴https://github.com/OpenDocCN/ibooker-dl-zh/raw/master/docs/gen-dl/img/gdl2_1411.png图 14-11. Toolformer 能够自主调用不同的 API 以在必要时获取精确信息的示例来源Schick 等人2023Toolformer 能够明确调用 API 以获取信息作为其生成式响应的一部分。例如它可能使用维基百科 API 来检索有关特定人物的信息而不是依赖于这些信息被嵌入在其模型权重中。这种方法特别适用于精确的数学运算其中 Toolformer 可以说明它想要输入计算器 API 的哪些操作而不是试图以有用的方式自动生成答案。生成式 AI 的另一个突出的伦理关注点在于大公司使用从网络上抓取的大量数据来训练他们的模型而原始创作者并没有明确同意这样做。通常这些数据甚至没有公开发布因此无法知道您的数据是否被用来训练大型语言模型或多模态文本到图像模型。显然这是一个合理的担忧特别是对于艺术家来说他们可能会认为这是对他们的艺术作品的使用而他们并没有得到任何版税或佣金。此外艺术家的名字可能被用作提示以生成更多风格类似于原作的艺术作品从而降低内容的独特性并将风格商品化。这个问题的一个解决方案是由 Stability AI 开创的他们的多模态模型 Stable Diffusion 是在开源 LAION-5B 数据集的一个子集上进行训练的。他们还推出了网站Have I Been Trained?任何人都可以在训练数据集中搜索特定的图像或文本段落并选择退出未来的模型训练过程。这将控制权交还给原始创作者并确保用于创建强大工具如此的数据具有透明度。然而这种做法并不普遍许多商业可用的生成式 AI 模型并不公开其数据集或模型权重也不提供任何选择退出训练过程的选项。总之虽然生成式 AI 是一个强大的工具可用于日常生活、工作场所和教育领域的沟通、生产力和学习但其广泛使用既有优势也有劣势。重要的是要意识到使用生成式 AI 模型的输出的潜在风险并始终确保负责任地使用它。尽管如此我对生成式 AI 的未来充满乐观并迫不及待地想看到企业和人们如何适应这项新的令人兴奋的技术。最后思考在本书中我们通过过去十年的生成建模研究之旅从 VAEs、GANs、自回归模型、正规化流模型、基于能量的模型和扩散模型的基本思想开始建立在这些基础上了解 VQ-GAN、Transformers、世界模型和多模态模型等最新技术如何推动生成模型在各种任务中所能实现的边界。我相信在未来生成建模可能是一种更深层次的人工智能的关键超越任何特定任务使机器能够有机地制定自己的奖励、策略甚至在环境中产生意识。我的信念与 Karl Friston 最初开创的“主动推理”原则密切相关。主动推理背后的理论可以轻松填满另一本完整的书籍——并且确实填满了就像 Thomas Parr 等人在《主动推理心智、大脑和行为中的自由能量原则》麻省理工学院出版社中所做的那样我强烈推荐——所以我只会在这里尝试简短解释。作为婴儿我们不断地探索周围环境建立起可能未来的心智模型看似没有明显目的只是为了更深入地理解世界。我们接收到的数据没有标签——从出生那一刻起就不断轰击我们感官的光和声波似乎是随机的。即使有人指着一个苹果说“苹果”我们年幼的大脑也没有理由将这两个输入联系起来学习到光线进入眼睛的方式与声波进入耳朵的方式有某种关联。没有声音和图像的训练集没有气味和味道的训练集也没有行为和奖励的训练集只有一个无休止的极其嘈杂的数据流。然而此刻你正在阅读这句话也许正在享受嘈杂咖啡馆里一杯咖啡的味道。你专注于将视网膜上的微小部分的光缺失转化为一系列抽象概念这些概念单独来看几乎没有意义但结合起来会在你的脑海中引发一波平行的表征——图像、情感、想法、信念和潜在行动都涌入你的意识等待你的认知。对于你的婴儿大脑来说基本无意义的同样嘈杂的数据流现在不再那么嘈杂。一切对你来说都是有意义的。你在任何地方都看到结构。你对日常生活的物理现象从不感到惊讶。世界是因为你的大脑决定它应该是这样。在这个意义上你的大脑是一个极其复杂的生成模型具有关注输入数据特定部分、在神经通路的潜在空间内形成概念表征、并随时间处理序列数据的能力。主动推理是一个基于这一思想的框架用来解释大脑如何处理和整合感官信息以做出决策和行动。它指出一个生物体对其所处世界有一个生成模型并利用这个模型对未来事件进行预测。为了减少模型与现实之间的差异所带来的惊讶生物体相应地调整其行动和信念。Friston 的关键思想是行动和感知优化可以被看作是同一个硬币的两面两者都旨在最小化一个称为“自由能量”的量。这个框架的核心是一个环境的生成模型在大脑中捕获它不断地与现实进行比较。关键是大脑不是事件的被动观察者。在人类中它连接着一条脖子和一套腿可以将其核心输入传感器相对于输入数据源放置在多种位置。因此可能未来的生成序列不仅取决于其对环境物理的理解还取决于其对自身及其行为方式的理解。行动和感知的这种反馈循环对我来说非常有趣我相信我们只是触及了具有行动推理原则的具体环境中能够采取行动的具体生成模型的潜力表面。这是我认为将在未来十年继续推动生成建模走向聚光灯下的核心理念之一作为解锁人工通用智能的关键之一。在这个基础上我鼓励您继续从在线和其他书籍中提供的优质材料中学习更多关于生成模型的知识。感谢您抽出时间阅读本书至此希望您和我一样享受阅读的乐趣¹ Hugo Touvron 等人“LLaMA: 开放高效的基础语言模型”2023 年 2 月 27 日https://arxiv.org/abs/2302.13971。² Mark Chen 等人“评估在代码上训练的大型语言模型”2021 年 7 月 7 日https://arxiv.org/abs/2107.03374。³ 张旅民和 Maneesh Agrawala“向文本到图像扩散模型添加条件控制”2023 年 2 月 10 日https://arxiv.org/abs/2302.05543。⁴ Timo Schick 等人“Toolformer: 语言模型可以自学使用工具”2023 年 2 月 9 日https://arxiv.org/abs/2302.04761。

生成式深度学习（四）

相关文章：

生成式深度学习（四）

PyTorch DDP分布式训练超快

工厂的历史演进：从工业革命到智能时代

计算机毕业设计 | SpringBoot小米商城购物管理系统(附源码)

OpenClawd的一个神器技能Skill Creator

PAT 乙级 1093

PowerShell 执行策略限制导致的 `npm` 命令无法运行的安全错误

动态残差组改进YOLOv26双重注意力机制与残差学习深度融合

有什么找工作比较好的软件？2026实测推荐，行业TOP1太省心

香港启世集团宣布启动核聚变能源研究计划

告别“积木式”构建：RH Claw 实现 OpenClaw AIGC全模态能力一令直达

全球医疗器械展会代理地域适配指南：各区域优质服务商精准推荐

API接口管理系统助力企业破解数据孤岛难题

超强AI智能抠图神器 Aiarty Image Matting 实操教程（0基础入门，发丝级抠图秒出效果）

Spring AI RAG 生产级实战：从 0 构建企业智能知识库系统

开题报告写到想退学？别硬扛了！我用这个工具10分钟搞定导师点头的版本

你的选题值得一个好开头——百考通AI让开题报告成为研究助力，而非负担

省下反复返工的时间！百考通AI自动生成结构完整、学科适配的开题框架

day113（3.15）——leetcode面试经典150

卷筒组装配图与零件图（CAD)

《有限与无限的游戏》导读：一本很薄、很深、也很容易读不懂的书

〘 7 〙软考高项 | 第14章：项目沟通管理

真的太省时间!千笔，最受欢迎的AI论文软件

一文讲透｜AI论文平台千笔写作工具 VS WPS AI，本科生写论文神器！

科研党收藏！降AIGC工具千笔AI VS WPS AI，开源免费首选

亲测好用! AI论文软件千笔·专业论文写作工具 VS 万方智搜AI，自考写论文神器！

面向新一代硬件，CANN技术架构的变与不变

构建以观测为先的 Redis 容错体系：当缓存失效时如何不被业务拖垮

导师说“不像能做完的”？百考通AI开题报告，专治目标虚、方法空、进度假

别让模糊想法拖垮你的研究——百考通帮你把选题变成可执行的科研计划