当前位置: 首页 > article >正文

生成式深度学习(四)

原文Generative Deep Learning译者飞龙协议CC BY-NC-SA 4.0第十四章结论2018 年 5 月我开始着手第一版这本书的工作。五年后我对生成 AI 的无限可能性和潜在影响感到比以往任何时候都更加兴奋。在这段时间里我们看到了这个领域的惊人进步对真实世界应用有着看似无限的潜力。我对我们迄今为止所取得的成就感到敬畏和惊叹并迫不及待地期待着生成 AI 未来几年将对世界产生的影响。生成深度学习有能力以我们无法想象的方式塑造未来。此外随着我为这本书研究内容我越来越清楚地意识到这个领域不仅仅是关于创建图像、文本或音乐。我相信生成深度学习的核心是智能本身的秘密。本章的第一部分总结了我们在生成 AI 之旅中达到这一点的过程。我们将按时间顺序浏览自 2014 年以来的生成 AI 发展时间轴以便您可以看到每种技术在生成 AI 历史中的位置。第二部分解释了我们目前在最先进的生成 AI 方面的位置。我们将讨论生成深度学习方法的当前趋势以及普通公众可以使用的当前现成模型。接下来我们将探讨生成 AI 的未来以及前方的机遇和挑战。我们将考虑未来五年生成 AI 可能会是什么样子以及它对社会和商业的潜在影响并解决一些主要的伦理和实际问题。生成 AI 时间轴图 14-1 是我们在本书中一起探索的生成建模关键发展的时间轴。颜色代表不同的模型类型。生成 AI 领域建立在深度学习早期发展的基础上比如反向传播和卷积神经网络这些技术解锁了模型在大规模数据集上学习复杂关系的可能性。在本节中我们将研究生成 AI 的现代历史从 2014 年开始这一历史发展速度惊人。为了帮助我们理解所有内容如何相互关联我们可以大致将这段历史分为三个主要时代2014 年至 2017 年VAE 和 GAN 时代2018 年至 2019 年Transformer 时代2020 年至 2022 年大模型时代https://github.com/OpenDocCN/ibooker-dl-zh/raw/master/docs/gen-dl/img/gdl2_1401.png图 14-1。从 2014 年到 2023 年的生成 AI 简史注意一些重要的发展如 LSTM 和早期基于能量的模型[例如玻尔兹曼机]在这个时间轴之前2014 年至 2017 年VAE 和 GAN 时代VAE 的发明可以说是点燃生成 AI 火药桶的火花。这篇论文展示了不仅可以生成简单的图像如 MNIST 数字还可以生成更复杂的图像如面孔而且可以在一个可以平滑遍历的潜在空间中生成。2014 年GAN 的引入紧随其后这是一种全新的对抗性框架用于解决生成建模问题。接下来的三年被逐渐更令人印象深刻的 GAN 系列扩展所主导。除了对 GAN 模型架构DCGAN2015、损失函数Wasserstein GAN2017和训练过程ProGAN2017的基本改变外还使用 GAN 处理了新的领域如图像到图像的转换pix2pix2016和 CycleGAN2017和音乐生成MuseGAN2017。在这个时代还引入了重要的 VAE 改进如 VAE-GAN2015和后来的 VQ-VAE2017并且在“世界模型”论文中看到了对强化学习的应用。在这段时间内已建立的自回归模型如 LSTMs 和 GRUs仍然是文本生成的主导力量。相同的自回归思想也被用于生成图像PixelRNN2016 年和 PixelCNN2016 年被引入作为思考图像生成的新方法。还在测试其他图像生成方法例如 RealNVP 模型2016 年为后来的各种归一化流模型铺平了道路。在 2017 年 6 月一篇开创性的论文《注意力就是一切》发表开启了以 Transformer 为中心的生成 AI 的下一个时代。2018 年至 2019 年Transformer 时代Transformer 的核心是注意力机制它消除了旧的自回归模型如 LSTMs中存在的循环层的需求。Transformer 随着 2018 年 GPT仅解码器 Transformer和 BERT仅编码器 Transformer的推出迅速崭露头角。接下来的一年逐渐建立了更大的语言模型通过将它们视为纯文本到文本生成问题擅长各种任务其中 GPT-22018 年15 亿参数和 T52019 年110 亿参数是杰出的例子。Transformer 也开始成功应用于音乐生成例如 Music Transformer2018 年和 MuseNet2019 年模型的引入。在这两年里也发布了几个令人印象深刻的 GAN巩固了该技术作为图像生成的最先进方法的地位。特别是SAGAN2018 年和更大的 BigGAN2018 年将注意力机制与 GAN 框架结合起来取得了令人难以置信的结果而 StyleGAN2018 年和后来的 StyleGAN22019 年展示了如何以惊人的细粒度控制生成图像的风格和内容。另一个正在积聚动力的生成 AI 领域是基于分数的模型NCSN2019 年最终为生成 AI 领域的下一个重大变革——扩散模型铺平了道路。2020 年至 2022 年大模型时代这个时代见证了几个模型的推出这些模型融合了不同生成建模家族的思想并加速了现有架构。例如VQ-GAN2020 年将 GAN 鉴别器引入 VQ-VAE 架构Vision Transformer2020 年展示了如何训练 Transformer 在图像上运行的可能性。2022 年发布了 StyleGAN-XL这是对 StyleGAN 架构的进一步更新可以生成 1024×1024 像素的图像。2020 年推出了两个模型为所有未来大型图像生成模型奠定了基础DDPM 和 DDIM。突然之间扩散模型在图像生成质量方面成为 GAN 的竞争对手正如 2021 年的论文标题“扩散模型在图像合成方面击败了 GAN”所明确说明的那样。扩散模型的图像质量令人难以置信地好它们只需要训练一个单一的 U-Net 网络而不是 GAN 的双网络设置使训练过程更加稳定。大约在同一时间GPT-32020 年发布了——这是一个庞大的 1750 亿参数的 Transformer可以以一种几乎难以理解的方式生成几乎任何主题的文本。该模型通过一个网络应用程序和 API 发布允许公司在其基础上构建产品和服务。ChatGPT2022 年是一个围绕 OpenAI 最新版本的 GPT 的网络应用程序和 API 封装器允许用户与 AI 就任何主题进行自然对话。在 2021 年和 2022 年一大批其他大型语言模型相继发布以与 GPT-3 竞争包括微软和英伟达的 Megatron-Turing NLG2021 年DeepMind 的 Gopher2021 年和 Chinchilla2022 年谷歌的 LaMDA2022 年和 PaLM2022 年以及 Aleph Alpha 的 Luminous2022 年。还发布了一些开源模型如 EleutherAI 的 GPT-Neo2021 年GPT-J2021 年和 GPT-NeoX2022 年Meta 的 66B 参数 OPT 模型2022 年谷歌的 Fine-tuned Flan-T5 模型2022 年Hugging Face 的 BLOOM2022 年等等。这些模型都是 Transformer 的变体训练在大量数据语料库上。强大的 Transformer 用于文本生成和最先进的扩散模型用于图像生成的迅速崛起意味着过去两年生成 AI 发展的重点大部分集中在多模态模型上即在超过一个领域例如文本到图像模型上运行的模型。这一趋势始于 2021 年当 OpenAI 发布了 DALL.E这是一个基于离散 VAE类似于 VQ-VAE和 CLIP一种预测图像/文本对的 Transformer 模型的文本到图像模型。随后是 GLIDE2021 年和 DALL.E 22022 年更新了模型的生成部分使用扩散模型而不是离散 VAE取得了真正令人印象深刻的结果。这一时代还见证了谷歌发布的三个文本到图像模型Imagen2022 年使用 Transformer 和扩散模型Parti2022 年使用 Transformers 和 ViT-VQGAN 模型以及后来的 MUSE2023 年使用 Transformers 和 VQ-GANs。DeepMind 也发布了 Flamingo2022 年这是一个视觉语言模型建立在他们的大型语言模型 Chinchilla 的基础上允许图像作为提示数据的一部分。2021 年引入的另一个重要扩散进展是潜在扩散其中扩散模型在自动编码器的潜在空间内进行训练。这一技术推动了 Stable Diffusion 模型的诞生该模型由 Stability AI、CompVis 和 Runway 在 2022 年联合合作发布。与 DALL.E 2、Imagen 和 Flamingo 不同Stable Diffusion 的代码和模型权重是开源的这意味着任何人都可以在自己的硬件上运行该模型。生成 AI 的当前状态当我们结束对生成 AI 历史的探索时现在重要的是反思我们在当前最先进应用和模型方面的立足点。让我们花一点时间评估我们在这一领域迄今取得的进展和关键成就。大型语言模型现在文本生成的生成 AI 几乎完全集中在构建大型语言模型LLMs上它们的唯一目的是直接从大量文本语料库中建模语言即它们被训练来预测下一个词以解码器 Transformer 的风格。大型语言模型方法被广泛采用因为它具有灵活性和在各种任务上表现出色的能力。同一模型可以用于问答、文本摘要、内容创作等多种示例因为最终每个用例都可以被构建为一个文本到文本问题其中特定任务指令提示作为模型输入的一部分给出。让我们以GPT-3为例。图 14-2 展示了同一模型如何用于文本摘要和内容创作。https://github.com/OpenDocCN/ibooker-dl-zh/raw/master/docs/gen-dl/img/gdl2_1402.png图 14-2。来自 GPT-3 的输出——未突出显示的文本是提示绿色突出显示的文本是 GPT-3 的输出请注意在这两种情况下提示包含相关的指令。GPT-3 的任务只是逐个标记地继续提示。它没有一个可以查找信息的事实数据库也没有可以复制到答案中的文本片段。它只被要求预测接下来最有可能跟随现有标记的标记然后将这个预测附加到提示中以生成下一个标记依此类推。令人难以置信的是这种简单的设计足以使语言模型在各种任务中表现出色如图 14-2 所示。此外它赋予了语言模型令人难以置信的灵活性可以根据任何提示生成逼真的文本作为回应——想象力通常是限制因素图 14-3 显示自 2018 年原始 GPT 模型发布以来大型语言模型的规模如何增长。参数数量呈指数增长直到 2021 年底Megatron-Turing NLG 达到 5300 亿参数。最近更多的重点放在构建更高效的语言模型上这些模型使用更少的参数因为更大的模型在生产环境中更昂贵且速度较慢。https://github.com/OpenDocCN/ibooker-dl-zh/raw/master/docs/gen-dl/img/gdl2_1403.png图 14-3. 大型语言模型橙色和多模型粉色的参数数量随时间变化许多人仍认为 OpenAI 的 GPT 系列GPT-3、GPT-3.5、GPT-4 等是目前个人和商业使用中最强大的最新语言模型套件。它们可以通过网络应用和API使用。大型语言模型家族的另一个最新成员是 Meta 推出的大型语言模型 Meta AILLaMA¹这是一套从 7B 到 65B 参数大小的模型系列纯粹基于公开可用的数据集进行训练。今天存在的一些最强大的 LLM 的摘要显示在表 14-1 中。有些模型如 LLaMA是不同规模模型的系列—在这种情况下最大模型的规模显示在这里。一些模型的预训练权重是完全开源的这意味着任何人都可以免费使用和构建。表 14-1. 大型语言模型模型日期开发者# 参数开源GPT-32020 年 5 月OpenAI1750 亿否GPT-Neo2021 年 3 月EleutherAI27 亿是GPT-J2021 年 6 月EleutherAI60 亿是Megatron-Turing NLG2021 年 10 月微软和英伟达5300 亿否Gopher2021 年 12 月DeepMind2800 亿否LaMDA2022 年 1 月谷歌1370 亿否GPT-NeoX2022 年 2 月EleutherAI200 亿是Chinchilla2022 年 3 月DeepMind700 亿否PaLM2022 年 4 月谷歌5400 亿否Luminous2022 年 4 月Aleph Alpha700 亿否OPT2022 年 5 月Meta1750 亿是660 亿BLOOM2022 年 7 月Hugging Face 合作1750 亿是Flan-T52022 年 10 月谷歌110 亿是GPT-3.52022 年 11 月OpenAI未知否LLaMA2023 年 2 月Meta650 亿否GPT-42023 年 3 月OpenAI未知否尽管大型语言模型有令人印象深刻的应用但仍然存在重大挑战需要克服。最值得注意的是它们容易虚构事实无法可靠地应用逻辑思维过程如图 14-4 所示。https://github.com/OpenDocCN/ibooker-dl-zh/raw/master/docs/gen-dl/img/gdl2_1404.png图 14-4. 虽然大型语言模型在某些任务上表现出色但也容易出现与事实或逻辑推理相关的错误显示了 GPT-3 的输出重要的是要记住LLMs 只是被训练来预测下一个单词。它们与现实没有其他联系无法可靠地识别事实或逻辑谬误。因此在生产中使用这些强大的文本预测模型时我们必须非常谨慎——它们尚不能可靠地用于需要精确推理的任何事情。文本到代码模型大型语言模型的另一个应用是代码生成。2021 年 7 月OpenAI 推出了一个名为 Codex 的模型这是一个在 GitHub 上的代码上进行了微调的 GPT 语言模型。该模型能够成功地为一系列问题编写新颖的编码解决方案只需根据要解决的问题的评论或函数名称进行提示。这项技术如今驱动着 GitHub Copilot这是一个可以在您输入时实时建议代码的 AI 对编程师。Copilot 是一个基于订阅的付费服务提供免费试用期。图 14-5 显示了两个自动生成的完成示例。第一个示例是一个从给定用户那里获取推文的函数使用 Twitter API。给定函数名称和参数Copilot 能够自动完成函数定义的其余部分。第二个示例要求 Copilot 解析一组费用还包括在 docstring 中包含一个自由文本描述解释输入参数的格式以及与任务相关的具体说明。Copilot 能够仅通过描述自动完成整个函数。这项引人注目的技术已经开始改变程序员处理特定任务的方式。程序员通常会花费相当大的时间搜索现有解决方案的示例阅读社区问答论坛如 Stack Overflow并查阅包文档中的语法。这意味着离开交互式开发环境IDE切换到 Web 浏览器并从 Web 上复制和粘贴代码片段以查看它们是否解决了您的特定问题。在许多情况下Copilot 消除了这样做的必要性因为您只需在 IDE 中写下您希望实现的简要描述后就可以通过 AI 生成的潜在解决方案进行选项卡切换。https://github.com/OpenDocCN/ibooker-dl-zh/raw/master/docs/gen-dl/img/gdl2_1405.png图 14-5. GitHub Copilot 功能的两个示例来源GitHub Copilot文本到图像模型目前最先进的图像生成主要由将给定文本提示转换为图像的大型多模态模型主导。文本到图像模型非常有用因为它们允许用户通过自然语言轻松地操纵生成的图像。这与诸如 StyleGAN 之类的模型形成对比后者虽然非常令人印象深刻但没有通过您可以描述要生成的图像的文本界面。目前可供商业和个人使用的三个重要的文本到图像生成模型是 DALL.E 2、Midjourney 和 Stable Diffusion。OpenAI 的 DALL.E 2 是一项按需付费服务可通过 Web 应用程序和 API 获得。Midjourney 通过其 Discord 频道提供基于订阅的文本到图像服务。DALL.E 2 和 Midjourney 都为那些加入平台进行早期实验的用户提供免费积分。MidjourneyMidjourney 是用于本书第 II 部分故事插图的服务Stable Diffusion 不同因为它是完全开源的。用于训练模型的模型权重和代码都可以在 GitHub 上找到因此任何人都可以在自己的硬件上运行该模型。用于训练 Stable Diffusion 的数据集也是开源的。这个名为 LAION-5B 的数据集包含了 58.5 亿个图像文本对目前是世界上最大的公开可访问的图像文本数据集。这种方法的一个重要推论是基线稳定扩散模型可以被构建并适应不同的用例。ControlNet 就是这一点的一个很好的演示它是一种神经网络结构允许通过添加额外条件对稳定扩散的输出进行细粒度控制。例如输出图像可以根据给定输入图像的Canny 边缘图进行条件化如图 14-6 所示。https://github.com/OpenDocCN/ibooker-dl-zh/raw/master/docs/gen-dl/img/gdl2_1406.png图 14-6。使用 Canny 边缘图和 ControlNet 对稳定扩散输出进行条件化来源Lvmin Zhang, ControlNetControlNet 包含一个可训练的稳定扩散编码器副本以及一个完整的稳定扩散模型的锁定副本。这个可训练的编码器的任务是学习如何处理输入条件例如Canny 边缘图而锁定副本保留了原始模型的功能。这样稳定扩散可以仅使用少量图像对进行微调。零卷积简单地是所有权重和偏置都为零的 1×1 卷积因此在训练之前ControlNet 没有任何效果。https://github.com/OpenDocCN/ibooker-dl-zh/raw/master/docs/gen-dl/img/gdl2_1407.png图 14-7。ControlNet 架构可训练的稳定扩散编码器块用蓝色突出显示来源Lvmin Zhang, ControlNet稳定扩散的另一个优点是它能够在仅具有 8 GB VRAM 的单个中等大小 GPU 上运行这使得它可以在边缘设备上运行而不是通过调用云服务。随着文本到图像服务包含在下游产品中生成速度变得越来越重要。这也是为什么多模态模型的大小通常趋向于减小的原因之一参见图 14-3。三种模型的示例输出可以在图 14-8 中看到。所有这些模型都非常出色能够捕捉给定描述的内容和风格。https://github.com/OpenDocCN/ibooker-dl-zh/raw/master/docs/gen-dl/img/gdl2_1408.png图 14-8。稳定扩散 v2.1、Midjourney 和 DALL.E 2 对相同提示的输出今天存在的一些最强大的文本到图像模型的摘要显示在表 14-2 中。表 14-2。文本到图像模型模型日期开发者# 参数开源DALL.E 22022 年 4 月OpenAI35 亿否Imagen2022 年 5 月谷歌46 亿否Parti2022 年 6 月谷歌200 亿否稳定扩散2022 年 8 月Stability AI、CompVis 和 Runway8.9 亿是MUSE2023 年 1 月谷歌30 亿否使用文本到图像模型的技巧之一是创建一个提示既描述您想要生成的图像的内容又使用鼓励模型生成特定风格或类型图像的关键词。例如诸如令人惊叹或获奖之类的形容词通常可以用来提高生成的质量。然而并不总是同一个提示在不同模型上都能很好地工作——这取决于用于训练模型的特定文本-图像数据集的内容。发现适合特定模型的提示的艺术被称为提示工程。其他应用生成式人工智能正在迅速在各种新领域中找到应用从强化学习到其他种类的文本到 X多模态模型。例如2022 年 11 月Meta 发表了一篇关于 CICERO 的论文这是一个训练有素的 AI 代理人用于玩《外交》这个棋盘游戏。在这个游戏中玩家代表第一次世界大战前欧洲的不同国家必须与彼此进行谈判和欺骗以控制整个大陆。对于 AI 代理人来说这是一个非常复杂的游戏因为其中有一个沟通元素玩家必须与其他玩家讨论他们的计划以获得盟友、协调行动并提出战略目标。为了实现这一点CICERO 包含一个能够发起对话并回应其他玩家消息的语言模型。至关重要的是对话与代理人的战略计划一致这些计划由模型的另一部分生成以适应不断变化的情景。这包括代理人在与其他玩家交谈时虚张声势即说服另一个玩家与代理人合作然后在后续回合中对该玩家采取激进的行动。值得注意的是在一个匿名的外交联盟中涉及 40 场比赛CICERO 的得分超过了人类玩家的平均水平的两倍以上并且在参与多场比赛的参与者中排名前 10%。这是一个很好的例子展示了生成式 AI 如何成功地与强化学习相结合。体现大型语言模型的发展是一个令人兴奋的研究领域谷歌的 PaLM-E 模型进一步证明了这一点。该模型将强大的语言模型 PaLM 与 Vision Transformer 相结合将视觉和传感器数据转换为可以与文本指令交错的标记使机器人能够根据文本提示和来自其他感官模式的持续反馈执行任务。PaLM-E 网站展示了该模型的能力包括控制机器人根据文本描述排列方块和取物品。文本到视频模型涉及从文本输入创建视频。这个领域建立在文本到图像建模的概念基础上还有一个额外的挑战即融入时间维度。例如2022 年 9 月Meta 发布了 Make-A-Video这是一个生成模型可以仅通过文本提示作为输入创建一个短视频。该模型还能在两个静态图像之间添加动作并生成给定输入视频的变体。有趣的是它仅在配对的文本-图像数据和无监督视频素材上进行训练而不是直接在文本-视频对上进行训练。无监督的视频数据足以让模型学习世界如何移动然后它使用文本-图像对学习如何映射文本图像模态然后将其动画化。Dreamix 模型能够进行视频编辑根据给定的文本提示转换输入视频同时保留原始视频的摄像机角度、背景和照明元素。同样文本到 3D模型将传统的文本到图像方法扩展到第三维。2022 年 9 月Google 发布了DreamFusion这是一个扩散模型根据输入的文本提示生成 3D 资产。关键是该模型不需要标记的 3D 资产进行训练。作者使用一个预先训练的 2D 文本到图像模型Imagen作为先验然后训练一个 3D 神经辐射场NeRF使其能够在随机角度渲染时产生良好的图像。另一个例子是 OpenAI 的Point-E于 2022 年 12 月发布。Point-E 是一个纯扩散系统能够根据给定的文本提示生成一个 3D 点云。虽然其输出质量不如 DreamFusion但这种方法的优势在于比基于 NeRF 的方法快得多——它可以在单个 GPU 上在一到两分钟内产生输出而不需要多个 GPU 小时。鉴于文本和音乐之间的相似性不足为奇的是也有人尝试创建文本到音乐模型。Google 于 2023 年 1 月发布的MusicLM是一种语言模型能够将音乐片段的文本描述例如“一段由失真吉他伴奏的平静小提琴旋律”转换为准确反映描述的音频时长数分钟。它建立在早期工作AudioLM的基础上通过添加模型能够由文本提示引导的功能您可以在 Google 研究网站上找到可听的示例。生成 AI 的未来在这最后一部分中我们将探讨强大的生成 AI 系统可能对我们生活的世界产生的潜在影响——在我们的日常生活中、工作场所以及教育领域。我们还将阐明生成 AI 将面临的关键实际和伦理挑战如果它要成为一个使社会获得显著净正面贡献的无处不在的工具。生成 AI 在日常生活中的应用毫无疑问未来生成 AI 将在人们的日常生活中扮演越来越重要的角色特别是大型语言模型。通过 OpenAI 的ChatGPT已经可以使用生成 AI 为求职申请生成完美的求职信为同事生成专业的电子邮件回复或者在特定主题上生成有趣的社交媒体帖子。这项技术真正是互动的它能够包含您请求的具体细节回应反馈并在某些地方不清楚时提出自己的问题。这种个人助手AI 的风格应该是科幻小说的内容但它并不是——它已经出现了任何选择使用它的人都可以使用。这种应用成为主流的后果是什么最直接的影响可能是书面沟通质量的提高。使用具有用户友好界面的大型语言模型将使人们能够在几秒钟内将一个想法的草图转化为连贯、高质量的段落。电子邮件写作、社交媒体帖子甚至短格式即时通讯都将因此技术而发生变革。它不仅消除了与拼写、语法和可读性相关的常见障碍而且直接将我们的思维过程与可用输出联系起来通常无需参与构建句子的过程。生成良好文本只是大型语言模型的一个用途。人们将开始使用这些模型进行创意生成、建议和信息检索。我相信我们可以将这视为作为一个物种获取、分享、检索和综合信息能力的第四阶段。我们开始通过获取周围人的信息或亲自前往新地点来获取信息。印刷术的发明使书籍成为传播思想的主要载体。最后互联网的诞生使我们能够在触摸按钮时即时搜索和检索信息。生成 AI 开启了一个新的信息综合时代我相信它将取代今天搜索引擎的许多当前用途。例如OpenAI 的 GPT 系列模型可以提供定制的假日目的地推荐如图 14-9 所示或者如何应对困难情况的建议或者对一个晦涩概念的详细解释。使用这项技术更像是向朋友询问而不是在搜索引擎中输入查询因此人们迅速涌向这项技术。ChatGPT 是发展最快的技术平台在推出后的 5 天内获得了 100 万用户。为了对比Instagram 花了 2.5 个月才达到相同数量的用户Facebook 花了 10 个月。https://github.com/OpenDocCN/ibooker-dl-zh/raw/master/docs/gen-dl/img/gdl2_1409.png图 14-9。来自 GPT-3 的输出提供定制的假日推荐工作场所中的生成 AI除了一般用途外生成 AI 还将在需要创造力的特定工作中找到应用。以下是一些可能受益的职业的非尽头列表广告生成 AI 可以用来创建针对特定人群的个性化广告活动基于他们的浏览和购买历史。音乐制作生成 AI 可以用来创作和制作原创音乐曲目为无限的可能性提供可能。建筑学生成 AI 可以用来设计建筑和结构考虑因素如风格和布局约束。时尚设计生成 AI 可以用来创建独特多样的服装设计考虑到潮流和穿着者的喜好。汽车设计生成 AI 可以用来设计和开发新的车型并自动找到特定设计的有趣变化。电影和视频制作生成 AI 可以用来创建特效和动画以及为整个场景或故事情节生成对话。制药研究生成 AI 可以用来生成新的药物化合物有助于开发新的治疗方法。创意写作生成 AI 可以用来生成书面内容如小说故事、诗歌、新闻文章等。游戏设计生成 AI 可以用来设计和开发新的游戏关卡和内容创造无限种游戏体验。数字设计生成 AI 可以用来创建原创数字艺术和动画以及设计和开发新的用户界面和网页设计。人们经常说 AI 对这些领域的工作构成存在威胁但我并不认为事实就是如此。对我来说AI 只是这些创意角色工具箱中的另一个工具尽管是一个非常强大的工具而不是角色本身的替代品。选择拥抱这项新技术的人会发现他们能够更快地探索新想法并以以前不可能的方式迭代概念。教育中的生成 AI我相信最终将受到显著影响的另一个日常生活领域是教育。生成式人工智能挑战了教育的基本公理这是我们自互联网诞生以来从未见过的。互联网使学生能够即时和明确地检索信息使纯粹测试记忆和回忆的考试显得过时和无关紧要。这促使了一种以测试学生能够以新颖方式综合思想为重点的方法转变而不仅仅是测试事实知识。我相信生成式人工智能将在教育领域引起另一场变革性转变需要重新评估和调整当前的教学方法和评估标准。如果每个学生现在都可以在口袋里拥有一个可以对问题生成新颖回答的论文写作机器那么基于论文的课程的目的是什么许多人呼吁禁止使用这种人工智能工具就像禁止剽窃一样。然而情况并不那么简单因为检测人工智能生成的文本比检测剽窃要困难得多甚至更难以无疑地证明。此外学生可以使用人工智能工具为论文生成一个骨架草稿然后根据需要添加额外细节或更新事实不正确的信息。在这种情况下是学生的原创作品还是人工智能的显然这些是需要解决的重大问题以便教育和认证保持其完整性。在我看来抵制人工智能工具在教育中的传播是毫无意义的-任何这样的方法注定会失败因为它们将在日常生活中变得如此普遍以至于试图限制它们的使用将是徒劳的。相反我们需要找到方法来拥抱这项技术并询问如何设计开放式人工智能课程就像我们允许开卷考试课程一样并鼓励学生使用互联网和人工智能工具公开研究材料。生成式人工智能在辅助学习过程本身方面的潜力也是巨大且深刻的。一个由人工智能驱动的导师可以帮助学生学习新主题如图 14-10 所示克服误解或生成完全个性化的学习计划。从生成的虚构中过滤真相的挑战与我们目前在互联网上可用信息所面临的挑战并无二致这是一个需要跨学科进一步关注的生活技能。https://github.com/OpenDocCN/ibooker-dl-zh/raw/master/docs/gen-dl/img/gdl2_1410.png图 14-10。GPT-3 的输出-展示了大型语言模型如何用于学习的示例生成式人工智能可以是一个非常强大的工具可以在那些有机会接触优秀教师和最佳学习材料的人与那些没有这种机会的人之间拉平竞争场。我对这一领域的进展感到兴奋因为我相信它可以释放全球范围内的巨大潜力。生成式人工智能的伦理和挑战尽管在生成式人工智能领域取得了令人难以置信的进展但仍然有许多挑战需要克服。其中一些挑战是实际的另一些是伦理的。例如大型语言模型的一个主要批评是当询问一个陌生或矛盾的主题时它们很容易生成错误信息如图 14-4 所示。这种危险在于很难知道生成的回应中包含的信息是否真实准确。即使您要求 LLM 解释其推理或引用来源它可能会编造参考文献或说出一系列逻辑上不相连的陈述。这不是一个容易解决的问题因为 LLM 只是一组权重准确捕捉给定一组输入标记时最可能的下一个词-它没有可以用作参考的真实信息库。解决这个问题的一个潜在方案是为大型语言模型提供调用结构化工具的能力如计算器、代码编译器和在线信息源用于需要精确执行或事实的任务。例如图 14-11 展示了 Meta 于 2023 年 2 月发布的名为Toolformer的模型的输出。⁴https://github.com/OpenDocCN/ibooker-dl-zh/raw/master/docs/gen-dl/img/gdl2_1411.png图 14-11. Toolformer 能够自主调用不同的 API 以在必要时获取精确信息的示例来源Schick 等人2023Toolformer 能够明确调用 API 以获取信息作为其生成式响应的一部分。例如它可能使用维基百科 API 来检索有关特定人物的信息而不是依赖于这些信息被嵌入在其模型权重中。这种方法特别适用于精确的数学运算其中 Toolformer 可以说明它想要输入计算器 API 的哪些操作而不是试图以有用的方式自动生成答案。生成式 AI 的另一个突出的伦理关注点在于大公司使用从网络上抓取的大量数据来训练他们的模型而原始创作者并没有明确同意这样做。通常这些数据甚至没有公开发布因此无法知道您的数据是否被用来训练大型语言模型或多模态文本到图像模型。显然这是一个合理的担忧特别是对于艺术家来说他们可能会认为这是对他们的艺术作品的使用而他们并没有得到任何版税或佣金。此外艺术家的名字可能被用作提示以生成更多风格类似于原作的艺术作品从而降低内容的独特性并将风格商品化。这个问题的一个解决方案是由 Stability AI 开创的他们的多模态模型 Stable Diffusion 是在开源 LAION-5B 数据集的一个子集上进行训练的。他们还推出了网站Have I Been Trained?任何人都可以在训练数据集中搜索特定的图像或文本段落并选择退出未来的模型训练过程。这将控制权交还给原始创作者并确保用于创建强大工具如此的数据具有透明度。然而这种做法并不普遍许多商业可用的生成式 AI 模型并不公开其数据集或模型权重也不提供任何选择退出训练过程的选项。总之虽然生成式 AI 是一个强大的工具可用于日常生活、工作场所和教育领域的沟通、生产力和学习但其广泛使用既有优势也有劣势。重要的是要意识到使用生成式 AI 模型的输出的潜在风险并始终确保负责任地使用它。尽管如此我对生成式 AI 的未来充满乐观并迫不及待地想看到企业和人们如何适应这项新的令人兴奋的技术。最后思考在本书中我们通过过去十年的生成建模研究之旅从 VAEs、GANs、自回归模型、正规化流模型、基于能量的模型和扩散模型的基本思想开始建立在这些基础上了解 VQ-GAN、Transformers、世界模型和多模态模型等最新技术如何推动生成模型在各种任务中所能实现的边界。我相信在未来生成建模可能是一种更深层次的人工智能的关键超越任何特定任务使机器能够有机地制定自己的奖励、策略甚至在环境中产生意识。我的信念与 Karl Friston 最初开创的“主动推理”原则密切相关。主动推理背后的理论可以轻松填满另一本完整的书籍——并且确实填满了就像 Thomas Parr 等人在《主动推理心智、大脑和行为中的自由能量原则》麻省理工学院出版社中所做的那样我强烈推荐——所以我只会在这里尝试简短解释。作为婴儿我们不断地探索周围环境建立起可能未来的心智模型看似没有明显目的只是为了更深入地理解世界。我们接收到的数据没有标签——从出生那一刻起就不断轰击我们感官的光和声波似乎是随机的。即使有人指着一个苹果说“苹果”我们年幼的大脑也没有理由将这两个输入联系起来学习到光线进入眼睛的方式与声波进入耳朵的方式有某种关联。没有声音和图像的训练集没有气味和味道的训练集也没有行为和奖励的训练集只有一个无休止的极其嘈杂的数据流。然而此刻你正在阅读这句话也许正在享受嘈杂咖啡馆里一杯咖啡的味道。你专注于将视网膜上的微小部分的光缺失转化为一系列抽象概念这些概念单独来看几乎没有意义但结合起来会在你的脑海中引发一波平行的表征——图像、情感、想法、信念和潜在行动都涌入你的意识等待你的认知。对于你的婴儿大脑来说基本无意义的同样嘈杂的数据流现在不再那么嘈杂。一切对你来说都是有意义的。你在任何地方都看到结构。你对日常生活的物理现象从不感到惊讶。世界是因为你的大脑决定它应该是这样。在这个意义上你的大脑是一个极其复杂的生成模型具有关注输入数据特定部分、在神经通路的潜在空间内形成概念表征、并随时间处理序列数据的能力。主动推理是一个基于这一思想的框架用来解释大脑如何处理和整合感官信息以做出决策和行动。它指出一个生物体对其所处世界有一个生成模型并利用这个模型对未来事件进行预测。为了减少模型与现实之间的差异所带来的惊讶生物体相应地调整其行动和信念。Friston 的关键思想是行动和感知优化可以被看作是同一个硬币的两面两者都旨在最小化一个称为“自由能量”的量。这个框架的核心是一个环境的生成模型在大脑中捕获它不断地与现实进行比较。关键是大脑不是事件的被动观察者。在人类中它连接着一条脖子和一套腿可以将其核心输入传感器相对于输入数据源放置在多种位置。因此可能未来的生成序列不仅取决于其对环境物理的理解还取决于其对自身及其行为方式的理解。行动和感知的这种反馈循环对我来说非常有趣我相信我们只是触及了具有行动推理原则的具体环境中能够采取行动的具体生成模型的潜力表面。这是我认为将在未来十年继续推动生成建模走向聚光灯下的核心理念之一作为解锁人工通用智能的关键之一。在这个基础上我鼓励您继续从在线和其他书籍中提供的优质材料中学习更多关于生成模型的知识。感谢您抽出时间阅读本书至此希望您和我一样享受阅读的乐趣¹ Hugo Touvron 等人“LLaMA: 开放高效的基础语言模型”2023 年 2 月 27 日https://arxiv.org/abs/2302.13971。² Mark Chen 等人“评估在代码上训练的大型语言模型”2021 年 7 月 7 日https://arxiv.org/abs/2107.03374。³ 张旅民和 Maneesh Agrawala“向文本到图像扩散模型添加条件控制”2023 年 2 月 10 日https://arxiv.org/abs/2302.05543。⁴ Timo Schick 等人“Toolformer: 语言模型可以自学使用工具”2023 年 2 月 9 日https://arxiv.org/abs/2302.04761。

相关文章:

生成式深度学习(四)

原文:Generative Deep Learning 译者:飞龙 协议:CC BY-NC-SA 4.0 第十四章:结论 2018 年 5 月,我开始着手第一版这本书的工作。五年后,我对生成 AI 的无限可能性和潜在影响感到比以往任何时候都更加兴奋。…...

PyTorch DDP分布式训练超快

💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 PyTorch DDP分布式训练:实现超快训练的深度解析目录PyTorch DDP分布式训练:实现超快训练的深度解析 引言…...

工厂的历史演进:从工业革命到智能时代

工厂的历史演进:从工业革命到智能时代摘要工厂作为现代工业社会的核心组织形式,其发展历程深刻反映了人类生产方式、社会结构和文明形态的变革。本报告通过系统梳理工厂从18世纪工业革命起源到21世纪智能时代的发展脉络,全面分析了工厂制度的…...

计算机毕业设计 | SpringBoot小米商城 购物管理系统(附源码)

1,绪论 1.1 背景调研 电子商城的建设,不仅仅是初级网上购物的实现,它能够有效地在Internet上构架安全的和易于扩展的业务框架体系,实现BToB(企业对企业)、BToC(企业对用户)以及CTo…...

OpenClawd的一个神器技能Skill Creator

这家伙,甚至可以说是整个Skills生态的基石。 Skill-creator 如今,小龙虾之所以能拥有如此出众的能力,在同类事物中脱颖而出,其中一半的功劳都要归功于各类实用的Skill。这些Skill涵盖了不同场景下的需求,能够精准赋能小龙虾,让它在使用过程中更高效、更便捷,而这些多样…...

PAT 乙级 1093

依旧简单的一集。字符也可以当成 int 型整数来用。 #include<bits/stdc.h> using namespace std;int main() {string a, b;getline(cin, a);getline(cin, b);string s a b;int v[150] {0};for(int i 0; i < s.size(); i ) {if(v[s[i]] 0)cout << s[i];v[s[…...

PowerShell 执行策略限制导致的 `npm` 命令无法运行的安全错误

PowerShell 执行策略限制导致的 npm 命令无法运行的安全错误 npm install npm : 无法加载文件 D:\Program Files\nodejs\npm.ps1&#xff0c;因为在此系统上禁止运行脚本。有关详细信息&#xff0c;请参阅 https:/go.microsoft.com/fwlink/?LinkID135170 中的 about_Execution…...

动态残差组改进YOLOv26双重注意力机制与残差学习深度融合

动态残差组改进YOLOv26双重注意力机制与残差学习深度融合 在目标检测领域&#xff0c;特征提取的质量直接决定了模型的检测性能。传统的残差网络虽然能够有效缓解梯度消失问题&#xff0c;但在复杂场景下往往难以自适应地关注关键特征。本文介绍一种基于动态残差组&#xff08…...

有什么找工作比较好的软件?2026实测推荐,行业TOP1太省心

有什么找工作比较好的软件&#xff1f;2026实测推荐&#xff0c;行业TOP1太省心在求职市场竞争日趋激烈的当下&#xff0c;“有什么找工作比较好的软件”成为全网高频热搜&#xff0c;无论是应届生首次求职、职场人跳槽转型&#xff0c;还是蓝领群体寻求稳定岗位&#xff0c;一…...

香港启世集团宣布启动核聚变能源研究计划

创始人夙昊玄&#xff1a;推动人类迈向清洁能源新时代 香港&#xff0c;2026年3月 —— 香港启世集团今日宣布正式启动核聚变能源研究计划&#xff0c;致力于探索未来清洁能源解决方案。集团创始人 夙昊玄 表示&#xff0c;核聚变被视为人类能源发展的终极方向之一&#xff0c…...

告别“积木式”构建:RH Claw 实现 OpenClaw AIGC全模态能力一令直达

在2026年数字员工浪潮的推动下&#xff0c;开源框架OpenClaw&#xff08;小龙虾&#xff09;已进化为构建Agent的核心底层。而智能体进化的下一步&#xff0c;必然是执行力的全维度突破。因此&#xff0c;卓越的AIGC图形音视频工作流开发和API服务平台RunningHub正式发布RHClaw…...

全球医疗器械展会代理地域适配指南:各区域优质服务商精准推荐

一、引言与地域类参展核心痛点据国际展览业协会(UFI)最新数据显示,全球展览市场规模已突破3000亿美元,其中海外医疗器械展会年增速保持在8%以上,北京嘉宇沃德展览有限公司凭借深耕垂直领域、全区域布局、专业服务积淀,成为众多医疗企业出海参展、覆盖全球多区域展会的重要合作伙…...

API接口管理系统助力企业破解数据孤岛难题

当处于数字化转型那如浪潮般势头下时&#xff0c;企业的IT架构变得一天比一天愈加复杂&#xff0c;其内部常常运行着数十个&#xff0c;甚至多达上百个&#xff0c;是源自不同厂商&#xff0c;且处于不同时期建设而成的业务系统。这些数量众多的系统之间出现的数据孤岛情况&…...

超强AI智能抠图神器 Aiarty Image Matting 实操教程(0基础入门,发丝级抠图秒出效果)

在设计创作、办公排版、电商运营、短视频制作等场景中&#xff0c;抠图是高频且繁琐的操作。传统抠图工具不仅需要专业技巧&#xff0c;面对毛发、透明物体、复杂背景等场景时&#xff0c;更是耗时费力&#xff0c;往往出现抠图不精准、边缘生硬、细节丢失等问题&#xff0c;让…...

Spring AI RAG 生产级实战:从 0 构建企业智能知识库系统

Spring AI RAG 生产级实战:从 0 构建企业智能知识库系统 摘要:RAG(检索增强生成)是当前最热门的 AI 应用架构。本文基于 Spring AI 框架,手把手教你构建生产级 RAG 知识库系统。涵盖向量数据库选型(PostgreSQL/pgvector、Milvus)、文档处理、向量化、语义检索、与大模型…...

开题报告写到想退学?别硬扛了!我用这个工具10分钟搞定导师点头的版本

姐妹们&#xff0c;坦白局时间&#xfffd;&#xfffd; 上周我的开题报告一次性通过&#xff0c; 导师甚至说&#xff1a;“结构很清晰&#xff0c;问题意识明确&#xff0c;可以开始写了。” 而就在两周前&#xff0c;我还在凌晨三点对着电脑哭—— 开题报告改到第4稿&…...

你的选题值得一个好开头——百考通AI让开题报告成为研究助力,而非负担

开题报告是毕业论文或学位研究的“第一块基石”&#xff0c;它不仅决定你的选题能否通过&#xff0c;更直接影响后续研究的深度、逻辑与可行性。然而&#xff0c;许多学生在撰写时常常陷入困境&#xff1a;问题意识模糊、文献综述堆砌无主线、研究方法描述空泛、结构松散不规范…...

省下反复返工的时间!百考通AI自动生成结构完整、学科适配的开题框架

开题报告是学术研究的“导航图”&#xff0c;它不仅需要清晰界定研究问题&#xff0c;还要论证其理论价值与现实意义&#xff0c;并设计出科学、可行的研究路径。然而&#xff0c;许多学生在撰写过程中常常感到无从下手&#xff1a;选题宽泛、逻辑不清、文献堆砌、方法模糊………...

day113(3.15)——leetcode面试经典150

123. 买卖股票的最佳时机 III 123. 买卖股票的最佳时机 Ⅲ 题目&#xff1a; 题解&#xff1a; class Solution {// 可以买卖多次&#xff0c;但手里只能持有一股。// 最多可以完成 两笔 交易。// 因为可以多次买卖&#xff0c;所以“买入”的时候&#xff0c;可以用“上一次…...

卷筒组装配图与零件图(CAD)

卷筒组作为起重机械、矿山设备等领域的核心部件&#xff0c;其装配图与零件图是机械设计过程中不可或缺的实用资料。装配图通过整体视图、剖面图及标注&#xff0c;清晰呈现卷筒组各零件的装配关系、相对位置及功能联动逻辑。例如&#xff0c;卷筒体与轴承座的配合间隙、制动轮…...

《有限与无限的游戏》导读:一本很薄、很深、也很容易读不懂的书

《有限与无限的游戏》是一本篇幅不长、但思想密度很高的书。 它读起来并不轻松&#xff0c;甚至很容易在前几十页就让人产生一种感觉&#xff1a;好像每一句都很深刻&#xff0c;但又很难立刻说清它到底在讲什么。 这恰恰也是这本书最特别的地方。 它不是那种用清晰案例和完整论…...

〘 7 〙软考高项 | 第14章:项目沟通管理

&#x1f4a1; 点赞・能量加载 | &#x1f310; 关注・持续更新 &#x1f4ce; 收藏・方便回看 | ✨ 评论・互动交流 目录 1.项目沟通管理概述 1.1 定义 1.2 沟通分类 1.3 沟通技巧 1.4 管理新实践 2.沟通管理过程 2.1 规划沟通管理 2.1.1 本过程含义 2.1.2 输…...

真的太省时间!千笔,最受欢迎的AI论文软件

你是否曾为论文选题发愁&#xff0c;绞尽脑汁却找不到方向&#xff1f;是否在深夜面对空白文档&#xff0c;思绪枯竭、无从下笔&#xff1f;又是否反复修改却仍对表达不满意&#xff0c;查重率屡屡超标&#xff1f;专科生的论文之路&#xff0c;本就充满挑战&#xff0c;而千笔…...

一文讲透|AI论文平台 千笔写作工具 VS WPS AI,本科生写论文神器!

随着人工智能技术的迅猛发展&#xff0c;AI辅助写作工具已逐渐成为高校学生完成毕业论文的重要帮手。从开题报告到文献综述&#xff0c;从框架搭建到内容撰写&#xff0c;AI正在深刻改变着学术写作的流程与效率。然而&#xff0c;面对市场上琳琅满目的AI写作工具&#xff0c;许…...

科研党收藏!降AIGC工具 千笔AI VS WPS AI,开源免费首选

在AI技术迅速渗透学术写作领域的当下&#xff0c;越来越多的学生、研究人员和职场人士开始借助AI工具提升论文写作效率。然而&#xff0c;随之而来的“AI率超标”问题也日益凸显——随着查重系统不断升级&#xff0c;AI生成内容被识别的风险显著增加&#xff0c;一旦检测不通过…...

亲测好用! AI论文软件 千笔·专业论文写作工具 VS 万方智搜AI,自考写论文神器!

随着人工智能技术的迅猛发展&#xff0c;AI辅助写作工具正逐步成为高校学生完成毕业论文的重要助手。越来越多的学生开始借助这些工具提升写作效率、降低论文压力。然而&#xff0c;面对市场上功能各异、质量参差不齐的AI工具&#xff0c;许多学生在选择时陷入“选择困难”——…...

面向新一代硬件,CANN技术架构的变与不变

当前&#xff0c;人工智能正以前所未有的速度渗透千行百业&#xff0c;推动 AI 算力需求呈指数级增长&#xff0c;算力已成为人工智能产业发展的核心竞争力。 在此背景下&#xff0c;昇腾推出新一代 AI 芯片 Ascend 950PR 与 Ascend 950 DT。两款芯片在继承上一代优秀能力的基础…...

构建以观测为先的 Redis 容错体系:当缓存失效时如何不被业务拖垮

构建以观测为先的 Redis 容错体系&#xff1a;当缓存失效时如何不被业务拖垮摘要&#xff1a;很多关于 Redis 的文章聚焦于单点技巧&#xff08;布隆过滤器、分布式锁等&#xff09;&#xff0c;但真正能在生产环境救命的是“体系”和“观测”。本文把关注点从单个坑位移到系统…...

导师说“不像能做完的”?百考通AI开题报告,专治目标虚、方法空、进度假

开题报告是毕业论文或学位研究的“第一张施工图”&#xff0c;它不仅要阐明研究价值&#xff0c;更要清晰界定问题、设计方法、规划路径。然而&#xff0c;许多学生在撰写时常常陷入“有想法却写不出”“懂方向但不会表达”的困境&#xff1a;选题宽泛、文献堆砌、方法模糊、结…...

别让模糊想法拖垮你的研究——百考通帮你把选题变成可执行的科研计划

开题报告是毕业论文或学位研究的“第一道门槛”&#xff0c;它不仅需要清晰界定研究问题&#xff0c;还要论证其学术价值、设计可行路径&#xff0c;并展现扎实的研究基础。然而&#xff0c;许多学生在撰写时常常感到力不从心&#xff1a;选题太大无焦点、文献综述堆砌无主线、…...