当前位置: 首页 > news >正文

多模态论文笔记——U-ViT(国内版DiT)

大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本文详细介绍U-ViT的模型架构和实验细节,虽然没有后续的DiT在AIGC领域火爆,但为后来的研究奠定了基础,但其开创性的探索值得学习。

在这里插入图片描述

文章目录

      • 论文
      • 背景
      • 架构
      • 训练细节
        • 1. 长跳跃连接 (Long Skip Connections)
        • 2. 时间信息的注入方式 (Feeding Time into the Network)
        • 3. 额外的卷积块 (Extra Convolutional Block)
        • 4. Patch Embedding 的变体
        • 5. 位置编码 (Position Embedding)
      • 深度、宽度、patch大小的影响
      • 总结
      • 长跳跃连接在图像扩散模型中的作用
        • 1. 信息传递
        • 2. 特征整合
        • 3. 梯度传播
        • 4. 其他作用
  • 历史文章
    • 机器学习
    • 深度学习
      • 多模态论文

在前面的多模态系列文章中,我们介绍了DiT,其作为AIGC时代的新宠儿,将Transformer和Diffusion结合起来的,是近几年图像和视频生成的领域的优选结构。其实早在2022年9月,清华大学团队就发布了用「基于Transformer的架构U-ViT」替代基于卷积架构的U-Net,只不过没有现在的DiT火热。下面详细介绍U-ViT:

论文

All are Worth Words: A ViT Backbone for Diffusion Models

背景

扩散模型是一种强大的深度生成模型,近年来在高质量图像生成任务中展现了巨大的潜力。它们的发展速度迅猛,广泛应用于文本到图像生成、图像到图像生成、视频生成、语音合成以及3D合成等领域。

在目前的扩散模型中,骨干(backbones)结构的变革在扩散模型中起着核心作用。目前火热的扩散模型,如SD系列模型就是基于CNN的U-Net的,并取得了优异的性能。它通过下采样(encoding)和上采样(decoding)操作,结合跳跃连接,在捕捉局部细节和全局结构方面表现突出。

在SD 3 之前的扩散模型使用的是以基于CNN的U-Net为骨干结构的,在SD 3 之后的系列中,则是使用了DiT作为了骨干结构。
扩散模型系列参考:SD合集

将视觉和Transformer相结合的 ViT 在各种视觉任务中显现出了前景,而基于CNN的U-Net在扩散模型中仍占主导地位。本文中设计了一个简单而通用的基于ViT的架构(U-ViT),替代扩散模型中的U-Net,用于生成图像。

ViT参考:多模态论文笔记——ViT、ViLT

  • 设计一个基于其他架构(如ViT)的模型,要在性能上达到甚至超越U-Net并不容易。
  • ViT作为Transformer家族的一员,擅长处理全局特征,但其对局部细节的捕捉能力不如CNN。因此,直接用ViT替代U-Net并不现实。

U-ViT 核心设计如下:

  • U-ViT是基于ViT(Vision Transformer)架构的,它借鉴了U-Net的结构,用于替代扩散模型中的基于 CNN 的 U-Net,以生成图像。
  • 它将时间、条件和噪声图像补丁作为 token 输入,并使用**长跳跃连接(long skip connections)**连接浅层和深层。

效果:

  • 在无条件、类条件图像生成和文本到图像生成任务中,U-ViT表现出色。
  • 研究表明,长跳跃连接对于扩散模型中的图像建模至关重要,而 CNN-based U-Net 中的下采样和上采样操作并非总是必需的。

架构

本文中,作者设计的U-ViT架构,如下图所示:
在这里插入图片描述

图1. 用于扩散模型的U-ViT架构,其特点是将所有输入(包括时间、条件和噪声图像补丁)作为token,并在浅层和深层之间采用(#Blocks-1)/2个长跳跃连接。

架构说明:

  • U-ViT遵循ViT的设计方法,对图片进行一个Patch化的操作,并且U-ViT将所有输入(包括时间、条件和图像patch)都视为token。
    • 将时间 t t t、条件 c c c图像patch后的加噪图像 x t x_t xt 作为输入,然后【通过 ϵ θ ( x t , t , c ) \epsilon_\theta(x_t, t, c) ϵθ(xt,t,c)】在 U-ViT模型中预测加入 x t x_t xt中的噪声。
  • 受基于CNN的U-Net在扩散模型中的成功启发,U-ViT采用了类似的浅层和深层之间的长跳跃连接。
    • ϵ θ ( x t , t , c ) \epsilon_\theta(x_t, t, c) ϵθ(xt,t,c)的目标是像素级预测任务,对低级特征敏感。长跳跃连接为低级特征提供了捷径,使用长跳跃连接(long skip connections)连接浅层和深层,使浅层特征传递到深层,为深层网络提供更丰富的信息。
  • 【可选项】U-ViT在输出之前添加一个3×3的卷积块。旨在防止transformer生成的图像中出现潜在的伪影(potential artifacts in images)。

在论文的Background部分,还对扩散模型的扩散原理进行了简单的回顾,如不了解这个内容,建议参考:Stable Diffusion的加噪和去噪详解

训练细节

作者通过系统的实验研究,精心设计了其关键实现细节,并在CIFAR10数据集上进行了消融实验,通过消融实验,作者确定了以下最佳实现细节:

  1. 长跳跃连接采用 连接后线性投影 的方式。
  2. 时间信息通过 Token 注入更优。
  3. 额外卷积块在 线性投影后 添加效果最佳。
  4. Patch Embedding 使用 线性投影 更好。
  5. 位置编码使用 一维可学习嵌入(1-dimensional learnable position embedding) 是最佳选择(U-ViT和ViT、ViLT、DiT选择的位置编码一样,都是1D position embeddings,不同的是:DiT是不可学习的,ViT、ViLT和U-ViT是可学习的)。

消融实验(Ablation Study)是一种常见的实验方法,用于评估复杂系统中各个组件或设计对整体性能的贡献。通过系统地移除、替换或修改某个组件,然后观察模型性能的变化,研究人员可以验证该组件的作用并优化设计。

1. 长跳跃连接 (Long Skip Connections)

问题:哪种长跳跃连接方法更优?
实验设置:考虑以下几种主分支 h m h_m hm 和长跳跃分支 h s h_s hs 的组合方法:

  • 方法1:将它们连接后执行线性投影: Linear(Concat ( h m , h s ) ) \text{Linear(Concat}(h_m, h_s)) Linear(Concat(hm,hs))
  • 方法2:直接相加: h m + h s h_m + h_s hm+hs
  • 方法3:线性投影 h s h_s hs 后相加: h m + Linear ( h s ) h_m + \text{Linear}(h_s) hm+Linear(hs)
  • 方法4:相加后进行线性投影: Linear ( h m + h s ) \text{Linear}(h_m + h_s) Linear(hm+hs)
  • 方法5:不使用长跳跃连接。

在这里插入图片描述

结果

  • 方法1(连接后线性投影) 的性能最佳。该方法显著改变了表征信息,提升了模型性能。
  • 方法2(直接相加) 表现较差,因为Transformer内部已有加法操作,导致无显著增益。

2. 时间信息的注入方式 (Feeding Time into the Network)

问题:如何将时间 t t t 送入网络?
实验设置

  • 方法1:将时间 t t t 作为一个Token输入(如图1所示)。
  • 方法2:通过自适应层归一化 (Adaptive LayerNorm, AdaLN) 融入时间信息:
    AdaLN ( h , y ) = y s ⋅ LayerNorm ( h ) + y b \text{AdaLN}(h, y) = y_s \cdot \text{LayerNorm}(h) + y_b AdaLN(h,y)=ysLayerNorm(h)+yb
    其中, y s y_s ys y b y_b yb 为时间嵌入的线性投影。

在这里插入图片描述

结果

  • 方法1(将时间视为Token) 效果更好,尽管实现简单。

3. 额外的卷积块 (Extra Convolutional Block)

问题:Transformer后额外卷积块的位置对性能的影响?
实验设置

  • 方法1:在线性投影后添加一个3×3卷积块,将Token映射到图像Patch。
  • 方法2:在线性投影前添加一个3×3卷积块。
  • 方法3:不添加卷积块。

在这里插入图片描述

结果

  • 方法1(在线性投影后添加卷积块)性能略优。

4. Patch Embedding 的变体

问题:哪种Patch Embedding方式更好?
实验设置

  • 方法1:使用线性投影将Patch映射为Token嵌入(原始方式)。
  • 方法2:堆叠3×3卷积块,后接1×1卷积块,将图像映射为Token嵌入。

在这里插入图片描述

结果

  • 方法1(原始线性投影) 表现优于卷积堆叠方式。

5. 位置编码 (Position Embedding)

问题:哪种位置编码更优?
实验设置

  • 方法1:一维可学习位置嵌入(ViT默认设置)。
  • 方法2:二维正弦位置嵌入,Patch的 position ( i , j ) \text{position}(i, j) position(i,j) i i i j j j 的正弦编码拼接得到, i i i j j j 分别是二维网格中的行索引列索引
  • 方法3:不使用任何位置编码。

在这里插入图片描述

结果

  • 方法1(1D可学习位置嵌入) 性能最佳。
  • 方法3(无位置编码) 无法生成有意义的图像,表明位置编码对图像生成至关重要。

深度、宽度、patch大小的影响

论文中还探讨了深度(层数)、宽度(隐藏层尺寸)和patch size对模型性能的影响。效果如下图所示:

在这里插入图片描述

  1. 深度 (Depth):

    • 随着模型深度的增加,性能得到了提高(例如:depth=9, 13),证实了 scale 特性。
    • 然而,在50K训练迭代后,增加到更大的深度(depth=17)并未带来额外的性能提升。
  2. 宽度 (Width):

    • 增加隐藏层的宽度(例如:width=256, 512)有助于性能的提升。
    • 然而,进一步增加到width=768并没有带来性能增益。
  3. Patch Size:

    • 减小patch size可以提高性能(例如:patch-size=8, 2),但是,减小到patch-size=1时,不再有任何性能提升。
    • 作者认为,为了获得良好的性能,较小的patch size(如patch-size=2)是必要的。推测原因是扩散模型的噪声预测任务需要低级别的细节,而这与高级任务(如分类)不同。
  4. 低维潜在表示:

    • 小的patch尺寸对于高分辨率图像的计算代价较高,因此作者选择将图像转换为低维潜在表示,并利用U-ViT对这些低维表示进行建模,【同SD模型,使用VAE进行降维】。

总结

通读完U-ViT,可以看出 U-ViT 和 后面发布并且爆火的 DiT在设计上有异曲同工之处:

  • 二者均是将 Transformer 与扩散模型融合的思路
  • 实验路径也相似,比如都采用了1 D 的位置编码 、在patch size上,都得出了同样的结论:patch size 为 2*2 是最理想的,都使用了和ViT一样的位置编码:1 D的正余弦。
  • 在模型参数量上,两者都在 50M-500M 左右的参数量上做了实验,最终都证实了Transformer的强大 scale 特性。
  • 额外的条件信息(时间信息/Timesteps,和文本信息)的注入方式实验中,都验证了自适应层规范化(AdaLN)。只不过U-ViT实验表明将时间 t t t 作为一个Token输入虽然简单,但是表现更好;而DiT实验中则认为AdaLN(准确的说是adaLN-Zero)效果更好。

DiT参考历史文章:多模态论文——DiT

长跳跃连接在图像扩散模型中的作用

长跳跃连接(long skip connections) 在图像扩散模型中的作用和 ResNet(Residual Networks) 的作用有相似之处。下面是长跳跃连接在图像扩散模型中的作用的详细介绍

1. 信息传递
  • 直接连接浅层和深层,细节保留:通过长跳跃连接(long skip connections),浅层提取的低级特征(如边缘、纹理等)可以直接传递给深层网络。 使深层网络可以获得来自浅层的更丰富的信息。这种信息传递可以帮助深层网络更好地理解和捕捉图像中的细节和特征,从而提高图像扩散模型的性能。
2. 特征整合
  • 融合多层次信息,增强上下文理解:通过跳跃连接,将浅层特征与深层特征融合(如通过加法、拼接等操作),形成丰富的多尺度特征表示。可以获得更丰富、更全局的特征表示。这种特征整合可以帮助模型更好地理解图像的上下文和语义信息,提高生成图像的质量和准确性。
3. 梯度传播
  • 缓解梯度消失和梯度爆炸,增强训练稳定性:长跳跃连接通过直接连接浅层和深层,使得梯度能够从深层更有效地反向传播到浅层,避免梯度在传播过程中的逐渐衰减或增大。梯度的顺畅传播有助于网络各层参数的学习更加稳定,从而提高训练的收敛速度和效果。
4. 其他作用
  • 支持高分辨率生成:在高分辨率图像生成中,长跳跃连接能够帮助模型更好地传递细粒度特征信息,避免因过多的下采样导致的分辨率损失。
  • 减少依赖下采样和上采样操作:相比传统的卷积U-Net中大量依赖下采样和上采样,长跳跃连接可以减少对这些操作的依赖,从而降低结构复杂度。

历史文章

机器学习

机器学习笔记合集

深度学习

深度学习笔记合集

多模态论文

深度学习笔记——ViT、ViLT
深度学习笔记——DiT(Diffusion Transformer)
深度学习笔记——CLIP、BLIP
多模态论文笔记——BLIP2
深度学习笔记——VQ-VAE和VQ-VAE-2
多模态论文笔记——dVAE(DALL·E的核心部件)
多模态论文笔记——LLaVA
多模态论文笔记——Coca
多模态论文笔记——CogVLM和CogVLM2

相关文章:

多模态论文笔记——U-ViT(国内版DiT)

大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本文详细介绍U-ViT的模型架构和实验细节,虽然没有后续的DiT在AIGC领域火爆,但为后来的研究奠定了基础,但其开创性的探索值得学习…...

在 IntelliJ IDEA 中开发 GPT 自动补全插件

背景与目标 随着 AI 的发展,GitHub Copilot 等智能代码补全工具在开发者中获得了广泛的应用,极大地提高了编程效率。本篇文章将教你如何开发一个 IntelliJ IDEA 插件,使用 OpenAI 的 GPT API 来实现类似 Copilot 的代码自动补全功能。通过这…...

7. C语言 运算符详解

本章目录: 前言C语言运算符的分类1. 算术运算符2. 关系运算符3. 逻辑运算符4. 位运算符5. 赋值运算符6. 杂项运算符 运算符优先级 前言 在C语言中,运算符是程序中执行各种操作的核心工具,涉及算术运算、逻辑判断、位操作等多个方面。掌握C语言中的各种运…...

Java四大常用JSON解析性能对比:Hutool、Fastjson2、Gson与Jackson测试

1. 引言 JSON 是现代软件开发中常用的数据交换格式,尤其在微服务和前后端分离的架构中更是必不可少。 本文将对 Java 中四大主流 JSON 解析库——Hutool、Fastjson2、Gson 和 Jackson 进行性能测试和对比分析,通过实测 20 万条数据解析,揭示…...

Qt 5.14.2 学习记录 —— 일 新项目

文章目录 1、创建2、查看代码 ---- main.cpp3、查看代码 ---- widgt.h4、查看代码 ---- widgt.cpp和widget.ui5、查看代码 ---- Empty.pro6、运行产生的中间文件 1、创建 左上角的文件,新建文件或项目。如果要写一个GUI程序,应当选择Application&#x…...

uni-app:实现普通选择器,时间选择器,日期选择器,多列选择器

效果 选择前效果 1、时间选择器 2、日期选择器 3、普通选择器 4、多列选择器 选择后效果 代码 <template><!-- 时间选择器 --><view class"line"><view classitem1><view classleft>时间</view><view class"right&quo…...

Unity3D仿星露谷物语开发17之空库存栏UI

1、目标 将库存栏放在游戏界面中&#xff0c;一般情况下角色居中展示时库存栏在底部&#xff0c;当角色位于界面下方时库存栏展示在顶部避免遮挡。 2、CanvasGroup组件 用于集中控制UI元素的透明度、交互性和射线投射行为。CanvasGroup的Alpha属性允许渐变效果&#xff0c;I…...

QT------模型/视图

一、模型/视图结构概述 基本原理&#xff1a; Qt 的模型/视图&#xff08;Model/View&#xff09;架构将数据的存储和显示分离&#xff0c;提高了代码的可维护性和复用性。模型&#xff08;Model&#xff09;&#xff1a;负责存储和管理数据&#xff0c;提供数据的访问接口&am…...

Git - 记录一次由于少输入了一个命令导致的更改丢失

Git - 记录一次由于少输入了一个参数导致的更改丢失 前言 某晚我激情开发了几个小时&#xff0c;中途没有进行commit存档。准备睡觉时&#xff0c;我想创建一个新的分支并将今晚所有更改提交到新分支上&#xff08;似乎应该开发时候就创建&#xff1f;&#xff09;。 然后因…...

nodeJS下npm和yarn的关系和区别详解

一、命令对应关系 1. 初始化项目 操作npm 命令Yarn 命令初始化项目npm inityarn init跳过提问快速初始化npm init -yyarn init -y 2. 安装依赖 操作npm 命令Yarn 命令安装项目所有依赖npm installyarn install添加依赖npm install <package-name>yarn add <package…...

党员学习交流平台

本文结尾处获取源码。 本文结尾处获取源码。 本文结尾处获取源码。 一、相关技术 后端&#xff1a;Java、JavaWeb / Springboot。前端&#xff1a;Vue、HTML / CSS / Javascript 等。数据库&#xff1a;MySQL 二、相关软件&#xff08;列出的软件其一均可运行&#xff09; I…...

HTML5 文件上传(File Upload)详解

HTML5 文件上传&#xff08;File Upload&#xff09;详解 HTML5 提供了强大的文件上传功能&#xff0c;允许用户通过网页选择文件并上传到服务器。以下是关于文件上传控件的详细说明。 1. 基本的文件上传控件 使用 <input> 标签的 type"file" 属性可以创建一…...

1.2.1-2部分数据结构的说明02_链表

&#xff08;1&#xff09;链表数据结构&#xff1a; 概念&#xff1a; 将列表中相互连接的节点不连续的存储在内存中。与数据不同&#xff0c;我们无法再恒定时间内访问任何元组&#xff0c;如果遍历所有则花费时间与元素总数n成正比。插入和删除1个元素的时间复杂度都是O(n…...

vue elementUI Plus实现拖拽流程图,不引入插件,纯手写实现。

vue elementUI Plus实现拖拽流程图&#xff0c;不引入插件&#xff0c;纯手写实现。 1.设计思路&#xff1a;2.设计细节3.详细代码实现 1.设计思路&#xff1a; 左侧button列表是要拖拽的组件。中间是拖拽后的流程图。右侧是拖拽后的数据列表。 我们拖动左侧组件放入中间的流…...

linux上使用cmake编译的方法

一、hello 例程仅基于一个cpp文件 C文件或工程进行编译时可以使用g指令&#xff08;需要对每一个程序和源文件分别使用g指令编译&#xff09;&#xff0c;当程序变大时&#xff0c;一个工程文件往往会包含很文件夹和源文件&#xff0c;这时我们需要的编译指令将越来越长&#…...

如何实现el-select多选下拉框中嵌套复选框并加校验不为空功能呢?

如何实现el-select多选下拉框中嵌套复选框并加校验不为空功能呢&#xff1f; 要实现的效果图选择部分品牌但不选选项效果问题概述实现方案el-select组件与el-checkbox组件无缝衔接给form表单加自定义校验规则 要实现的效果图 选择部分品牌但不选选项效果 问题概述 相信大家看到…...

源码理解 UE4中的 FCookStatsManager::FAutoRegisterCallback RegisterCookStats

官方文档&#xff1a;https://dev.epicgames.com/documentation/zh-cn/unreal-engine/API/Runtime/Core/ProfilingDebugging/FCookStatsManager文档中的注释&#xff1a; When a cook a complete that is configured to use stats (ENABLE_COOK_STATS), it will broadcast this…...

Android 根据内存大小显示MTP模式连接PC时的名称

项目有两种内存&#xff0c;要求根据连接电脑拷贝文件时的盘符名称根据内存大小显示不同名称。 frameworks/base/media/java/android/mtp/MtpDatabase.java//mh import android.app.ActivityManager; ...-894,7 896,19 public class MtpDatabase implements AutoCloseable {p…...

不只是mini-react第一节:实现最简单mini-react

项目总结构&#xff1a; ├─ &#x1f4c1;core │ ├─ &#x1f4c4;React.js │ └─ &#x1f4c4;ReactDom.js ├─ &#x1f4c1;node_modules ├─ &#x1f4c1;tests │ └─ &#x1f4c4;createElement.spec.js ├─ &#x1f4c4;App.js ├─ &#x1f4c4;in…...

前端路由layout布局处理以及菜单交互(三)

上篇介绍了前端项目部署以及基本依赖的应用&#xff0c;这次主要对于路由以及布局进行模块化处理 一、 创建layout模块 1、新建src/layout/index.vue <template><el-container class"common-layout"><!-- <el-aside class"aside">&l…...

JavaScript 中的 ES|QL:利用 Apache Arrow 工具

作者&#xff1a;来自 Elastic Jeffrey Rengifo 学习如何将 ES|QL 与 JavaScript 的 Apache Arrow 客户端工具一起使用。 想获得 Elastic 认证吗&#xff1f;了解下一期 Elasticsearch Engineer 培训的时间吧&#xff01; Elasticsearch 拥有众多新功能&#xff0c;助你为自己…...

STM32F4基本定时器使用和原理详解

STM32F4基本定时器使用和原理详解 前言如何确定定时器挂载在哪条时钟线上配置及使用方法参数配置PrescalerCounter ModeCounter Periodauto-reload preloadTrigger Event Selection 中断配置生成的代码及使用方法初始化代码基本定时器触发DCA或者ADC的代码讲解中断代码定时启动…...

服务器硬防的应用场景都有哪些?

服务器硬防是指一种通过硬件设备层面的安全措施来防御服务器系统受到网络攻击的方式&#xff0c;避免服务器受到各种恶意攻击和网络威胁&#xff0c;那么&#xff0c;服务器硬防通常都会应用在哪些场景当中呢&#xff1f; 硬防服务器中一般会配备入侵检测系统和预防系统&#x…...

cf2117E

原题链接&#xff1a;https://codeforces.com/contest/2117/problem/E 题目背景&#xff1a; 给定两个数组a,b&#xff0c;可以执行多次以下操作&#xff1a;选择 i (1 < i < n - 1)&#xff0c;并设置 或&#xff0c;也可以在执行上述操作前执行一次删除任意 和 。求…...

DIY|Mac 搭建 ESP-IDF 开发环境及编译小智 AI

前一阵子在百度 AI 开发者大会上&#xff0c;看到基于小智 AI DIY 玩具的演示&#xff0c;感觉有点意思&#xff0c;想着自己也来试试。 如果只是想烧录现成的固件&#xff0c;乐鑫官方除了提供了 Windows 版本的 Flash 下载工具 之外&#xff0c;还提供了基于网页版的 ESP LA…...

Cloudflare 从 Nginx 到 Pingora:性能、效率与安全的全面升级

在互联网的快速发展中&#xff0c;高性能、高效率和高安全性的网络服务成为了各大互联网基础设施提供商的核心追求。Cloudflare 作为全球领先的互联网安全和基础设施公司&#xff0c;近期做出了一个重大技术决策&#xff1a;弃用长期使用的 Nginx&#xff0c;转而采用其内部开发…...

微服务商城-商品微服务

数据表 CREATE TABLE product (id bigint(20) UNSIGNED NOT NULL AUTO_INCREMENT COMMENT 商品id,cateid smallint(6) UNSIGNED NOT NULL DEFAULT 0 COMMENT 类别Id,name varchar(100) NOT NULL DEFAULT COMMENT 商品名称,subtitle varchar(200) NOT NULL DEFAULT COMMENT 商…...

ip子接口配置及删除

配置永久生效的子接口&#xff0c;2个IP 都可以登录你这一台服务器。重启不失效。 永久的 [应用] vi /etc/sysconfig/network-scripts/ifcfg-eth0修改文件内内容 TYPE"Ethernet" BOOTPROTO"none" NAME"eth0" DEVICE"eth0" ONBOOT&q…...

华硕a豆14 Air香氛版,美学与科技的馨香融合

在快节奏的现代生活中&#xff0c;我们渴望一个能激发创想、愉悦感官的工作与生活伙伴&#xff0c;它不仅是冰冷的科技工具&#xff0c;更能触动我们内心深处的细腻情感。正是在这样的期许下&#xff0c;华硕a豆14 Air香氛版翩然而至&#xff0c;它以一种前所未有的方式&#x…...

算法岗面试经验分享-大模型篇

文章目录 A 基础语言模型A.1 TransformerA.2 Bert B 大语言模型结构B.1 GPTB.2 LLamaB.3 ChatGLMB.4 Qwen C 大语言模型微调C.1 Fine-tuningC.2 Adapter-tuningC.3 Prefix-tuningC.4 P-tuningC.5 LoRA A 基础语言模型 A.1 Transformer &#xff08;1&#xff09;资源 论文&a…...