当前位置：首页 > news >正文

作为国产大模型之光的智谱AI，究竟推出了多少模型？一篇文章带你详细了解！

news 2026/2/9 12:18:30

虽然OpenAI发布了一系列基于GPT模型的产品，在不同领域取得了很高的成就。但是作为LLM领域绝对的领头羊，OpenAI没有按照其最初的Open初衷行事。无论是ChatGPT早期采用的GPT3，还是后来推出的GPT3.5和GPT4模型，OpenAI都因为担心被滥用而拒绝对模型进行开源，选择了订阅付费模式。

对于大型科技公司来说，自研LLM模型几乎是不可避免的，无论是为了展示实力还是出于商业竞争的目的。然而，对于缺乏计算能力和资金的中小企业以及希望基于LLM开发衍生产品的开发者来说，选择开源显然是更理想的选择。

在众多开源的LLMs中，清华大学和智谱AI的GLM系列由于其出色的效果，引起了广大关注。在2022年11月，斯坦福大学的大模型中心对全球范围内的30个重要大模型进行了深度评估。GLM-130B是唯一被选中的亚洲模型，在评价指标上也展现出了与GPT-3 175B相当的表现。

GLM系列的模型众多，大部分都是对标GPT系列的模型，如下图所示。

在这里插入图片描述

GLM：由清华大学、北京智源人工智能研究院等联合发布的百亿模型，使用自回归填空目标进行预训练，并可以在各种自然语言理解和生成任务上进行微调。
GLM-130B：由清华智谱AI于2022年8月开源，是基于GLM继续开发的，在归一化、激活函数、掩码机制等方面进行了优化，打造的高精度千亿规模中英双语语言模型。
CodeGeeX：CodeGeeX是一个具有130亿参数的多编程语言代码生成预训练模型，但它并不是基于GLM架构的，而是一个单纯的从左到右的自回归Transformer解码器。CodeGeeX使用华为MindSpore框架实现，在20多种编程语言的代码语料库（总计超过8500亿Token）上进行了两个月预训练。CodeGeeX支持Python、C++、Java、JavaScript和Go等多种主流编程语言的代码生成，能够在不同编程语言之间进行准确的代码翻译转换。CodeGeeX2则是基于ChatGLM2-6B开发的。
ChatGLM：ChatGLM是基于GLM-130B进行指令微调得到的千亿对话模型，解决了GLM-130B在处理复杂问题、动态知识和人类可理解场景方面的限制和不足。ChatGLM-6B是在相同技术训练后开源的小规模参数量版本，方便开发者进行学习和二次开发。

GLM 百亿模型

论文：https://arxiv.org/abs/2103.10360

代码仓库：https://github.com/THUDM/GLM

背景

预训练模型主要有3种架构，自回归模型GPT、自编码模型BERT和编码-解码模型T5。

在这里插入图片描述

方法

GLM的模型架构使用了单一的Transformer，采用了自回归填空任务进行训练，通过双向注意力对masked字段进行自回归预测。

自回归填空任务，就是通过先破坏（mask）原始文本的部分，然后再对mask的部分进行预测重建。例如，输入一个句子，然后随机连续的掩盖一段文本区间，之后通过自回归预测来还原这些被mask的部分。与其它任务不同的是，GLM在mask的输入部分使用了和BERT相同的双向注意力，在生成预测的一侧则使用了自回归的单向注意力。

如下图所示，对于输入“Like a complete unknown, like a rolling stone”，首先会随机mask掉一些单词或句子，例如图中的“complete unknown”，然后在编码器阶段，可以使用双向注意力学习掩码处的特征，最后在解码器生成文本时，使用单项注意力通过自回归的方式依次生成被mask的单词。

在这里插入图片描述

输入文本 $x = [x_1, ..., x_n]$ ，对多个文本 $\text{spans} \{s_1, ..., s_n\}$ 进行采样，用单个[MASK] token替换，形成损坏的文本 $x_{corrupt}$ 。然后以自回归的方式从 $x_{corrupt}$ 预测spans中的tokens，可以访问损坏的文本和先前预测的span。

$\max _{\theta} \mathbb{E}_{\boldsymbol{z} \sim Z_{m}}\left[\sum_{i=1}^{m} \log p_{\theta}\left(\boldsymbol{s}_{z_{i}} \mid \boldsymbol{x}_{\text {corrupt }}, \boldsymbol{s}_{\boldsymbol{z}_{<i}}\right)\right]$

输入x被分成两部分：A表示x_corrupt，B表示被mask的span。A中的token可以互相关注，B中的token只能关注A以及B的前缀，看不到后缀。如下图所示，从输入文本中采样两个span: [x3] 和 [x5, x6]，A中的span用[M]替换。另外，为了充分捕获不同span之间的相互依赖性，span是随机排序的。

在这里插入图片描述

然后自回归生成B的时候，每一个span都已[S]开头作为输入，以[E]结尾作为输出，如下图所示。2D位置编码分别表示span内和span间的位置。

在这里插入图片描述

下图表示了注意力掩码，灰色的位置表示被掩盖，A部分（蓝色）的tokens可以互相关注，但不能关注B部分，B部分（黄色和绿色）的tokens可以关注A部分和B部分的前缀。

在这里插入图片描述

预训练任务

GLM根据mask的长度不同分为两种方式：单词级别（mask）和文档级别（gMASK）。在实际使用中，可以根据任务需求设置不同方式的mask比例。例如，如果希望模型具有较强的生成能力，可以提高文档级别gMASK的比例，如果只是希望模型具有短文本的自然语言理解能力，可以提高单词级别mask的比例。

在预训练阶段GLM就采用了多任务学习。任务一是生成长文本，即文档级生成。从输入文本采样长度为50%-100%上的span。目标就是训练长文本生成能力。任务二是填空，针对句子级生成。从输入文本采样完整的多个句子，要覆盖原始输入的15%左右。目标是训练生成完整的句子或段落的能力。

2D位置编码

第一个位置编码表示token在x_{corrupt}中的位置，对于mask的span，位置编码等于它对应的[MASK]的位置。第二个位置编码表示span内token的相对距离。两个位置编码都通过可学习的Embedding投影为两个向量
2D位置编码有两个优点：① 模型在重建mask的span时对长度不敏感；② 这种设计适合下游任务，因为生成文本的长度事先是未知的。

下游任务微调

传统方式：将预训练模型最后一层生成的序列或token输入一个线性分类器，预测正确的标签。

GLM的微调方式：将NLU分类任务重新定义为填空的生成任务。
例如，给定有标签样本(x, y)，通过一个包含掩码token的模式字符串将输入文本x转换为完形填空题c(x)。情感分类任务：{SENTENCE}. It’s really [MASK].

在这里插入图片描述

GLM-130B 千亿模型

论文：https://arxiv.org/abs/2210.02414

代码仓库：https://github.com/THUDM/GLM-130B

本文介绍了如何预训练一个100B规模的GLM-130B模型，包括模型设计、工程、效率和稳定性等方面的训练策略，以及如何量化出一个普通玩家可承受的推理模型。GLM-130B是一个双语模型，2022年5月6日到7月3日之间，在一个由96个NVIDIA DGX-A100（8×40G）GPU节点组成的集群上训练了超过4000亿个token。

为什么是130B？

在单个A100（4×40G）服务器上可推理
INT4量化后可以在4×RTX 3090（24G）或8×RTX 2080Ti（11G）上推理

模型架构

GLM是基于Transformer的语言模型，通过自回归填空进行训练。

Layer Normalization

层标准化的位置也有讲究，分为三种：Pre-LN、Post-LN和Sandwich-LN，其结构如下图所示。顾名思义，Pre-LN就是将层标准化放在残差连接之前，能够让模型的训练更加稳定，但是模型效果略差。Post-LN将层标准化放在残差连接之后，对参数的正则化的效果更强，虽然模型效果更好，但是可能会导致模型训练不稳定，这是由于网络深层的梯度范式逐渐增大导致的。那么，自然而然的可以想到将两者结合起来，于是就有了Sandwich-LN，在残差连接之前和之后都加入一个层标准化。Cogview（清华与阿里共同研究的文生图模型）就使用了Sandwich-LN来防止产生值爆炸的问题，但是仍然会出现训练不稳定的问题，可能会导致训练崩溃。

在这里插入图片描述

在NLP的早期阶段，例如BERT，由于其神经网络层数相对较浅，通常会采用Post-LN，而随着模型的发展，Transformer结构开始增加更多的层数，例如GPT，这给训练稳定性带来了挑战，因此，研究人员开始使用Pre-LN，以提高深层Transformer模型的训练稳定性。
为了解决模型训练不稳定的问题，论文“DeepNet: Scaling Transformers to 1000 Layers”（https://arxiv.org/abs/2203.00555）中提出了DeepNorm，从论文名字就可以看出，该工作将Transformer模型扩展到了1000层，是一个非常深的网络。Pre-LN之所以会让模型训练更稳定，是因为标准化的输出可以缓解子层（注意力机制和前馈神经网络）梯度消失和梯度爆炸的问题。DeepNorm其实是一种Post-LN的方案，但是在执行层标准化之前up-scale了残差连接，也就是说 $\text { DeepNorm }(x) = \text { LayerNorm }(\alpha \cdot \boldsymbol{x}+\operatorname{Network}(\boldsymbol{x})) \text {, where } \alpha=(2 N)^{\frac{1}{2}}$ ，也就是说，DeepNorm会在层标准化之前以参数扩大残差连接。DeepNorm能够防止模型在训练过程中出现过大的参数更新，将参数的更新范围限制在一定的常数值内，以此来让模型的训练过程更加稳定。

位置编码

绝对位置编码以其实现简单、计算速度快的优点受到欢迎，而相对位置编码则因为其直观地体现了相对位置信号，往往能带来更好的实际性能。

旋转位置编码（Rotary Position Embedding，RoPE）将相对位置信息集成到了线性注意力层中，虽然按照定义应该属于相对位置编码，但是其在性能上超越了绝对位置编码和经典的相对位置编码，并且它其实是以绝对位置编码的方式实现了相对位置编码。

RoPE主要是对注意力层中的查询（query, q）向量和键（key, k）向量注入了绝对位置信息，然后用更新的后的这两个向量来做内积，就会引入相对位置信息。

FFNs

采用了GELU激活函数，相比于ReLU激活函数，在处理负数时不会直接裁剪到0，因此可以缓解神经元死亡的问题。

在这里插入图片描述

预训练

自监督自回归填空

用训练集中95%的tokens用于自监督自回归填空训练。

[MASK]：掩盖训练序列中30%的span用于填空，spans的长度服从泊松分布(λ=3)，长度加起来是输入的15%。context window: 4×512 tokens。
[gMASK]：掩盖剩下的70%的序列，保留前缀作为上下文，用[gMASK]掩盖其余序列，掩码长度服从均匀分布。context window: 2048 tokens

多任务学习

用训练集中5%的tokens用于多任务学习。预训练阶段的多任务学习比微调更有用，并且设置在预训练阶段可以防止破坏LLMs的通用生成能力。GLM-130B在预训练阶段中就包含了语言理解、生成和信息提取在内的多种指令数据集。

分布式训练

在一组由96台DGX-A100 GPU（8×40G）服务器组成的集群上进行了为期60天的训练。目标是尽可能处理更多的tokens，因为根据之前的研究表明，大多数现有的大型语言模型在训练过程中通常未充分训练。

在这里插入图片描述

更多有关分布式训练的内容可以参考我另外一篇文章：

震惊！我竟然在1080Ti上加载了一个35亿参数的模型（ZeRO, Zero Redundancy Optimizer）_estimate_zero3_model_states_mem_needs_all_live-CSDN博客

训练稳定性

混合精度

一般的混合精度训练：FP16用于前向传播和反向传播，FP32用于优化器状态和权重参数。

由于FP16的精度较低，经常会遇到loss突刺，并且越是训练后期越频繁。有的能够自行恢复，有的会导致梯度范数突然飙升，甚至出现NaN损失。OPT-175B通过手动跳过问题数据和调整超参数来解决，BLOOM-176B通过Embedding范数来解决。

在这里插入图片描述

混合精度在Transformer放大时可能会出现很多问题。

如果使用Pre-LN，Transformer主干的值在深层网络中会非常大。这在GLM-130B中通过基于DeepNorm的Post-LN解决，使得值域始终有界。
随着模型规模的扩大，注意力分数的增幅也越来越大，超过了FP16的取值范围。
1. CogView中通过PB-Relax去除注意力计算中的bias和deduct extremum value，但是对GLM-130B没用。
2. BLOOM-176B中，用BP16代替了FP16。但是BP16比FP16多消耗了15%的GPU显存，并且BP16并不适用于大部分的GPU。
3. BLOOM-176B的另一个解决方案是使用BF16对Embedding进行norm，但这会牺牲模型性能。

Embedding层梯度收缩

梯度范数可以作为训练崩塌的指示，通常会发生在梯度范数出现突刺之后几步。这种突刺通常是由于Embedding层的异常梯度导致的，在GLM-130B训练的早期，梯度范数往往比其它层要大几个数量级。
在Vision模型中可以通过冻结patch projection layer来解决，但是LM不行。在CogView中可以通过梯度收缩解决损失突刺，稳定训练过程。 $\text{word embedding} = \text{word embedding} * \alpha + \text{word embedding.detach()} * (1-\alpha)$
在最终GLM-130B的训练中只经历过3次损失异常，都可以通过缩放Embedding层的梯度来稳定。

ChatGLM

ChatGLM系列只在GitHub上进行了开源，虽然相关模型可以直接下载使用，但是并没有论文，不知道一些具体的实现细节。

ChatGLM-6B: https://github.com/THUDM/ChatGLM-6B

在这里插入图片描述

ChatGLM2-6B: https://github.com/THUDM/ChatGLM2-6B

在这里插入图片描述

ChatGLM3: https://github.com/THUDM/ChatGLM3

在这里插入图片描述

多模态

在这里插入图片描述

CogVLM

论文：https://arxiv.org/abs/2311.03079

代码仓库：https://github.com/THUDM/CogVLM

CogVLM是一个视觉语言模型（Visual Language Model）。

传统构建视觉语言模型的方法：冻结LLM，将图像特征映射到语言模型的输入空间，属于浅层对齐。但是它的问题是缺乏深度融合，视觉特征和语言特征不平等。虽然也有一些解决方案，即在预训练或SFT时也训练LLM（例如Qwen-VL），但这种方法可能会降低模型的泛化能力，特别是在NLP任务上。

CogVLM提出了一种新的方法：在注意力层和FFN层通过可训练的视觉专家模块，来对齐冻结的预训练LLM和图像编码器，增加了更深层的视觉理解能力。实验结果表明，这种方法在不牺牲NLP任务性能的前提下，实现视觉语言特征的深度融合。并且由于原始LLM的所有参数固定，因此当输入序列中不包含图像时，其行为与原始LLM中的行为相同。在保持FLOPs不变的情况下，参数量可以增加一倍。

方法

在LLM的每一层加入可训练的视觉专家，序列中的图像特征使用新的QKV矩阵，MLP层使用文本特征。

模型架构

在这里插入图片描述

通过预训练的ViT对图像进行处理，并将其映射到与文本特征相同的空间。

ViT编码器。EVA2-CLIP-E，移除了最后一层，因为主要用于对比学习。
MLP适配器。用两层MLP将ViT的输出映射到跟文本特征相同的空间，所有图像特征在LLM中共享相同的位置id。
预训练LLM。Vicuna1.5-7B。一个因果掩码被应用于所有的注意力操作，包括图像特征之间的注意力。
视觉专家模块。

在这里插入图片描述

在每一层中添加视觉专家模块，实现深度视觉-语言特征对齐。图像特征具有不同的QKV矩阵和FFN，形状跟预训练LLM相同，并由它们初始化。只有紫色部分是可训练的。

注意力层的输入： $\in \mathbb{R}^{B \times H \times\left(L_{I}+L_{T}\right) \times D}$ ，其中B：batch size，L_I和L_T：图片和文本序列的长度，H：注意力头的数量，D：隐藏层维度。X可以分解成X_I和X_T，分别表示图像隐藏层状态和文本隐藏层状态。

注意力层的计算： $\operatorname{Attention}\left(X, W_{I}, W_{T}\right)=\operatorname{softmax}\left(\frac{\operatorname{Tril}\left(Q K^{T}\right)}{\sqrt{D}}\right) V$ ，其中Tril(·)表示下三角掩码。W_I和W_T分别表示视觉专家和原始LM的QKV矩阵。FFN层的计算： $\operatorname{FFN}(X)=\operatorname{concat}\left(\operatorname{FFN}_{I}\left(X_{I}\right), \operatorname{FFN}_{T}\left(X_{T}\right)\right)$ 。

$\begin{array}{l}Q=\operatorname{concat}\left(X_{I} W_{I}^{Q}, X_{T} W_{T}^{Q}\right) \\K=\operatorname{concat}\left(X_{I} W_{I}^{K}, X_{T} W_{T}^{K}\right) \\V=\operatorname{concat}\left(X_{I} W_{I}^{V}, X_{T} W_{T}^{V}\right)\end{array}$

位置编码

在LLM中的RoPE中，所有视觉token共享一个位置id，因为它们在输入到ViT时已经封装了位置信息。

传统位置编码的缺点：

编码序列过于冗长
查询更多地关注与其距离较近的图像序列，即图像的下半部分。

新的编码方式减轻了LLM中token之间远程衰减的影响。

预训练

数据

开源数据集：LAION-2B和COYO-700M。

自制visual grounding数据集，包含40M图片，图像描述中的每个名词都与边界框相关联，以表示图像中的位置。通过spaCy提取名词，然后使用GLIPv2预测边界框。图像-文本对从LAION - 115M中采样。过滤并保留4000万张图像的子集，以确保75 %以上的图像至少包含2个边界框。

训练

任务：image caption。在1.5B图像-文本对上进行了120000次迭代，batch size为8192。
任务：image caption + referring expression comprehension (REC)。一共进行了60000次迭代，batch size为1024。在后面30000次迭代中，将输入分辨率从224×224变为490×490。

REC：给定一个物体的文本描述，在图像中预测边界框。例如：Question: Where is the object? Answer: [[x_0, y_0, x_1, y_1]].

可训练参数总数：6.5B。

对齐

CogVLM-Chat

数据集分为两部分：

VQA数据集：VQAv2、OKVQA、TextVQA、OCRVQA、ScienceQA
类似LLaVA-Instruct的多轮对话数据集：LRV-Instruction、LLaVAR

数据的完整性和质量是重点。

在不同的数据集上进行同意的有监督指令微调，以1e - 5的学习率和1024的批处理量进行了6000次迭代。为了增强和保证训练的稳定性，激活了视觉编码器的参数，并将其学习率调整为其余训练参数的十分之一。

CogVLM-Grounding

4种任务

Grounded Captioning (GC)：面向图像的任务，输出图片中的所有名词及其边界框。
Referring Expression Generation (REG)：面向图像的任务，图像中的每个边界框都标注上精确的表征和描述性文本。
Referring Expression Comprehension (REC)：面向文本的任务，每个对象描述关联到多个边界框。
Grounded Visual Question Answering (GroundedVQA)：VQA任务，问题可能包括给定图像的参考区域。

数据集：Flickr30K Entitie、RefCOCO、Visual7W、VisualGenome、Grounded CoT-VQA。

CogAgent

论文：https://arxiv.org/abs/2312.08914

代码仓库：https://github.com/THUDM/CogVLM

背景

人类在电子产品上花了大量的时间通过GUI进行操作。

LLMs很难理解并与GUI进行交互，这限制了它们的自动化水平，因此最近一些工作开始研究基于Agent的交互LLMs。

难点主要有3个：

缺乏交互的标准API
图标、图片、图表、空间关系等重要信息很难直接用文字表达
即使网页是通过代码语言渲染的，但canvas和iframe也难以通过HTML控制

基于视觉语言模型（Visual Language Model, VLM）的Agents可以克服这些难点，不完全依赖于HTML或者OCR结果，而是直接感知可视化的GUI信号。

但是问题在于，大部分VLM只能处理分辨率较低（224或490）的图像，难以满足电脑或手机屏幕分辨率的要求。原因是高分辨率会带来高时间和内存开销。自注意力模块的开销与视觉tokens（patches）的数量呈二次方关系，而patches的数量与图像的边长又呈二次方关系。

当然现在也有一些解决方案，Qwen-VL提出了一种位置感知的视觉语言适配器来压缩图像特征，但序列长度仅降低了4倍，并且仅能处理448×448的最大分辨率。Kosmos-2.5采用感知重采样模块来减少图像序列长度，但重采样后的序列也还是太长了，只能应用于受限的文本识别任务。

这篇论文提出了一个新的解决方案：CogAgent，这是一个基于CogVLM开发的，18B参数的视觉语言模型，专用于GUI的理解和规划。通过高/低分辨率的图像编码器，CogAgent支持1120×1120分辨率的输入，并且能够识别微小的页面元素和文本。

模型架构

在这里插入图片描述

整体来看，CogAgent采用预训练的CogVLM-17B（右）作为基座模型，并且添加了一个交叉注意力模块（左）来处理高分辨率图像。

采用EVA-CLIP-E作为低分辨率图像（224×224）的编码器，并辅以MLP适配器，将其输出映射到VLM解码器的特征空间。解码器处理低分辨率图像特征序列和文本特征序列的组合输入，自回归输出目标文本。

如CogAgent模型架构图所示，高分辨率交叉模块是作为一个新的分支，接受1120×1120像素的图像。高分辨率交叉模块采用EVA2-CLIP-L作为视觉编码器，利用小尺寸隐藏层的交叉注意力将高分辨率图像特征与VLM解码器的每一层进行融合。

处理流程是这样的，输入一张图片，将其大小调整为1120×1120和224×224，分别送入高分辨率的交叉模块和低分辨率分支，然后编码成两个大小不同的图像特征序列 $X_{hi}$ 和 $X_{lo}$ 。VLM的解码器保留了其原有的计算，唯一的改变是在每个解码器层中集成了 $X_{hi}$ 和隐藏状态之间的交叉注意力。
解码器第i层的注意力层的输入隐藏层状态： $X_{\mathrm{in}_{i}} \in \mathbb{R}^{B \times\left(L_{I_{\mathrm{lo}}}+L_{T}\right) \times D_{\text {dec }}}$
交叉模块的图像编码器的输出隐藏层状态： $X_{\mathrm{hi}} \in \mathbb{R}^{B \times\left(L_{I_{\mathrm{hi}}}\right) \times D_{\mathrm{hi}}}$
其中，B：batch size， $L_{I_{\mathrm{lo}}}$ ：低分辨率图像长度， $L_{I_{\mathrm{hi}}}$ ：高分辨率图像长度， $L_{T}$ ：文本序列， $D_{\mathrm{dec}}$ ：解码器隐藏层大小， $D_{\mathrm{hi}}$ ：高分辨率图像编码器输出隐藏层大小。

每一层的注意力计算过程为：

多头注意力： $X_{i}^{\prime}=\operatorname{MSA}\left(\text { layernorm }\left(X_{\mathrm{in}_{i}}\right)\right)+X_{\mathrm{in}_{i}}$
多头交叉注意力： $X_{\text {out }_{i}}=\operatorname{MCA}\left(\text { layernorm }\left(X_{i}^{\prime}\right), X_{\mathrm{hi}}\right)+X_{i}^{\prime}$

优点：高分辨率交叉模块可以看作是对低分辨率图像特征的补充，从而有效地利用了预训练好的低分辨率模型。

预训练

预训练阶段的目标是希望模型能够通过高分辨率图像识别不同字体、方向、大小和颜色的文字，可以在图像中定位并检测文本和物体，并且可以理解GUI图像，例如网页等。

数据

文字识别
1. 基于NLP预训练数据集的文本合成渲染，可以理解为将文本转换为不同的字体、大小、方向和颜色等，然后合成到LAION-2B的图像上。
2. OCR数据集，部署了一个Paddle-OCR提取COYO和LAION-2B中的文字和其bounding boxes。
3. 学术文献数据，参考Nougat，利用arXiv上发布的LaTeX构建了一个图像文本对数据集。
视觉定位：使用从LAION-115M中采样的图像-标题对构建了40M的图像视觉定位数据集，将图像中的物体与bounding boxes相关联，提供其位置。
GUI数据
1. 两个任务
  1. GUI参考表达式生成（Referring Expression Generation, REG）：根据屏幕截图中的指定区域为DOM元素生成HTML代码
  2. GUI参考表达式理解（Referring Expression Comprehension, REC）：为给定的DOM元素创建边界框
2. 构建了CCS400K（Common Crawl Screenshot 400K）数据集：通过从最新的Common Crawl数据集中提取URL然后捕获40w个网页截图形成的。使用Playwright编译了所有可见的DOM元素及其对应的渲染框，为数据集补充了1.4亿个REC和REG问答对。

对齐

数据
从手机和电脑上收集了2k多个截图，由人工标注者以问答的形式标注屏幕元素、潜在行为和操作方法。
Mind2Web和AITW两个针对Web和Android行为的数据集，包括任务、动作序列和相应的屏幕截图，通过GPT-4转换为自然语言问答格式。
集成了多个公开可用的VQA数据集。

训练
此阶段解冻所有模型参数，并以1024的批大小和2e - 5的学习率训练10k次迭代。

应用

游戏

在这里插入图片描述

智能操作系统

在这里插入图片描述

CogView

CogView3

2024年1月16，GLM-4发布会推出了全新的 CogView3，其效果超越了开源的SDXL模型，声称几乎与OpenAI的DALL·E 3媲美。

在这里插入图片描述

语义能力也有显著提升，能够准确地理解一些容易让机器产生误解的概念，比如“鱼眼镜头”。
在这里插入图片描述

此外，它对颜色、场景和空间位置的理解也非常准确。

但有的时候也会抽风，我又试了一下发布会上“西兰花下的斑马”的例子。

在这里插入图片描述

GLM4

性能提升

GLM-4的表现明显优于GPT-3.5，其平均得分已经达到了GPT-4的95%水平，在某些特定任务上甚至表现相当。

在这里插入图片描述

在中英文混合评测中，GLM-4在Prompt级别和中文方面的表现均达到了GPT-4的88%。在指令跟随能力方面，GLM-4的表现达到了GPT-4 的90%，远超过 GPT-3.5。

在这里插入图片描述

在中文对齐方面进行了全面的评估，包括公开的AlignBench和私有测试数据。在AlignBench上，GLM-4的总体得分超过了GPT-4发布的版本。

在这里插入图片描述

可以处理 128k 字的上下文，而且一次提示可以处理300页的文本。还成功解决了由于失焦而导致的精度下降问题，经过"大海捞针"测试，GLM-4模型几乎可以做到100%的召回精确度。

在这里插入图片描述

All Tools

GLM-4重点介绍了其All Tools的能力，集成了各种工具，并且模型可以自动选择使用什么工具。

代码解释器

GLM-4内嵌了代码解释器，能够自动调用代码解释器，进行复杂的方程或者微积分求解。或许可以直接训练一个数学模型，但问题更复杂的时候，LLM就容易出现幻觉。而GLM-4，则可以通过调用Python解释器，进行复杂计算，自动写出求解代码。

官方给的比较简单的例子

x^3+ax^2-5x+9 除以 x+4 , 商为 x^2+bx-1 , 余数为 13, 计算 a, b的值。

在这里插入图片描述

我们尝试一道矩阵论的题目，也没有什么问题，通过Python也能解答。

求  A=\left(\begin{array}{lll}
1 & 2 & 2 \\
2 & 1 & 2 \\
1 & 2 & 1
\end{array}\right)的QR分解.

在这里插入图片描述

网页浏览

GLM-4还具有网页浏览的功能，模型能够自行规划检索任务，还可以选择信息源，与信息员进行交互。

在这里插入图片描述

多工具并用

GLM-4还具有多工具并用的能力，即根据用户的指令调用多个工具。

网页浏览+文生图

在这里插入图片描述

网页浏览+代码解释器

官方给的例子

在这里插入图片描述

稍微做了一些修改。

查询一下中国近几年的各省GDP，分析这些数据中哪些省份的GDP上升了，画出折线图并标出上升的省份。

在这里插入图片描述

换一个更难的例子。

在这里插入图片描述

长文档解读

上传了一根贵州茅台2022年的年报，提问“法定代表人是谁”，回答正确，提问“有多少研究生及以上学历的员工”，回答正确，提问“货币资金比去年多多少”，回答正确。

（美中不足的点就是如果开了IDM，PDF文件会被自动下载而没有渲染）

在这里插入图片描述

总结

总的来说，还是挺期待未来可以有所突破的！！！

但是我觉得这个大模型算是国内的很不错的大模型了，起码gpt49有的它都有，虽然是打折版的。
并且使用也免费，已经挺够意思了。

正如张鹏所言，和国外大模型相比，国内的大模型发展起步晚一些，加上高性能算力的限制和数据质量的差距等等，国内研发的大模型无论规模还是核心能力，与世界先进水平还存在一年左右的差距。

但是未来一年，我们将有希望看见国内大模型的崛起之路！

更多信息请参考原文：https://glass-croissant-6e7.notion.site/AI-GLM-d5f56d7f8e6241468b2442eff13f6bc1?pvs=4

GLM 百亿模型

背景

方法

预训练任务

2D位置编码

下游任务微调

GLM-130B 千亿模型

模型架构

Layer Normalization

位置编码

FFNs

预训练

自监督自回归填空

多任务学习

分布式训练

训练稳定性

混合精度

Embedding层梯度收缩

ChatGLM

多模态

CogVLM

方法

预训练

对齐

CogAgent

背景

模型架构

预训练

对齐

应用

CogView

CogView3

GLM4

性能提升

All Tools

代码解释器

网页浏览

多工具并用

长文档解读

总结

相关文章：