当前位置：首页 > news >正文

中英双语大模型ChatGLM论文阅读笔记

news 2025/11/9 0:59:06

论文传送门：
[1] GLM: General Language Model Pretraining with Autoregressive Blank Infilling
[2] Glm-130b: An open bilingual pre-trained model
Github链接：
THUDM/ChatGLM-6B

笔记
- Abstract
- Introduction
- The design choices of GLM-130B
- The training stability of GLM-130B
框架总结
- 1. 模型架构
- 2. 预训练设置
- 3. 训练稳定性
- 4. 并行策略和模型配置
- 5. 量化和推理优化
- 6. 结果分析
- 7. 相关工作
- 8. 结论和经验教训
- 9. 伦理评估
- 10. 可复现性

笔记

Abstract

GLM-130B和GPT-3 175B（davinci）相比，参数量减少，但性能提升了。
INT4 quantization without post training
INT4量化是一种将模型的权重和激活从使用较高位宽（如32位或16位浮点数）的表示减少到使用4位整数（INT4）的表示的过程。量化可以显著减少模型的内存需求和计算量，因此可以在资源有限的硬件上运行更大的模型，或者加快模型的推理速度。
不进行后续训练（post-training）的情况下进行INT4量化是一个挑战，因为通常量化会引入噪声和损失精度，影响模型的性能。后续训练（也称为量化感知训练）通常被用来微调量化后的模型，以恢复一些由于量化造成的性能损失。因此，如果没有进行这种微调就能实现几乎没有性能损失的INT4量化，就意味着模型具有非常好的量化鲁棒性。
这样的成果表明，GLM-130B模型可以有效地进行低位宽量化，同时保持其预测性能，这在实际应用中非常重要，因为它使得模型能够在普通消费级硬件上运行，而不是仅限于高性能服务器。这样不仅可以降低使用成本，而且可以使得更广泛的用户群体和开发者能够访问和使用这种大规模的模型。

Introduction

和10B-scale model相比，训练100B-scale model需要解决的挑战：pre-training efficiency，stability，convergence。
预训练使用了GPU集群，包含96个节点，每个节点配置8张 40G NVIDIA DGX-A100 GPU。训练时间为2022/5/6~2022/7/3。
架构：使用了[2]中的General Language Model (GLM) algorithm。
Pre-LN（预层归一化）AND 训练vs.推理的GPU资源使用情况

在Transformer模型中，Pre-LN是指在每个子层（如自注意力层和前馈网络层）的输入之前进行层归一化。这种方式通常可以提高模型的训练稳定性，尤其是在训练非常深的网络时。Pre-LN有助于解决深度Transformer模型中的梯度消失问题，因为它能够使梯度直接流向较深的层。

大模型训练和推理（inference）阶段使用的GPU数量通常有很大的区别，这主要基于以下几个方面：1. 资源需求：- 训练：训练阶段需要处理大量的数据并进行重复的前向传播和反向传播计算，这需要大量的计算资源。因此，通常会使用更多的GPU，甚至是成百上千的GPU，以加快训练速度和处理大规模数据集。- 推理：推理阶段通常只需要进行单次的前向传播，计算量相对较小，因此通常需要较少的GPU。在许多应用中，一个或几个GPU就足够用于推理。2. 并行策略：- 数据并行：在训练时，经常使用数据并行策略，将大型数据集分割成小批量，分配到多个GPU上并行处理。- 模型并行：对于极大的模型，可能需要使用模型并行策略，将模型的不同部分放在不同的GPU上。- 推理时并行：在推理时，通常不需要模型并行，因为一次只处理一个或几个请求。3. 效率和成本：- 训练大模型通常是一项耗时且昂贵的任务，使用更多的GPU可以提高训练效率，但也大大增加了成本。- 推理需要尽可能高效和经济，特别是在生产环境中，因此通常会尽量减少所需的GPU数量，以降低成本。4. 可扩展性和灵活性：- 训练阶段的模型通常被设计为能够在大规模分布式系统上扩展。- 推理模型通常需要在各种环境中灵活部署，包括边缘设备，因此可能更注重模型的压缩和优化。总的来说，训练大模型时使用的GPU数量远多于推理阶段，主要是因为训练阶段的资源和计算需求远大于推理。然而，随着量化技术和模型优化的发展，推理阶段所需的资源正在逐渐减少，允许即使是大模型也能在资源受限的环境中运行。

在这里插入图片描述

为什么选择130B：单服务器支持。130亿参数的模型规模支持在单个含有A100 (8×40G) GPU的服务器上进行推理计算。

The design choices of GLM-130B

Inductive bias：归纳偏置

在机器学习中，"inductive bias"指的是一个学习算法在学习过程中对某些模式假设的偏好，这些偏好影响了模型对数据的泛化能力。换句话说，就是当面对有限的数据时，算法如何推广到未见过的数据。它是算法的一种内在属性，决定了算法在学习时对解决问题的途径和方向的偏好。不同的机器学习模型有不同的归纳偏置。例如：决策树倾向于寻找数据中的分层逻辑规则。
支持向量机（SVM）通过最大化边界来寻找分类决策边界。
神经网络根据其层次结构寻找可以通过逐层变换来逼近的复杂模式。
在大型语言模型（LLM）如GLM-130B的背景下，模型架构（如Transformer架构）定义了它对语言数据中哪些特征和模式的偏好。例如，Transformer模型通过自注意力机制捕捉长距离依赖，这是它的归纳偏置之一。然而，由于大型模型的参数量极大，探索不同架构设计的计算成本是非常高的，因此通常需要在设计阶段就做出合理的选择，以确定如何构建模型才能最好地捕捉和泛化数据中的模式。这段文字表明，GLM-130B的设计者意识到了这一点，并且在模型设计中做出了一些独特的选择，以平衡归纳偏置和计算成本。

GLM-130B没有采用传统的GPT架构，而是使用bidirectional GLM作为backbone。

The training stability of GLM-130B

gradient norm的定义

梯度范数的具体变化情况也可能受到多种因素的影响，包括模型的复杂性、数据的多样性、优化算法的选择等。在某些情况下，梯度范数可能会因为模型陷入局部最小值或鞍点而暂时增大。此外，对于一些更复杂的模型或非凸优化问题，梯度范数的变化可能会更加复杂，不一定遵循单调下降的趋势。因此，梯度范数的监控通常被用作训练过程中健康状态的一个指标，帮助研究人员和工程师判断训练是否在进行得当。

框架总结

1. 模型架构

理解模型的基础架构以及与其他模型（如GPT-3等）的差异。

2. 预训练设置

了解模型预训练的具体过程，包括所使用的数据集、预训练目标、以及如何处理模型输入。

3. 训练稳定性

模型训练的稳定性对模型的性能至关重要。需关注文中提到的稳定性问题及解决方案。

4. 并行策略和模型配置

理解如何利用并行计算策略有效地训练这样大规模的模型。

5. 量化和推理优化

模型如何通过量化技术减少资源消耗，并优化推理过程。

6. 结果分析

模型在各种任务上的性能如何，特别是与其他大型模型相比。

7. 相关工作

熟悉本文中提到的相关工作，以便对整个领域有更好的理解。

8. 结论和经验教训

关注作者从训练过程中学到的经验教训。

9. 伦理评估

了解作者如何处理与大型语言模型相关的伦理风险。

10. 可复现性

文中如何确保实验结果的可复现性，以及如何使研究成果对社区开放。

未完待续…

中英双语大模型ChatGLM论文阅读笔记

论文传送门： [1] GLM: General Language Model Pretraining with Autoregressive Blank Infilling [2] Glm-130b: An open bilingual pre-trained model Github链接： THUDM/ChatGLM-6B 目录笔记AbstractIntroductionThe design choices of GLM-130BThe …...

编程日记 2023/12/3 14:59:14

力扣题:字符串的反转-11.24

力扣题-11.24 [力扣刷题攻略] Re：从零开始的力扣刷题生活力扣题1：151. 翻转字符串里的单词解题思想：保存字符串中的单词即可 class Solution(object):def reverseWords(self, s):""":type s: str:rtype: str"&quo…...

编程日记 2023/12/3 14:57:11

NIO--07--Java lO模型详解

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录何为 IO?先从计算机结构的角度来解读一下I/o.再从应用程序的角度来解读一下I/O 阻塞/非阻塞/同步/异步IO阻塞IO非阻塞IO异步IO举例 Java中3种常见的IO模型BIO (Blo…...

编程日记 2023/12/3 14:50:06

OpenSSH 漏洞修复升级最新版本

Centos7系统ssh默认版本一般是OpenSSH7.4左右，低版本是有漏洞的而且是高危漏洞，在软件交付和安全扫描上是过不了关的，一般情况需要升级OpenSSH的最新版本今天详细说下升级最新版本的处理过程（认真看会发现操作很简单&#xff0c…...

编程日记 2023/12/3 14:49:05

【数据结构和算法】无限集中的最小数字

其他系列文章导航 Java基础合集设计模式合集多线程合集分布式合集 ES合集文章目录其他系列文章导航文章目录前言一、题目描述二、题解三、代码四、总结前言这是力扣的2336题，难度为中等，解题方案有很多种，本文讲解我认为…...

编程日记 2023/12/3 14:48:04

SimpleDataFormat 非线程安全

目录前言正文 1.出现异常 2.解决方法1 3.解决方法2 总结前言 SimpleDateFormat 类是 Java 中处理日期和时间格式化和解析的类，但它并不是线程安全的。这意味着多个线程不能安全地共享一个 SimpleDateFormat 实例进行日期和时间的解析和格式化。当多个…...

编程日记 2023/12/3 14:45:01

SpringBoot : ch12 多模块配置YAML文件

前言当您使用SpringBoot框架进行项目开发时，通常需要配置一些参数和属性。在实际开发中，可能需要将这些配置参数分成多个不同的YAML文件，并将它们组织到不同的模块中。这样可以方便管理和维护配置文件，并且可以避免配置文件的冲…...

编程日记 2023/12/3 14:43:00

TensorRT之LeNet5部署(onnx方式)

文章目录前言LeNet-5部署1.ONNX文件导出2.TensorRT构建阶段(TensorRT模型文件)🧁创建Builder🍧创建Network🍭使用onnxparser构建网络🍬优化网络🍡序列化模型🍩释放资源 3.TensorRT运行时阶段(推理)&#x…...

编程日记 2023/12/3 14:41:59

Xilinx FPGA平台DDR3设计详解（二）：DDR SDRAM组成与工作过程

本文主要介绍一下DDR SDRAM的基本组成以及工作过程，方便大家更好的理解和掌握DDR的控制与读写。一、DDR SDRAM的基本组成 1、SDRAM的基本单元 SDRAM的基本单元是一个CMOS晶体管和一个电容组成的电路。晶体管最上面的一端，称作栅极，通过…...

编程日记 2023/12/3 14:38:56

ios(swiftui) 属性包装器详解

目录 1. State 2. Binding 3. ObservedObject 和Published 4. StateObject 5. EnvironmentObject和Environment 6. AppStorage 在 SwiftUI 中，属性包装器用于增强和管理视图的状态，以及处理视图与数据模型之间的绑定和交互。下面是一些常见…...

编程日记 2023/12/3 14:36:55

【智能家居】面向对象编程OOP和设计模式(工厂模式)

面向对象编程类和对象面向对象编程和面向过程编程区别设计模式软件设计模式按类型分工厂模式面向对象编程面向对象编程（Object-Oriented Programming，OOP）是一种程序设计范式，其中程序被组织成对象的集合，每…...

编程日记 2023/12/3 14:35:54

Docker安装Memcached+Python调用

简介：Memcached是一个通用的分布式内存缓存系统。它通常用于通过在RAM中缓存数据和对象来加速动态数据库驱动的网站，以减少必须读取外部数据源（如数据库或API）的次数。Memcached的API提供了一个分布在多台机器上的非常大的哈希表。…...

编程日记 2023/12/3 14:34:53

网页开发 HTML

目录 HTML概述 HTML结构 HTML标签语法基本标签标题标签换行标签段落标签文本格式化标签特殊符号 div和span标签超链接标签锚点 img标签列表标签表格标签表单标签 HTML概述 HTML，即超文本标记语言（HyperText Markup Language …...

编程日记 2023/12/3 14:31:51

SHAP（五）：使用 XGBoost 进行人口普查收入分类

SHAP（五）：使用 XGBoost 进行人口普查收入分类本笔记本演示了如何使用 XGBoost 预测个人年收入超过 5 万美元的概率。它使用标准 UCI 成人收入数据集。要下载此笔记本的副本，请访问 github。 XGBoost 等梯度增强机方法对于具有…...

编程日记 2023/12/3 14:30:50

LeetCode 8 字符串转整数

题目描述字符串转换整数 (atoi) 请你来实现一个 myAtoi(string s) 函数，使其能将字符串转换成一个 32 位有符号整数（类似 C/C 中的 atoi 函数）。函数 myAtoi(string s) 的算法如下： 读入字符串并丢弃无用的前导空格检查下一…...

编程日记 2023/12/3 14:29:49

前缀和 LeetCode1423. 可获得的最大点数

几张卡牌排成一行，每张卡牌都有一个对应的点数。点数由整数数组 cardPoints 给出。每次行动，你可以从行的开头或者末尾拿一张卡牌，最终你必须正好拿 k 张卡牌。你的点数就是你拿到手中的所有卡牌的点数之和。给你一个整数数组 cardPoi…...

编程日记 2023/12/3 14:26:46

探索意义的深度：自然语言处理中的语义相似性

一、说明语义相似度，反应出计算机对相同内容，不同表达的识别能力。因而识别范围至少是个句子，最大范围就是文章，其研究方法有所区别。本文将按照目前高手的研究成绩，作为谈资介绍给诸位。二、语义相似度简介自然语言…...

编程日记 2023/12/3 14:24:45

WT2605-24SS高品质录音语音芯片：实时输出、不保存本地，引领音频技术新潮流

随着科技的快速发展，高品质音频技术成为了现代社会不可或缺的一部分。在这个追求高品质、高效率的时代，唯创知音推出的WT2605-24SS高品质录音芯片，以其独特的功能和卓越的性能，引领着音频技术的新潮流。首先，WT2605-…...

编程日记 2023/12/3 14:22:42

Git 合并冲突解决步骤

Git 合并冲突解决步骤 1. 找到并打开冲突文件定位到发生冲突的文件。可以通过 Git 的命令行输出找到这些文件。例如： pom.xmlsrc/main/java/com/zzm/config/SecurityConfig.javasrc/main/java/com/zzm/service/chat/UserConversationsServiceImpl.javasrc/main/…...

编程日记 2023/12/3 14:18:39

Windows核心编程注册表

目录注册表概述打开关闭注册表创建删除子健查询写入删除键值子健和键值的枚举常用注册表操作注册表概述注册表是Windows操作系统、硬件设备以及客户应用程序得以正常运行和保存设置的核心"数据库"，也可以说是一个非常巨大的树状分层结构的…...

编程日记 2023/12/3 14:15:36

Unity3D中Gfx.WaitForPresent优化方案

前言在Unity中，Gfx.WaitForPresent占用CPU过高通常表示主线程在等待GPU完成渲染（即CPU被阻塞），这表明存在GPU瓶颈或垂直同步/帧率设置问题。以下是系统的优化方案： 对惹，这里有一个游戏开发交流小组&…...

编程新知 2025/11/7 19:36:53

【项目实战】通过多模态+LangGraph实现PPT生成助手

PPT自动生成系统基于LangGraph的PPT自动生成系统，可以将Markdown文档自动转换为PPT演示文稿。功能特点 Markdown解析：自动解析Markdown文档结构PPT模板分析：分析PPT模板的布局和风格智能布局决策：匹配内容与合适的PPT布局自动…...

编程新知 2025/11/8 4:55:46

页面渲染流程与性能优化

页面渲染流程与性能优化详解（完整版） 一、现代浏览器渲染流程（详细说明） 1. 构建DOM树浏览器接收到HTML文档后，会逐步解析并构建DOM（Document Object Model）树。具体过程如下： (…...

编程新知 2025/11/8 5:11:08

[10-3]软件I2C读写MPU6050 江协科技学习笔记（16个知识点）

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16...

编程新知 2025/11/7 15:01:31

C++.OpenGL （10/64）基础光照（Basic Lighting）

基础光照（Basic Lighting）冯氏光照模型（Phong Lighting Model） #mermaid-svg-GLdskXwWINxNGHso {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-GLdskXwWINxNGHso .error-icon{fill:#552222;}#mermaid-svg-GLd…...

编程新知 2025/10/29 18:00:42