当前位置：首页 > news >正文

【大模型】LLaMA: Open and Efficient Foundation Language Models

news 2026/5/13 4:15:47

链接：https://arxiv.org/pdf/2302.13971
论文：LLaMA: Open and Efficient Foundation Language Models

Introduction

规模和效果
7B to 65B，LLaMA-13B 超过 GPT-3 (175B)
Motivation
如何最好地缩放特定训练计算预算的数据集和模型大小，并不是模型参数越大越好，给定一个目标级别的性能，首选模型不是训练最快的而是推理最快的

Approach

预训练数据
表中数据的混合：

CommonCrawl数据：对数据进行重复数据删除，使用 fastText 线性分类器执行语言识别以删除非英语页面并使用 ngram 语言模型过滤低质量的内容。
C4：发现使用不同的预处理 CommonCrawl 数据集可以提高性能。对于质量使用启发式方法，比如标点符号和单词句子数量
Github：根据字母数字字符的线长或比例过滤低质量的文件，并删除带有正则表达式的样板，例如标题；在文件级别对结果数据集进行重复数据删除
Wikipedia：20种语言，删除超链接、评论和其他格式样板。
Gutenberg and Books3：两个书籍数据，书籍级别执行重复数据删除，删除内容重叠超过 90% 的书籍。
ArXiv：科学数据，在第一部分和书目之前删除了所有内容，删除了评论、tex 文件、以及用户编写的内联扩展定义和宏，以增加论文之间的一致性。
Stack Exchange：涵盖各种领域的高质量问题和答案网站，范围从计算机科学到化学，从 28 个最大的网站保留数据，从文本中删除 HTML 标签并按分数对答案进行排序
Tokenizer：BPE，将所有数字拆分为单个数字，并回退到字节以分解未知的 UTF-8 字符。共计1.4T tokens。
训练集使用：除了 Wikipedia 和 Books 域之外，每个token在训练期间仅使用一次，执行大约两个 epoch。

结构

Pre-normalization（GPT-3）：提高训练稳定性（后归一化是针对输出，前归一化是在每个sub-layer的输入），RMSNorm「对于 Post-LN 方式，Layer Norm 放置在 Self-Attn sub layer 和 FFN sub layer 的 output 上，实证发现会导致 output 上的梯度过大，训练时不稳定，loss 不能稳定下降；Pre-LN 方式下，梯度值则比较稳定」
SwiGLU activation function（PaLM）
原始的 Transformer 中 FFN layer 使用 ReLU 激活函数，如下：

对 FFN 的实现方式进行改进，可以提升 Transformer 在语言模型上的表现，主要思路是借鉴 Gated Linear Units (GLU) 的做法，并将 GLU 中的 sigmoid 激活函数更换为 Swish 激活函数。原始 GLU 的形式：

将其中的 sigmoid 激活函数σ更改为Swishβ 激活函数 (f(x)=x⋅sigmoid(β⋅x))，则有：

FFN 可使用 SwiGLU 替换为 (此处省略了 Bias 项)：
Rotary Embeddings [GPTNeo]：rotary positional embeddings (RoPE)
Rope和相对位置编码相比油更好的外推性（外推性是指大模型在训练时和预测时的输入长度不一致，导致模型的泛化能力下降的问题）
对于 token 序列中的每个词嵌入向量，首先计算其对应的 query 和 key 向量，然后对每个 token 位置都计算对应的旋转位置编码，接着对每个 token 位置的 query 和 key 向量的元素按照两两一组应用旋转变换，最后再计算 query 和 key 之间的内积得到 self-attention 的计算结果。

优化器
AdamW，β1 = 0.9, β2 = 0.95，cosine learning rate schedule，weight decay of 0.1 and gradient clipping of 1.0
高效实现

使用因果多头注意力的有效实现来减少内存使用和运行时间，xformers library；不存储注意力权重，也不加算被mask的key/query的分数【Causal Multi-Head Attention：由于是解码器，为了保持 Left-to-Right 自回归特点而 Mask 掉的那些位置，不计算 Attention weights.】
减少了在后向传递期间重新计算的激活量
使用模型和序列并行性来减少模型的内存使用
重叠网络上的激活和 GPU 之间的通信（由于 all_reduce 操作）
训练 65B 模型，2048个80GB A100 ，380 个token/s/GPU。 1.4T token的数据集训练 21 天

Results

包括zero-shot 和 few-shot 任务，20个benchmark

Common Sense Reasoning
闭卷问答

模型推理可以在单个v100运行
阅读理解
数学推理
Minerva 是一系列 PaLM 模型，在从 ArXiv 和 Math Web Page 中提取的 38.5B 标记上进行微调，而 PaLM 或 LLAMA 都没有在数学数据上进行微调

maj1@k 表示我们为每个问题生成 k 个样本并执行多数投票的评估
代码生成
大规模多任务语言理解

在这里插入图片描述
预训练数据中使用了有限数量的书籍和学术论文

训练期间性能的演变

指令微调

非常少量的微调提高了 MLU 的性能，进一步提高了模型遵循指令的能力
在这里插入图片描述

偏见、有毒性和错误信息

大型语言模型已被证明可以重现和放大训练数据中存在的偏差

RealToxicityPrompts基准
RealToxicityPrompts 由模型必须完成的大约 100k 个提示组成；然后通过向 PerspectiveAPI 3 请求自动评估毒性分数（分数越高，有毒越多）
CrowS-Pairs
该数据集允许测量 9 个类别中的偏见：性别、宗教、种族/颜色、性取向、年龄、国籍、残疾、身体外观和社会经济地位

分数越高Bias越大
WinoGender（性别偏见）

在这里插入图片描述
4. TruthfulQA
该基准可以评估模型生成错误信息或虚假声明的风险

与 GPT-3 相比，LLaMA在这两个类别中得分都更高，但正确答案的比率仍然很低

总结

贡献点一：“以少胜多”

LLaMA-13B outperforms GPT-3-175B on most benchmarks, despite being 10× smaller；
LLaMA-65B is competitive with PaLM-540B;
贡献点二：open-sourcing
训练数据全都 publicly available；
参数公开；

Toread：Chinchilla and PaLM

【大模型】LLaMA: Open and Efficient Foundation Language Models

链接：https://arxiv.org/pdf/2302.13971 论文：LLaMA: Open and Efficient Foundation Language Models Introduction 规模和效果 7B to 65B，LLaMA-13B 超过 GPT-3 (175B)Motivation 如何最好地缩放特定训练计算预算的数据集和模型大小&…...

编程日记 2024/11/22 6:08:15

模拟器多开限制ip，如何设置单窗口单ip，每个窗口ip不同

很多手游多开玩家都是利用安卓模拟器实现手游多开，但是很多手游会限制ip，导致多开之后封号等问题，模拟器本身没有更换IP的功能，就需要通过第三方软件来实现安卓模拟器概述雷电模拟器、夜神模拟器、mum模拟器等都是目前市场上比较…...

编程日记 2024/11/22 6:06:13

hive的存储格式

1） 四种存储格式 hive的存储格式分为两大类：一类纯文本文件，一类是二进制文件存储。 Hive支持的存储数据的格式主要有：TEXTFILE、SEQUENCEFILE、ORC、PARQUET 第一类：纯文本文件存储 textfile: 纯文本文件存储格式…...

编程日记 2024/11/22 6:03:09

鸿蒙学习高效开发与测试-应用程序框架（3）

文章目录 1、应用程序框架1、规范化后台进程管理2、原生支持分布式3、支持多设备的统一窗口管理4、组件共享及面向对象5、逻辑与界面解耦6、灵活扩展机制2、HarmonyOS SDK1、开放能力 Kit2、开放能力的检索和使用3、方舟工具链4、前端编译器架构1、应用程序框架应用程序…...

编程日记 2024/11/22 6:02:08

什么命令可以查看数据库中表的结构

1. MySQL 查看表结构 sql 复制代码 DESCRIBE 表名; 或者： sql 复制代码 SHOW COLUMNS FROM 表名; 更详细的表信息 sql 复制代码 SHOW CREATE TABLE 表名; 2. PostgreSQL 查看表结构 sql 复制代码 \d 表名列出表的字段及类型 sql 复制代码 SELECT column_name, da…...

编程日记 2024/11/22 5:59:05

django基于python 语言的酒店推荐系统

摘要酒店推荐系统旨在提供一个全面酒店推荐在线平台，该系统允许用户浏览不同的客房类型，并根据个人偏好和需求推荐合适的酒店客房。用户可以便捷地进行客房预订，并在抵达后简化入住登记流程。为了确保连续的住宿体验，系统还提供…...

编程日记 2024/11/22 5:58:04

【深度学习|onnx】往onnx中写入训练的超参或者类别等信息，并在推理时读取

1、往onnx中写入在训练完毕之后，我们先使用torch.onnx.export() 导出onnx模型，然后我们再使用以下代码来往metadata中写入信息： # Metadatad {# stride: int(max(model.stride)),names: model.names,mean : [0,0,0],std : [1,1,1],normali…...

编程日记 2024/11/22 5:56:02

WebSocket详解、WebSocket入门案例

目录 1.1 WebSocket介绍 http协议： webSocket协议： 1.2WebSocket协议： 1.3客户端（浏览器）实现 1.3.2 WebSocket对象的相关事宜： 1.3.3 WebSOcket方法 1.4 服务端实现服务端如何接收客户端发送的请…...

编程日记 2024/11/22 5:55:01

05_Spring JdbcTemplate

在继续了解Spring的核心知识前，我们先看看Spring的一个模板类JdbcTemplate，它是一个JDBC的模板类，用来简化JDBC的操作。接下来以实际来进行说明一、实例环境准备数据库及表准备我们在本地mysql中新增一个数据库test,并新增一张数据表：user create database if not…...

编程日记 2024/11/22 5:54:00

Bug：引入Feign后触发了2次、4次ContextRefreshedEvent

Bug：引入Feign后发现监控onApplication中ContextRefreshedEvent事件触发了2次或者4次。【原理】在Spring的文档注释中提示到： Event raised when an {code ApplicationContext} gets initialized or refreshed.即当 ApplicationContext 进行初始化或者刷…...

编程日记 2024/11/22 5:52:59

layui 表格点击编辑感觉很好用，实现方法如下

1. 在 HTML 页面中引入 layui 的相关资源文件：html <link rel"stylesheet" href"https://cdn.staticfile.org/layui/2.5.6/css/layui.css"> <script src"https://cdn.staticfile.org/layui/2.5.6/layui.js"></script&…...

编程日记 2024/11/22 5:50:57

三十一、构建完善微服务——API 网关

一、API 网关基础系统拆分为微服务后，内部的微服务之间是互联互通的，相互之间的访问都是点对点的。如果外部系统想调用系统的某个功能，也采取点对点的方式，则外部系统会非常“头大”。因为在外部系统看来，它不需要也没…...

编程日记 2024/11/22 5:49:56

非对称之美(贪心) import java.util.*; public class Main{public static void main(String[] arg) {Scanner in new Scanner(System.in);char[] ch in.next().toCharArray(); int n ch.length; int flag 1;for(int i 1; i < n; i) {if(ch[i] ! ch[0]) {flag …...

编程日记 2024/11/22 5:48:55

详细教程-Linux上安装单机版的Hadoop

1、上传Hadoop安装包至linux并解压 tar -zxvf hadoop-2.6.0-cdh5.15.2.tar.gz 安装包： 链接：https://pan.baidu.com/s/1u59OLTJctKmm9YVWr_F-Cg 提取码：0pfj 2、配置免密码登录生成秘钥： ssh-keygen -t rsa -P 将秘钥写入认…...

编程日记 2024/11/22 5:46:53

C#桌面应用制作计算器进阶版01

基于C#桌面应用制作计算器做出了少量改动，其主要改动为新增加了一个label控件，使其每一步运算结果由label2展示出来，而当点击“”时，最终运算结果将由label1展示出来，此时label清空。修改后运行效果修改后全篇代码 …...

编程日记 2024/11/22 5:45:52

[开源] 告别黑苹果！用docker安装MacOS体验苹果系统

没用过苹果电脑的朋友可能会对苹果系统好奇，有人甚至会为了尝鲜MacOS去折腾黑苹果。如果你只是想体验一下MacOS，这里有个更简单更优雅的解决方案，用docker安装MacOS来体验苹果系统。一、项目简介项目描述 Docker 容器内的 OSX&#xff08…...

编程日记 2024/11/22 5:44:51

多模态大模型（4）--InstructBLIP

BLIP-2通过冻结的指令调优LLM以理解视觉输入，展示了在图像到文本生成中遵循指令的初步能力。然而，由于额外的视觉输入由于输入分布和任务多样性，构建通用视觉语言模型面临很大的挑战。因而，在视觉领域，指令调优技术仍未…...

编程日记 2024/11/22 5:43:50

【Linux】基于 Busybox 构建嵌入式 Linux（未完成）

嵌入式 Linux 1.需要 Toolchain 2.需要 Bootloader 3.需要嵌入式 Linux 基本组件： Linux kernelDTBRoot filesystem InitShellDaemonShared librariesConfiguration fileDevice nodeproc and sysKernel Module 基于 Busybox 构建 1.编译 Linux kernel 2.编译 …...

编程日记 2024/11/22 5:42:49