Llama 3 简介(一)
目录
1. 引言
1.1 Llama 3 的简介
1.2 性能评估
1.3 开源计划
1.4 多模态扩展
ps
1. 缩放法则
2. 超额训练(Over-training)
3. 计算训练预算
4. 如何逐步估算和确定最优模型?
2. 概述
2.1 Llama 3 语言模型开发两个主要阶段
2.2 多功能模型的能力
2.3 多模态扩展实验
1. 引言
基础模型 是面向语言、视觉、语音和其他多模态的大型模型,旨在支持各种 AI 任务。它们是许多现代 AI 系统的核心。 现代基础模型的开发主要包括两个阶段:
-
预训练阶段在大规模数据集上进行训练,任务通常很简单,比如预测下一个单词或生成字幕。
-
后训练阶段模型经过调整以能够遵循指令,更好地符合人类偏好,并提升特定能力(例如编码和推理)。
在本文中,我们介绍了一组名为 Llama 3 的全新语言基础模型。Llama 3 系列模型本地支持多语言、编码、推理和工具使用。我们的最大模型是一个拥有 4050 亿参数的稠密 Transformer,能够在最长 128K 个 token 的上下文窗口中处理信息。
1.1 Llama 3 的简介
-
Llama 3 是一组多语言大语言模型,由三个不同规模的模型组成:8B、70B 和 405B 参数。
-
8B:小型模型,适合资源受限的场景。
-
70B:中型模型,性能与计算需求均衡。
-
405B:旗舰模型,性能接近 GPT-4。
-
开发高质量基础模型有三个关键要素:数据、规模和复杂性管理。
数据:训练数据量提升到 15T token,是 Llama 2 的 8 倍以上。数据更广泛、更高质量,使模型更强大。
规模:旗舰模型拥有 4050 亿参数,远超 Llama 2。这种大模型具备更强的泛化能力和复杂任务处理能力
复杂性管理:采用更稳定的稠密 Transformer,而非更复杂的混合模型,确保训练稳定性和易于扩展。

表 1 解读
-
Llama 3.1 版本的模型全面支持多语言、长上下文和工具使用,而早期的 Llama 3 版本仅在部分模型中实现这些功能。
-
405B 模型 是当前最大的模型版本,展现了在大规模训练下的顶级性能。是基于缩放法则的计算最优模型。
-
小型模型如 8B 和 70B 虽然更小,但通过更长时间的训练(超额训练),在同样的推理预算下,也能达到接近旗舰模型的效果。
-
Instruct 版本 是针对指令优化的模型,能更好地遵循人类输入,实现更精确的响应。
1.2 性能评估
-
研究团队在广泛的基准数据集上评估了 Llama 3 的表现,这些数据集涵盖了多种语言理解任务。
-
**旗舰模型(405B 参数)**的表现:
-
在多个任务上接近或达到 GPT-4 的水平,非常接近当前的最先进(state-of-the-art)语言模型。
-
-
小型模型(8B 和 70B 参数):
-
在同样的参数规模下,小型模型优于其他竞争模型(如 Bai et al., 2023;Jiang et al., 2023),证明了它的高效性。

-
1.3 开源计划
-
公开发布:所有三个 Llama 3 模型(8B、70B、405B)将通过一个更新的 Llama 3 社区许可协议(Community License)开放 https://llama.meta.com. 包括:
-
预训练版本(405B):基础大模型。
-
微调版本(405B):优化过的指令版本。
-
Llama Guard 模型:用于输入和输出的安全性检查。
-
1.4 多模态扩展
-
多模态支持:Llama 3 团队正在开发扩展模型,使其能够支持以下任务:
-
图像识别(image recognition)。
-
视频分析(video recognition)。
-
语音理解(speech understanding)。
-
-
这些多模态模型仍在积极开发中,目前尚未准备好发布。
ps
1. 缩放法则
基础模型的缩放法则(Scaling Laws for Foundation Models)是指在训练大型模型时,模型的性能如何随以下三大因素扩展而提高的规律:
-
数据规模(Data Size)
-
模型参数量(Model Size)
-
计算量(FLOPs)(Compute Budget)
这些法则揭示了:
-
更大的模型 在更大的数据集上训练,并使用更多的计算资源时,其性能通常会持续提升。
-
性能提升是可预测的,即模型的损失函数或下游任务的精度,可以根据模型规模和计算量的增加呈现出幂律关系。
简单理解:
-
小模型+长时间训练 ≈ 大模型+少训练时间
-
计算最优模型在两者之间找到平衡,确保在有限的预算下获得最高性能。
2. 超额训练(Over-training)
超额训练 指的是在模型已经达到计算最优之后,继续进行训练,投入更多的计算量或数据,尽管提升幅度变小,但最终模型表现会略优于计算最优模型。
通常适用于:
-
关键任务:需要高精度的任务(如医疗、自动驾驶)。
-
长尾场景:在罕见或复杂数据上需要更强的泛化能力。
3. 计算训练预算
经验值参考
-
GPT-3 (175B 参数) 训练耗费约 3.14 × 10²³ FLOPs。
-
LLaMA 2 (65B 参数) 训练耗费约 1.0 × 10²³ FLOPs。
-
PaLM 540B 参数 训练预算约 6.4 × 10²⁴ FLOPs。
1E24 FLOPs 是一个行业通用的经验值,适合训练 50B~100B 参数规模的模型。
训练预算也可以通过公式推导,结合模型参数量和数据量来计算。

4. 如何逐步估算和确定最优模型?

行业基准:很多公司在训练 50B~100B 参数模型时,通常预算约在 1E24−5E24FLOPs范围内。
计算资源:这个预算量级对应当前行业常用的 TPU/GPU 集群资源,能够在合理时间内完成大规模模型训练。



总结:流程简化版
-
用公式估算最优模型参数量(先估模型大小)。
-
反算训练预算(FLOPs),确保资源充足。
-
训练不同规模模型,观察损失曲线变化。
-
在计算最优点停下或决定超额训练。
2. 概述
Llama 3 的模型架构如图 1 所示。
2.1 Llama 3 开发两个主要阶段

语言模型的预训练(Language model pre-training)
-
我们首先将一个大规模的多语言文本语料库转换为离散的 token(标记),并使用这些数据对一个大型语言模型(LLM)进行预训练,以执行下一个 token 的预测任务。
-
在语言模型的预训练阶段,模型通过“阅读”文本,学习语言的结构并获得关于世界的大量知识。
-
为了高效实现这一点,预训练在大规模环境下进行:我们对一个拥有 4050 亿参数的模型进行了预训练,使用了 15.6 万亿 token 的语料,支持的上下文窗口为 8K token。
-
在标准预训练阶段完成后,还进行了进一步的预训练阶段,将支持的上下文窗口扩展到 128K token(详见第 3 节)。
语言模型的后训练(Language model post-training)
-
虽然经过预训练的语言模型对语言有了丰富的理解,但它尚不能遵循指令,或表现出我们期望的助手行为。
-
我们通过多轮次的对齐优化,使模型与人类反馈保持一致,每一轮都包括:
-
使用指令微调数据进行的监督微调(SFT)。
-
直接偏好优化(DPO;Rafailov 等人,2024)。
-
-
在后训练阶段,我们还整合了新的功能,例如工具使用,并在其他领域(如编程和推理)上观察到显著改进(详见第 4 节)。
-
最后,在后训练阶段中还加入了安全性缓解措施,详细内容详见第 5.4 节。
2.2 多功能模型的能力
训练后的 Llama 3 模型具备丰富的功能:
-
能够使用至少八种语言回答问题。
-
撰写高质量代码。
-
解决复杂的推理问题。
-
支持零样本使用工具或开箱即用。
2.3 多模态扩展实验
我们还进行了实验,为 Llama 3 添加了图像、视频和语音处理能力。这些能力是通过一个组合方法实现的,分为以下三个阶段

1. 多模态编码器预训练(Multi-modal encoder pre-training)
图像编码器:
-
我们为图像和语言训练了独立的图像编码器,使用了大量图像-文本对。
-
这让模型能够学习视觉内容与自然语言描述之间的关系。
语音编码器:
-
我们使用一种自监督方法训练语音编码器,方法是在语音输入中掩盖部分信号并让模型尝试重建这些掩盖的部分,输出为离散的 token 表示。
-
结果是模型学会了语音信号的结构和特征。
2. 视觉适配器训练(Vision adapter training)
我们为图像编码器设计了一个适配器(adapter),将其与预训练的语言模型集成。
-
适配器包含一系列交叉注意力层(cross-attention layers),用于将图像编码器的表示输入到语言模型中。
-
训练适配器时使用的是图像-文本对数据,使图像表示和语言表示对齐。
训练过程中:
-
图像编码器参数会更新。
-
语言模型参数不会更新。
视频适配器:
-
在图像适配器的基础上,我们使用视频-文本对数据训练了一个视频适配器,使模型能够跨帧聚合信息。
3. 语音适配器训练(Speech adapter training)
最后,我们通过一个适配器将语音编码器集成到模型中,适配器将语音编码转换为可以直接输入到微调语言模型的 token 表示。
适配器和语音编码器的参数在监督微调阶段一起更新,以实现高质量的语音理解。
训练过程中:
-
语言模型参数不会被改变。
我们还集成了一个文本到语音系统(text-to-speech system),进一步增强了语音交互能力。
实验结果
这些多模态实验结果表明,Llama 3 的扩展模型能够:
-
识别图像和视频的内容。
-
支持通过语音接口与用户交互。
当前状态:这些模型仍在开发中,尚未准备好发布。
相关文章:
Llama 3 简介(一)
目录 1. 引言 1.1 Llama 3 的简介 1.2 性能评估 1.3 开源计划 1.4 多模态扩展 ps 1. 缩放法则 2. 超额训练(Over-training) 3. 计算训练预算 4. 如何逐步估算和确定最优模型? 2. 概述 2.1 Llama 3 语言模型开发两个主要阶段 2.2…...
在 CentOS 上安装 FFmpeg
在CentOS 上安装 FFmpeg 方法一:在线安装 添加 EPEL 和 RPM Fusion 源: sudo yum install epel-release sudo yum install https://download1.rpmfusion.org/free/el/rpmfusion-free-release-$(rpm -E %rhel).noarch.rpm安装 FFmpeg: sudo yu…...
Python------Pandas的数据结构
Pandas主要处理以下三个数据结构: 序列(Series) 数据帧(DataFrame) 面板(Panel) 数据结构维数描述序列11维结构,值可变,大小不变数据帧22维结构,值可变,大小可变,表结构面板3维标记,值可变…...
矩阵碰一碰发视频源码技术解析,支持OEM
一、引言 随着近场通信技术的不断发展,矩阵碰一碰发视频技术作为一种创新的交互方式,逐渐在各个领域崭露头角,如智能营销、展览展示、教育科普等场景中都有着广泛的应用前景。通过将多个碰一碰设备或感应区域组成矩阵形式,用户能够…...
【汇编语言】外中断(一)—— 外中断的魔法:PC机键盘如何触发计算机响应
文章目录 前言1. 背景介绍2. 接口芯片和端口3. 外中断信息3.1 什么是外中断信息3.2 外中断源的分类3.2.1 可屏蔽中断3.2.1.1 什么是可屏蔽中断?3.2.1.2 可屏蔽中断的处理过程 3.2.2 不可屏蔽中断3.2.2.1 什么是不可屏蔽中断?3.2.2.2 不可屏蔽中断的处理过…...
pymssql-2.1.4.dev5-cp37-cp37m-win_amd64.whl 安装
pip install pymssql 安装pymssql出现下面的问题 error: Microsoft Visual C 14.0 is required. Get it with “Microsoft Visual C Build Tools”: http://landinghub.visualstudio.com/visual-cpp-build-tools 因为要使用python连接sqlserver数据库,需要pymssq…...
在HTML中使用Vue如何使用嵌套循环把集合中的对象集合中的对象元素取出来(我的意思是集合中还有一个集合那种)
在 Vue.js 中处理嵌套集合(即集合中的对象包含另一个集合)时,使用多重 v-for 指令来遍历这些层次结构。每个 v-for 指令可以用于迭代一个特定级别的数据集,并且可以在模板中嵌套多个 v-for 来访问更深层次的数据。 例如ÿ…...
Apriori关联规则算法 HNUST【数据分析技术】(2025)
1.理论知识 Apriori是一种常用的数据关联规则挖掘方法,它可以用来找出数据集中频繁出现的数据集合。该算法第一次实现在大数据集上的可行的关联规则提取,其核心思想是通过连接产生候选项及其支持度,然后通过剪枝生成频繁项集。 Apriori算法的…...
Windows中Microsoft Edge兼容性问题|修复方案
针对Microsoft Edge浏览器在Windows系统中出现的兼容性问题解决步骤和策略: 作者是更改了注册表解决的,问题不一,大家遇到兼容性问题先按照第7个情况进行设置,大部分人是这个情况! 清理缓存和Cookies 按快捷键:ctrlshi…...
Android 蓝牙开发-传输数据
概述 传统蓝牙是通过建立REFCCOM sockect来进行通信的,类似于socket通信,一台设备需要开放服务器套接字并处于listen状态,而另一台设备使用服务器的MAC地址发起连接。连接建立后,服务器和客户端就都通过对BluetoothSocket进行读写…...
webrtc获取IceCandidate流程
在WebRTC(Web Real-Time Communication)中,ICECandidate是一个关键概念,它用于描述在建立点对点(P2P)连接时可以考虑的潜在通信端点。以下是关于WebRTC中ICECandidate的详细解释: 一、ICECandidate的定义 ICECandidate对象通常包含以下关键属性: foundation:用于唯一…...
每天40分玩转Django:Django静态文件
Django静态文件 一、今日学习内容概述 学习模块重要程度主要内容静态文件配置⭐⭐⭐⭐⭐基础设置、路径配置CDN集成⭐⭐⭐⭐⭐CDN配置、资源优化静态文件处理⭐⭐⭐⭐压缩、版本控制部署优化⭐⭐⭐⭐性能优化、缓存策略 二、基础配置 # settings.py import os# 静态文件配置…...
Linux 线程池
1.概念介绍 线程池是一种多线程处理形式,它维护着多个线程,这些线程处于等待状态,随时准备接受任务并执行。线程池的主要目的是为了提高系统的性能和资源利用率,避免在处理短时间任务时频繁创建和销毁线程所带来的开销。 线程池…...
windows使用zip包安装MySQL
windows通过zip包安装MySQL windows通过zip包安装MySQL下载MySQL的zip安装包创建安装目录和数据目录解压zip安装包创建配置目录 etc 和 配置文件 my.ini安装MySQL进入解压后的bin目录执行命令初始化执行命令安装 验证安装查看服务已安装 启动MySQL查看服务运行情况修改密码创建…...
深度学习实战之超分辨率算法(tensorflow)——ESPCN
espcn原理算法请参考上一篇论文,这里主要给实现。 数据集如下:尺寸相等即可 针对数据集,生成样本代码preeate_data.py import imageio from scipy import misc, ndimage import numpy as np import imghdr import shutil import os import…...
Android unitTest 单元测试用例编写(初始)
文章目录 了解测试相关库导入依赖库新建测试文件示例执行查看结果网页结果其他 本片讲解的重点是unitTest,而不是androidTest哦 了解测试相关库 androidx.compose.ui:ui-test-junit4: 用于Compose UI的JUnit 4测试库。 它提供了测试Compose UI组件的工具和API。 and…...
C++简明教程(10)(初识类)
类的教程 C 类的完整教程 C 中,类(class)是面向对象编程的核心概念,用于定义对象的属性(数据成员)和行为(成员函数)。本教程将带你从零开始,循序渐进地学习如何定义和使…...
光谱相机的工作原理
光谱相机的工作原理主要基于不同物质对不同波长光的吸收、反射和透射特性存在差异,以下是其具体工作过程: 一、光的收集 目标物体在光源照射下,其表面会对光产生吸收、反射和透射等相互作用。光谱相机的光学系统(如透镜、反射镜…...
【Linux进程】基于管道实现进程池
目录 前言 1. 进程池 1.1 基本结构: 1.2. 池化技术 1.3. 思路分析 1.4. 代码实现 总结 前言 上篇文章介绍了管道及其使用,本文在管道的基础上,通过匿名管道来实现一个进程池; 1. 进程池 父进程创建一组子进程,子进…...
软件测试之单元测试
🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 一、何为单测 测试有黑盒测试和白盒测试之分,黑盒测试顾名思义就是我们不了解盒子的内部结构,我们通过文档或者对该功能的理解,…...
011、性能建模与容量规划
性能建模与容量规划:从一次深夜告警说起 凌晨两点,手机突然狂震。线上核心服务的响应时间曲线像坐了火箭,从平时的50毫秒直冲3000毫秒。登录监控系统一看,CPU使用率早已突破90%红线,数据库连接池全满。这不是第一次了——每次大促前我们都在拍脑袋扩容,但似乎永远猜不准…...
3.30~4.5补题
牛客周赛Round 137 A.小苯的时钟显示牛客周赛Round 137 B.小苯的输入法牛客周赛Round 137 C.小苯的观景路线牛客周赛Round 137 D.小苯的序列涂色牛客周赛Round 137 E.小苯的凝聚区间SMU 2026 Spring 天梯赛6(补题)7-1 1-1 输出金字塔图案SMU 2…...
SEO_资深运营揭秘,长期稳定排名的SEO策略介绍
SEO策略的核心要素:内容质量 在资深运营者的经验中,内容质量始终是SEO策略的核心要素。一个优质的网站,首先需要提供高质量、有价值的内容,这不仅能吸引用户,还能提升网站在搜索引擎中的排名。长期稳定的SEO排名离不开…...
IDToolsPico:Pico平台轻量级UUID与MAC生成库
1. IDToolsPico 库深度解析:面向嵌入式系统的 UUID 与 MAC 地址生成器 1.1 库定位与工程价值 IDToolsPico 是专为 Raspberry Pi Pico 平台设计的轻量级标识符生成库,核心目标是为资源受限的微控制器提供符合标准的、可重复使用的唯一设备标识能力。在物…...
Three.js模型加载太慢?试试这个gltf-pipeline压缩技巧,亲测有效!
Three.js模型加载优化实战:gltf-pipeline压缩技巧详解 在Web 3D开发中,Three.js无疑是构建沉浸式体验的首选工具之一。然而,随着3D模型复杂度的提升,文件体积膨胀导致的加载延迟成为开发者面临的普遍挑战。想象一下,用…...
A89306电机控制器驱动库:SPI寄存器级控制与FOC系统集成
1. A89306电机控制器驱动库技术解析与工程实践1.1 芯片定位与系统角色A89306是由Allegro MicroSystems推出的高集成度三相无刷直流(BLDC)电机控制器专用IC,面向中高端工业驱动与精密运动控制场景。该芯片并非通用MCU,而是集成了栅…...
C语言实现进程调度算法:优先级与时间片轮转
1. 项目概述在嵌入式系统和操作系统开发中,进程调度是一个核心概念。今天我要分享的是如何在C语言中实现一个简单的程序调度机制,重点讲解高优先数调度算法和先来先服务算法的实现。这个项目非常适合想要深入理解操作系统底层原理的开发者,特…...
电子设计竞赛:坡道行驶电动小车设计与实现
1. 四川省电子设计竞赛一等奖作品解析:坡道行驶电动小车去年参加四川省电子设计竞赛时,我们团队选择了C题"坡道行驶电动小车"这个看似简单实则暗藏玄机的题目。经过72小时的连续奋战,最终拿下一等奖。今天就把这个项目的完整实现方…...
TCP 是用来解决什么问题:从 IP 的不可靠到可靠的端到端通信
TCP 是用来解决什么问题:从 IP 的不可靠到可靠的端到端通信01. 前言:为什么有了 IP 还不够?02. IP 协议的四大先天缺陷03. TCP 要解决的六大核心问题04. 问题一:丢包 → 确认 超时重传4.1 问题描述4.2 TCP 的解决方案05. 问题二&…...
**发散创新:基于Go语言实现的Raft共识算法实战解析**在分布式系统中,**一
发散创新:基于Go语言实现的Raft共识算法实战解析 在分布式系统中,一致性是核心挑战之一。而Raft共识算法因其简洁性和可理解性,已成为当前主流的分布式一致性协议(如etcd、Consul均采用Raft)。本文将带你深入用Go语言从…...
