Llama 4 家族:原生多模态 AI 创新的新时代开启

0 要点总结
- Meta发布 Llama 4 系列的首批模型,帮用户打造更个性化多模态体验
- Llama 4 Scout 是有 170 亿激活参数、16 个专家模块的模型,同类中全球最强多模态模型,性能超越以往所有 Llama 系列模型,能在一张 NVIDIA H100 GPU 上运行。该模型支持业界领先的 1000 万上下文窗口,在多个权威测试中表现优于 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1
- Llama 4 Maverick 也拥有 170 亿激活参数,但配置多达 128 个专家模块,是同类中最强的多模态模型,在多个广泛测试中超越 GPT-4o 和 Gemini 2.0 Flash,推理和编程能力可与 DeepSeek v3 相当,但激活参数数量不到其一半。其聊天版在 LMArena 上取得了 1417 的 ELO 分数,性能与成本比行业领先
- 这些出色的模型得益于“教师模型” Llama 4 Behemoth 的知识蒸馏。Behemoth 拥有 2880 亿激活参数和 16 个专家模块,是我们最强大的模型,在多项 STEM 基准测试中超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。目前该模型仍在训练中,我们将持续分享更多细节。
- 立即前往 llama.com 或 Hugging Face 下载 Llama 4 Scout 与 Maverick。也可在 WhatsApp、Messenger、Instagram 私信体验基于 Llama 4 构建的 Meta AI。
随 AI 在日常生活中的广泛应用,确保领先的模型与系统开放可用,对推动个性化体验创新至关重要。支持整个 Llama 生态 的最先进模型组合。正式推出的 Llama 4 Scout 和 Llama 4 Maverick,是首批开放权重、原生多模态、支持超长上下文窗口、采用 MoE架构构建的模型。“巨兽”—— Llama 4 Behemoth,不仅是迄今最强大的模型之一,也是新一代模型的“老师”。
这些 Llama 4 模型的发布标志着 Llama 生态迈入新纪元。Llama 4 系列中的 Scout 和 Maverick 都是高效设计的模型:
- 前者能以 Int4 量化方式部署在单张 H100 GPU 上
- 后者则适配于单个 H100 主机
训练了 Behemoth 教师模型,在 STEM 基准(如 MATH-500 和 GPQA Diamond)中表现优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。
开放才能推动创新,对开发者、Meta 和整个世界都是利好。可通过 llama.com 和 Hugging Face 下载 Scout 与 Maverick。同时,Meta AI 也已在 WhatsApp、Messenger、Instagram 私信启用 Llama 4 模型。
这只是 Llama 4 系列的开始。最智能的系统应能泛化行动、自然对话并解决未曾遇到的问题。赋予 Llama 在这些领域的“超能力”,将催生更优质的产品和更多开发者创新机会。
无论你是构建应用的开发者,集成 AI 的企业用户,或是对 AI 潜力充满好奇的普通用户,Llama 4 Scout 和 Maverick 都是将下一代智能融入产品的最佳选择。接下来,介绍它们的四大研发阶段以及设计过程中的一些关键洞察。
1 预训练阶段
这些模型代表 Llama 系列的巅峰之作,具备强大多模态能力,同时在成本上更具优势,甚至性能超越了一些参数规模更大的模型。为打造 Llama 下一代模型,在预训练阶段采用了多项新技术。
MoE
Llama 4是首批采用MoE的模型。MoE架构的一个核心优势:每个 token 只激活模型中一小部分参数,从而大幅提高训练与推理的效率。在给定的 FLOPs(浮点运算)预算下,MoE 模型的效果优于传统的密集模型。

以 Llama 4 Maverick 为例:它拥有 170 亿激活参数,总参数数为 4000 亿。其网络结构在推理过程中交替使用密集层与 MoE 层。每个 token 会被送入一个共享专家和一个 128 个路由专家之一,这种机制确保模型在保持全参数存储的同时,仅激活必要部分,从而提升运行效率、降低成本与延迟。Maverick 可在一台 NVIDIA H100 DGX 主机上运行,也支持分布式部署以实现最大效率。
Llama 4 天生支持多模态输入,采用 早期融合(early fusion)机制,将文本与视觉 token 一体化输入模型主干。使得能用大量未标注的文本、图像和视频数据对模型进行联合预训练。同时,升级视觉编码器,基于 MetaCLIP 的改进版,在预训练阶段与冻结的 Llama 主干协同优化。
新训练方法MetaP
精确控制每层学习率和初始化比例。这些超参数在不同 batch size、模型宽度、深度和 token 数下都具有良好的迁移性。Llama 4 预训练涵盖 200 多种语言,其中 100 多种语言的数据量超过 10 亿 tokens,总体上多语种训练 token 数量是 Llama 3 的 10 倍。
FP8 精度
用 FP8 精度 进行训练,保持模型质量的同时提高训练效率。如训练 Behemoth 时,用 32000 张 GPU,并实现 390 TFLOPs/GPU 的高效能。整个训练数据超过 30 万亿个 token,是 Llama 3 的两倍,数据类型包含多样的文本、图像和视频内容。
训练中期,采用“mid-training”阶段,通过专门数据集提升模型的核心能力,如支持更长上下文的能力。得益于这些改进,Llama 4 Scout 实现 业界领先的 1000 万 token 输入长度。
2 后训练阶段
新模型有大小多种选择,以满足不同应用场景与开发者需求。Llama 4 Maverick 在图像和文本理解方面表现卓越,是多语言 AI 应用和创意写作的理想选择。
后训练阶段最大的挑战是保持不同输入模态、推理能力与对话能力之间的平衡。为此,设计“多模态课程”训练策略,确保模型不因学习多模态而牺牲单一模态性能。更新了后训练流程,采取轻量监督微调(SFT)> 在线强化学习(RL)> 轻量偏好优化(DPO)的方式。发现SFT 与 DPO 若使用不当,会限制模型在 RL 阶段的探索,特别是在推理、编程和数学领域会导致效果下降。
为解决这问题,剔除超过 50% 的“简单样本”,仅对更难数据进行 SFT。之后 RL 阶段用更具挑战性提示,实现性能飞跃。采用 持续在线 RL 策略:训练模型 → 用模型筛选中等难度以上的提示 → 再训练,如此循环,有效平衡计算成本与精度。最终,我们通过轻量 DPO 优化边缘情况,全面提升模型的智能与对话能力。
Llama 4 Maverick 拥有 170 亿激活参数、128 个专家模块与 4000 亿总参数,在性能上超越 Llama 3.3 的 70B 模型。它是目前最顶级的多模态模型,在编程、推理、多语言、长文本与图像等任务中优于 GPT-4o 与 Gemini 2.0,与 DeepSeek v3.1 的表现不相上下。
[外链图片转存中…(img-Y4bYAPfr-1743952046715)]
Llama 4 Scout 是一款通用模型,具备 170 亿激活参数、16 个专家模块、1090 亿总参数,性能在同类模型中首屈一指。它将上下文长度从 Llama 3 的 128K 大幅提升至 1000 万 tokens,支持多文档摘要、个性化任务解析、大型代码库推理等复杂应用。
Scout 在预训练和后训练阶段都使用了 256K 上下文长度,从而拥有出色的长文本泛化能力。在文本检索、代码负对数似然(NLL)评估等任务中均表现优秀。其一大创新是采用了 不使用位置嵌入的交错注意力机制(iRoPE),通过 温度调节推理机制 提升了对超长输入的处理能力。


我们对两个模型都进行了广泛的图像和视频帧训练,以增强它们对视觉内容的理解能力,包括时间相关活动和图像之间的关联。这让模型在处理多图输入时能轻松地结合文字提示进行视觉推理与理解。预训练阶段使用最多48张图像的输入,并在后期测试中验证模型在处理最多8张图像时的良好表现。
Llama 4 Scout 在图像定位方面表现尤为出色,能够将用户的提示准确对应到图像中的具体视觉元素,实现更精确的视觉问答。这款模型在编程、推理、长文本理解和图像处理等方面全面超越以往版本的 Llama 模型,性能领先同类模型。
3 推出更大规模的 Llama:2 万亿参数巨兽 Behemoth
Llama 4 Behemoth——拥有高级智能的“教师模型”,在同类模型中表现领先。Behemoth 是一个多模态专家混合(MoE)模型,激活参数达 2880 亿,拥有 16 个专家模块,总参数量接近两万亿。在数学、多语言和图像基准测试中表现一流,因此成为训练更小的 Llama 4 模型的理想“老师”。
从 Behemoth 模型中通过“共蒸馏”(codistillation)技术训练出了 Llama 4 Maverick,有效提升了最终任务表现。我们还研发了一种全新的损失函数,能在训练过程中动态调整软标签和硬标签的权重。此外,我们还通过在 Behemoth 上运行前向传递,生成用于训练学生模型的数据,大幅降低了训练成本。

对这样一个拥有两万亿参数的模型,其后期训练本身就是一项巨大挑战。我们从数据量级就开始彻底改革训练方法。为提升性能,我们将监督微调(SFT)数据削减了95%(相比于小模型只需要削减50%),以更专注于数据质量和效率。
还发现:先进行轻量级的 SFT,再进行大规模强化学习(RL),能够显著提升模型的推理和编程能力。RL策略包括:
- 使用 pass@k 方法选取具有挑战性的提示构建训练课程;
- 动态过滤无效提示;
- 混合多个任务的提示组成训练批次;
- 使用多种系统指令样本,确保模型能广泛适应不同任务。
为支持 2 万亿参数的 RL 训练,重构了整个强化学习基础设施。对 MoE 并行架构进行了优化,提高训练速度,并开发了完全异步的在线 RL 框架,提升了训练的灵活性和效率。通过将不同模型分配到不同 GPU 并进行资源平衡,实现训练效率的近10倍提升。
4 安全机制与防护措施
致力打造有用且安全的模型,同时规避潜在的重大风险。Llama 4 遵循《AI 使用开发指南》中的最佳实践,从预训练到系统级都融入了防护机制,以保障开发者免受恶意行为干扰,从而开发出更安全、可靠的应用。
4.1 预训练与后训练防护
- 预训练:使用数据过滤等方法保护模型。
- 后训练:通过一系列技术确保模型遵循平台政策,保持对用户和开发者的友好性和安全性。
4.2 系统级方法
开源了多种安全工具,方便集成进 Llama 模型或第三方系统:
- Llama Guard:与 MLCommons 联合开发的风险分类法构建的输入输出安全模型。
- Prompt Guard:一个可识别恶意提示(如 Jailbreak 和提示注入)的分类模型。
- CyberSecEval:帮助开发者了解和降低生成式 AI 网络安全风险的评估工具。
这些工具支持高度定制,开发者可根据应用需求进行优化配置。
4.3 安全评估与红队测试
我们在各种使用场景下进行系统化测试,并将测试结果反馈到模型后训练中。我们使用动态对抗性探测技术(包括自动和人工测试)来识别模型的潜在风险点。
一种新测试方式——生成式攻击智能代理测试(GOAT),可模拟中等技能水平的攻击者进行多轮交互,扩大测试覆盖范围。GOAT 的自动化测试能替代人工团队处理已知风险区域,让专家更专注于新型对抗场景,提高测试效率。
4.4 解决语言模型中的偏见问题
大型语言模型容易出现偏见,尤其在社会和政治话题上偏向自由派。这是因为网络训练数据本身就存在倾向性。
目标是消除偏见,让 Llama 能够公正地理解并表达有争议话题的不同观点,而非偏袒某一方。
Llama 4 在这方面取得了重大进展:
- 拒答比例从 Llama 3 的 7% 降低至 Llama 4 的 2% 以下;
- 对于具有争议性的问题,拒答不平衡的比例降至 1% 以下;
- 表现出强烈政治倾向的响应率仅为 Llama 3 的一半,与 Grok 相当。
继续努力,进一步降低偏见水平。
5 探索 Llama 生态系统
除了模型智能,用户还希望模型反应个性化、速度快。Llama 4 是迄今为止最先进的模型,已为此进行优化。模型只是打造完整体验的一部分。
本项目感谢以下 AI 生态伙伴的大力支持(按字母顺序排列):
Accenture、Amazon Web Services、AMD、Arm、CentML、Cerebras、Cloudflare、Databricks、Deepinfra、DeepLearning.AI、Dell、Deloitte、Fireworks AI、Google Cloud、Groq、Hugging Face、IBM Watsonx、Infosys、Intel、Kaggle、Mediatek、Microsoft Azure、Nebius、NVIDIA、ollama、Oracle Cloud、PwC、Qualcomm、Red Hat、SambaNova、Sarvam AI、Scale AI、Scaleway、Snowflake、TensorWave、Together AI、vLLM、Wipro。
相关文章:
Llama 4 家族:原生多模态 AI 创新的新时代开启
0 要点总结 Meta发布 Llama 4 系列的首批模型,帮用户打造更个性化多模态体验Llama 4 Scout 是有 170 亿激活参数、16 个专家模块的模型,同类中全球最强多模态模型,性能超越以往所有 Llama 系列模型,能在一张 NVIDIA H100 GPU 上运…...
OpenCV 在树莓派上进行实时人脸检测
这段 Python 代码借助 OpenCV 库实现了在树莓派上进行实时人脸检测的功能。它会开启摄像头捕获视频帧,在每一帧里检测人脸并以矩形框标记出来,同时在画面上显示帧率(FPS)。 依赖库 cv2:OpenCV 库,用于计算…...
SMT加工贴片核心工艺解析
内容概要 表面贴装技术(SMT)作为现代电子制造的核心工艺,其加工流程的精细度直接影响产品性能和良率。本文系统性梳理SMT贴片生产的全链条技术节点,以焊膏印刷、元件贴装、回流焊接三大核心工序为轴线,剖析各环节的工…...
嵌入式Linux驱动开发基础知识(三)
Linux系统与驱动开发:从字符设备到I2C传感器驱动实战 本文将系统梳理Linux驱动开发的核心知识与实战流程,从基础概念到项目实践,带你完整掌握Linux驱动开发的关键技术。我们将从字符设备驱动框架讲起,深入设备树配置原理…...
正则表达式(Regular Expression,简称 Regex)
一、5w2h(七问法)分析正则表达式 是的,5W2H 完全可以应用于研究 正则表达式(Regular Expressions)。通过回答 5W2H 的七个问题,我们可以全面理解正则表达式的定义、用途、使用方法、适用场景等,…...
Superset 问题
和nginx结合使用,如果不是配置到根路径,会比较麻烦,我试了很多种方法,也就 这个 靠谱点,不过,我最后还是选择的部署在根路径,先探索一番再说默认不能选择mysql数据库,需要安装mysql客…...
JMeter脚本录制(火狐)
录制前准备: 电脑: 1、将JMeter证书导入,(bin目录下有一个证书,需要安装这个证书到电脑中) 2、按winr,输入certmgr.msc,打开证书,点击下一步,输入JMeter证书…...
基于SpringBoot的“高校社团管理系统”的设计与实现(源码+数据库+文档+PPT)
基于SpringBoot的“高校社团管理系统”的设计与实现(源码数据库文档PPT) 开发语言:Java 数据库:MySQL 技术:SpringBoot 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 总体功能结构图 局部E-R图 系统首页页面 用户…...
Maven/Gradle的讲解
一、为什么需要构建工具? 在理解 Maven/Gradle 之前,先明确它们解决的问题: 依赖管理:项目中可能需要引入第三方库(如 Spring、JUnit 等),手动下载和管理这些库的版本非常麻烦。标准化构建流程:编译代码、运行测试、打包成 JAR/WAR 文件等步骤需要自动…...
C# Winform 入门(3)之尺寸同比例缩放
放大前 放大后 1.定义当前窗体的宽度和高度 private float x;//定义当前窗体的宽度private float y;//定义当前窗台的高度 2.接收当前窗体的尺寸大小 x this.Width;//存储原始宽度ythis.Height;//存储原始高度setTag(this);//为控件设置 Tag 属性 3.声明方法,获…...
infinityfree最新免费建站详细教程_无需备案_5G空间_无限流量_免费域名_免费SSL
一、明确目标—是否要使用 1.为什么选择InfinityFree? 对于初学者、学生或只是想尝试网站搭建的个人用户来说,InfinityFree提供了一个绝佳的免费解决方案。这个国外免费的虚拟主机服务提供: 5GB存储空间 - 足以存放个人博客、作品集或小型…...
打造高效英文单词记忆系统:基于Python的实现与分析
在当今全球化的世界中,掌握一门外语已成为必不可少的技能。对于许多学习者来说,记忆大量的英文单词是一个漫长而艰难的过程。为了提高学习效率,我们开发了一个基于Python的英文单词记忆系统。这个系统结合了数据管理、复习计划、学习统计和测试练习等多个模块,旨在为用户提…...
node_modules\deasync: Command failed.
运行:“yarn install” 时报错 PS D:\WebPro\hainan-mini-program> yarn install yarn install v1.22.19 [1/4] Resolving packages... [2/4] Fetching packages... [3/4] Linking dependencies... warning " > babel-loader8.2.2" has un…...
session临时文件包含
使用情况 if(isset($_GET[file])){$file $_GET[file];$file str_replace("php", "???", $file);$file str_replace("data", "???", $file);$file str_replace(":", "???", $file);$file str_repla…...
【新能源汽车研发测试数据深度分析:从传感器到智能决策的硬核方法论】
摘要: 本文系统性解构新能源汽车(NEV)研发测试中的数据采集、处理及分析全链条,覆盖传感器融合、大数据清洗、AI算法优化等核心技术,并引入行业顶级案例(如特斯拉Autopilot验证、宁德时代BMS算法迭代&#…...
游戏引擎学习第206天
回顾并为当天的工作定下目标 接着回顾了前一天的进展。之前我们做了一些调试功能,并且已经完成了一些基础的工作,但是还有一些功能需要继续完善。其中一个目标是能够展示实体数据,以便在开发游戏逻辑系统时,可以清晰地查看和检查…...
Zapier MCP:重塑跨应用自动化协作的技术实践
引言:数字化协作的痛点与突破 在当今多工具协同的工作环境中,开发者与办公人员常常面临数据孤岛、重复操作等效率瓶颈。Zapier推出的MCP(Model Context Protocol)协议通过标准化数据交互框架,为跨应用自动化提供了新的…...
ubuntu部署ollama+deepseek+open-webui
ubuntu部署ollamadeepseekopen-webui 全文-ubuntu部署ollamadeepseekopen-webui 大纲 Ollama部署 安装Ollama:使用命令apt install curl和curl -fsSL https://ollama.com/install.sh | sh ollama-v网络访问配置:设置环境变量OLLAMA_HOST0.0.0.0:11434&…...
蓝桥云客--破译密码
5.破译密码【算法赛】 - 蓝桥云课 问题描述 在近期举办的蓝桥杯竞赛中,诞生了一场激动人心的双人破译挑战。比赛的主办方准备了N块神秘的密码芯片,参赛队伍需要在这场智力竞赛中展示团队合作的默契与效率。每个队伍需选出一位破译者与一位传输者&#…...
量子计算与经典计算的拉锯战:一场关于计算未来的辩论
在计算科学领域,一场关于未来的激烈辩论正在上演。2025年3月,D-Wave量子公司的研究人员在《Science》杂志上发表了一项突破性成果,声称他们的量子退火处理器在几分钟内解决了一个经典超级计算机需要数百万年才能完成的复杂现实问题。这一声明…...
Java面试黄金宝典30
1. 请详细列举 30 条常用 SQL 优化方法 定义 SQL 优化是指通过对 SQL 语句、数据库表结构、索引等进行调整和改进,以提高 SQL 查询的执行效率,减少系统资源消耗,提升数据库整体性能的一系列操作。 要点 从索引运用、查询语句结构优化、数据…...
React-Diffing算法和key的作用
1.验证Diffing算法 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title> </he…...
【NLP 54、大模型训练相关知识】
目录 引言:大模型训练两大问题 一、并行训练 1.方式一:数据并行 DP ① 复制模型到多个GPU ② 各自计算梯度后累加,再反传更新 ③ 需要单卡就能训练整个模型(显存够大) 2.方式二:模型并行 PP ① 将模型的不同…...
cursor机器码重置
1、下载vscode插件 cursor-fake-machine-0.0.2 2、将插件拖入拓展 3、彻底将cursor账号退出 setting -> Manage -> 退出账号 4、打开cursor,ctrlshiftp ,输入fake,点击确定...
IPSG 功能协议
IPSG(IP Source Guard)即 IP 源保护,是一种基于 IP 地址和 MAC 地址绑定的安全功能,用于防止 IP 地址欺骗和非法的 IP 地址访问。以下是配置 IPSG 功能的一般步骤: 基于端口的 IPSG 配置 进入接口配置模式࿱…...
es-字段类型详解
字段类型用途示例Text全文搜索的字符串字段。json { "type": "text" }Keyword精确匹配的字符串字段。json { "type": "keyword" }Numeric数值字段(如 integer、long、float 等)。json { "type": &quo…...
音视频开发从入门到精通:编解码、流媒体协议与FFmpeg实战指南
音视频开发从入门到精通:编解码、流媒体协议与FFmpeg实战指南 音视频技术作为数字媒体领域的核心,正在成为互联网和移动应用的重要组成部分。本文将全面介绍音视频开发的学习路径,从基础概念到高级应用,从编解码原理到实战案例&a…...
《P1072 [NOIP 2009 提高组] Hankson 的趣味题》
题目描述 Hanks 博士是 BT(Bio-Tech,生物技术) 领域的知名专家,他的儿子名叫 Hankson。现在,刚刚放学回家的 Hankson 正在思考一个有趣的问题。 今天在课堂上,老师讲解了如何求两个正整数 c1 和 c2 的最大公约数…...
CSS3学习教程,从入门到精通, 化妆品网站 HTML5 + CSS3 完整项目(26)
化妆品网站 HTML5 CSS3 完整项目 下面是一个完整的化妆品网站项目,包含主页、登录页面和注册页面。我将按照您的要求提供详细的代码和注释。 1. 网站规划与需求分析 需求分析 展示化妆品产品信息提供用户注册和登录功能响应式设计,适配不同设备美观…...
全国产FMC子卡-16bit 8通道2.4G
国产化FMC DA子卡,16bit 8通道2.4GS/s 全国产FMC子卡是一款高分辨率、高采样率的全国产多通道标准双宽DAC FMC子板。其接口电气和结构设计均依据FMC标准(ANSI/VITA 57.1),通过两个高密度FMC连接器(HPC)连接至FPGA载板。它提供8路A…...
