Llama 4全面评测:官方数据亮眼,社区测试显不足之处
引言
2025年4月,Meta正式发布了全新的Llama 4系列模型,这标志着Llama生态系统进入了一个全新的时代。Llama 4不仅是Meta首个原生多模态模型,还采用了混合专家(MoE)架构,并提供了前所未有的上下文长度支持。本文将详细介绍Llama 4的主要特性、技术创新以及社区对这次更新的相关评测结果,帮助您全面了解这一AI领域的重大突破。
Llama 4系列模型概览

Meta此次推出了Llama 4系列的三个主要模型:
-
Llama 4 Scout:拥有17B活跃参数和16个专家,总参数量为109B。它是同类中最佳的多模态模型,可以在单个NVIDIA H100 GPU上运行,并提供业界领先的1000万token上下文窗口。
-
Llama 4 Maverick:拥有17B活跃参数和128个专家,总参数量为400B。它在多项广泛报告的基准测试中击败了GPT-4o和Gemini 2.0 Flash,同时在推理和编码方面与新的DeepSeek v3取得了相当的结果,但活跃参数不到后者的一半。
-
Llama 4 Behemoth:拥有288B活跃参数和16个专家,总参数量接近2万亿。作为Meta最强大的LLM,它在多项STEM基准测试中优于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。目前该模型仍在训练中,尚未公开发布。
值得注意的是,虽然Llama 4 Maverick的总参数量为400B,但在处理每个token时,实际参与计算的"活跃参数"始终是17B。这大大降低了推理和训练的延迟。
技术创新与突破
混合专家(MoE)架构:效率与性能的完美平衡

Llama 4是Meta首次使用混合专家(MoE)架构的模型。在MoE模型中,单个token只激活总参数的一小部分。这种架构在训练和推理方面更加计算高效,与固定训练FLOP预算相比,能够提供更高的质量。
例如,Llama 4 Maverick模型有17B活跃参数和400B总参数。它使用交替的密集层和混合专家(MoE)层来提高推理效率。MoE层使用128个路由专家和一个共享专家。每个token都会被发送到共享专家和128个路由专家中的一个。因此,虽然所有参数都存储在内存中,但在提供这些模型服务时,只有一部分总参数被激活。
原生多模态能力:视觉与文本的无缝融合
Llama 4模型设计具有原生多模态性,通过早期融合将文本和视觉token无缝集成到统一的模型主干中。早期融合是一个重大进步,因为它使模型能够用大量未标记的文本、图像和视频数据联合预训练。
这些模型在各种图像和视频帧上进行了训练,以提供广泛的视觉理解能力,包括时间活动和相关图像。这使得模型能够轻松处理多图像输入和文本提示,用于视觉推理和理解任务。模型在预训练阶段支持多达48张图像,并在后训练阶段测试中显示出良好的结果,最多支持8张图像。
超长上下文支持:突破性的1000万token容量
Llama 4 Scout将支持的上下文长度从Llama 3的128K大幅增加到业界领先的1000万token。这开启了许多可能性,包括:
- 多文档摘要生成
- 解析大量用户活动进行个性化任务
- 对庞大代码库的深度推理
- 长文本理解与分析
技术实现:Llama 4 Scout在预训练和后训练阶段都使用了256K上下文长度,这使基础模型具备了先进的长度泛化能力。Llama 4架构的一个关键创新是使用交替注意力层(无位置嵌入)。此外,还采用了推理时间注意力温度缩放来增强长度泛化。这种架构被称为iRoPE,其中"i"代表"交替"注意力层,突出了支持"无限"上下文长度的长期目标,而"RoPE"指的是大多数层中使用的旋转位置嵌入。
训练方法与优化
预训练创新:MetaP超参数设置技术
Meta开发了一种新的训练技术,称为MetaP,它允许可靠地设置关键模型超参数,如每层学习率和初始化比例。这些超参数在不同的批量大小、模型宽度、深度和训练token上都能很好地迁移。
Llama 4通过在200种语言上进行预训练来支持开源微调工作,其中超过100种语言的token超过10亿个,总体上比Llama 3多10倍的多语言token。
此外,Meta还专注于高效的模型训练,使用FP8精度,同时不牺牲质量并确保高模型FLOP利用率。在使用FP8和32K GPU预训练Llama 4 Behemoth模型时,每个GPU达到了390 TFLOP。总体数据混合训练包含超过30万亿个token,是Llama 3预训练混合的两倍多,包括多样化的文本、图像和视频数据集。
后训练优化:创新的三阶段训练流程
Meta为Llama 4 Maverick模型采用了全新的后训练流程:
- 轻量级监督微调(SFT)
- 在线强化学习(RL)
- 轻量级直接偏好优化(DPO)
关键发现:SFT和DPO可能会过度约束模型,限制在线RL阶段的探索,导致次优精度,特别是在推理、编码和数学领域。
解决方案:Meta通过使用Llama模型作为评判标准,移除了超过50%被标记为"简单"的数据,并对剩余的更难数据集进行轻量级SFT。在随后的多模态在线RL阶段,通过仔细选择更难的提示,实现了性能的大幅提升。
模型评测与性能对比
Llama 4系列官方评测结果
从Meta官方给出的评测结果可以看出,Llama 4 Maverick主要是全面对标GPT-4o和Gemini 2.0 Flash,同时作为开源模型,也与DeepSeek v3进行了对比。

而Llama 4 Scout则主要对标轻量级的模型,比如Gemma 3、Gemini 2.0 Flash-Lite等。

尚未发布的最强模型Llama 4 Behemoth,从数据上显著优于Claude 3.7 Sonnet和Gemini 2.0 Pro。

社区独立评测结果
官方评测自然只是一家之言,社区评测则更为客观。以下是来自LMArena的评测结果,可以看到,Llama 4 Maverick仅次于Google刚发布不久的Gemini-2.5-Pro,位居第二。

编码能力与Agent能力评测
对于AI研究者和开发者来说,编码能力和Agent能力是评判大语言模型实用性的重要指标。
编码能力评测:从Aider Polyglot leaderboard的结果来看,即使是Llama 4 Maverick,在编码能力上也排名相当靠后,基本就是DeepSeeK V2.5的水平,这与预期有一定差距。

Agent能力评测:在huggingface agent leaderboard中,Llama 4 Maverick甚至连前20都排不进去。不仅与商业模型相比有差距,就是与开源的Qwen和DeepSeek相比,也略显不足,甚至不如自家上一代的Llama-3.3,这一点令人意外。

这两项特别关键的评测中,Llama 4的表现都不尽如人意,期待官方之后能继续优化或对测试结果做出合理解释。
总结
总体来说,Llama 4系列模型在技术上实现了多项创新:
- 首次采用MoE架构,大幅提升计算效率
- 原生多模态能力,实现文本与视觉的深度融合
- 突破性的1000万token超长上下文支持
- 创新的训练方法与优化技术
然而,在实际社区评测中,特别是在编码能力和Agent能力方面,Llama 4系列的表现还有待提高。作为Meta新一代的开源模型,Llama 4理应在各方面取得更好的评测结果,但目前看来,距离预期还有一定差距。
应用前景:作为问答模型,Llama 4表现尚可,但作为智能体的大脑,还需进一步优化。目前的表现似乎更适合考试场景,而非实战应用,暂时还未能进入我的AI智能体大脑候选列表。
相关文章:
Llama 4全面评测:官方数据亮眼,社区测试显不足之处
引言 2025年4月,Meta正式发布了全新的Llama 4系列模型,这标志着Llama生态系统进入了一个全新的时代。Llama 4不仅是Meta首个原生多模态模型,还采用了混合专家(MoE)架构,并提供了前所未有的上下文长度支持。本文将详细介绍Llama 4…...
【C++】函数直接返回bool值和返回bool变量差异
函数直接返回bool值和返回bool变量差异 背景 在工作中遇到一个比较诡异的问题,场景是给业务方提供的SDK有一个获取状态的函数GetStatus,函数的返回值类型是bool,在测试过程中发现,SDK返回的是false,但是业务方拿到的…...
游戏盾IP可以被破解吗
游戏盾IP(如上海云盾SDK、腾讯云游戏盾)是专为游戏行业设计的高防服务,旨在抵御DDoS攻击、CC攻击等威胁。其安全性取决于技术架构、防护能力以及运维策略。虽然理论上没有绝对“无法破解”的系统,但游戏盾IP在合理…...
第1节:计算机视觉发展简史
计算机视觉与图像分类概述:计算机视觉发展简史 计算机视觉(Computer Vision)作为人工智能领域的重要分支,是一门研究如何使机器"看"的科学,更具体地说,是指用摄影机和计算机代替人眼对目标进行识…...
ARM内核与寄存器
ARM内核与寄存器详解 目录 ARM架构概述ARM处理器模式 Cortex-M3内核的处理器模式Cortex-A系列处理器模式 ARM寄存器集 通用寄存器程序计数器(PC)链接寄存器(LR)堆栈指针(SP)状态寄存器(CPSR/SPSR) 协处理器寄存器NEON和VFP寄存器寄存器使用规范常见ARM指令与寄存器操作 ARM架…...
Hibernate:让对象与数据库无缝对话的全自动ORM框架
一、为什么需要全自动ORM? 在手动编写SQL的时代,开发者需要在Java代码和数据库表之间来回切换: // Java对象 public class User {private Long id;private String name;// getters and setters }// SQL语句 SELECT * FROM user WHERE id ?…...
TDengine 语言连接器(C/C++)
简介 C/C 开发人员可以使用 TDengine 的客户端驱动,即 C/C 连接器(以下都用 TDengine 客户端驱动表示),开发自己的应用来连接 TDengine 集群完成数据存储、查询以及其他功能。TDengine 客户端驱动的 API 类似于 MySQL 的 C API。…...
英伟达Llama-3.1-Nemotron-Ultra-253B-v1语言模型论文快读:FFN Fusion
FFN Fusion: Rethinking Sequential Computation in Large Language Models 代表模型:Llama-3.1-Nemotron-Ultra-253B-v1 1. 摘要 本文介绍了一种名为 FFN Fusion 的架构优化技术,旨在通过识别和利用自然并行化机会来减少大型语言模型(LLM…...
云曦月末断网考核复现
Web 先看一个BUUCTF中的文件一个上传题 [BUUCTF] 2020新生赛 Upload 打开后是一个文件上传页面 随便上传一个txt一句话木马后出现js弹窗,提示只能上传图片格式文件 说明有前端验证。我的做法是把一句话改为.jpg格式, 然后上传 访问发现虽然上传成功了…...
Flutter常用组件实践
Flutter常用组件实践 1、MaterialApp 和 Center(组件居中)2、Scaffold3、Container(容器)4、BoxDecoration(装饰器)5、Column(纵向布局)及Icon(图标)6、Column/Row(横向/横向布局)+CloseButton/BackButton/IconButton(简单按钮)7、Expanded和Flexible8、Stack和Po…...
MySQL MVCC 机制详解
MySQL MVCC 机制详解 1. MVCC 基本概念 MVCC 是一种并发控制的方法,主要用于数据库管理系统,允许多个事务同时读取数据库中的同一个数据项,而不需要加锁,从而提高了数据库的并发性能。 ┌──────────────────…...
【面试】封装、继承、多态的具象示例 模板编程的理解与应用场景 链表适用的场景
文章目录 C面试:封装、继承、多态的具象示例1. 封装 (Encapsulation)2. 继承 (Inheritance)3. 多态 (Polymorphism)综合示例:封装、继承、多态 C模板编程的理解与应用场景我对模板编程的理解C中最常用的模板编程场景1. STL (标准模板库)2. 通用容器实现3…...
0.机器学习基础
0.人工智能概述: (1)必备三要素: 数据算法计算力 CPU、GPU、TPUGPU和CPU对比: GPU主要适合计算密集型任务;CPU主要适合I/O密集型任务; 【笔试问题】什么类型程序适合在GPU上运行࿱…...
系统与网络安全------网络通信原理(4)
资料整理于网络资料、书本资料、AI,仅供个人学习参考。 网络层解析 IP 网络层概述 位于OSI模型第三层作用 定义网络设备的逻辑地址,俗称网络层地址(如IP地址) 在不同的网段之间选择最佳数据转发路径 协议 IP协议 IP数据包…...
Java基础 4.12
1.方法的重载(OverLoad) 基本介绍 Java中允许同一个类,多个同名方法的存在,但要求形参列表不一致! 如 System.out.println(); out是PrintStream类型 重载的好处 减轻了起名的麻烦减轻了记名的麻烦 2.重载的快速入…...
XILINX DDR3专题---(1)IP核时钟框架介绍
1.什么是Reference Clock,这个时钟一定是200MHz吗? 2.为什么APP_DATA是128bit,怎么算出来的? 3.APP :MEM的比值一定是1:4吗? 4.NO BUFFER是什么意思? 5.什么情况下Reference Clock的时钟源可…...
clickhouse注入手法总结
clickhouse 遇到一题clickhouse注入相关的,没有见过,于是来学习clickhouse的使用,并总结相关注入手法。 环境搭建 直接在docker运行 docker pull clickhouse/clickhouse-server docker run -d --name some-clickhouse-server --ulimit n…...
React 组件样式
在这里插入图片描述 分为行内和css文件控制 行内 通过CSS中类名文件控制...
利用 pyecharts 实现地图的数据可视化——第七次人口普查数据的2d、3d展示(关键词:2d 、3d 、map、 geo、涟漪点)
参考文档:链接: link_pyecharts 官方文档 1、map() 传入省份全称,date_pair 是列表套列表 [ [ ],[ ] … ] 2、geo() 传入省份简称,date_pair 是列表套元组 [ ( ),( ) … ] 1、准备数据 population_data:简称经纬度 population_da…...
解决 Elasticsearch 分页查询性能瓶颈——从10分钟到秒级的优化实践
大家好,我是铭毅天下,一名专注于 Elasticsearch (以下简称ES)技术栈的技术爱好者。 今天我们来聊聊球友提出的一个实际问题: ES分页查询性能很差,使用from/size方式检索居然需要10分钟! 这是一个…...
记录IBM服务器检测到备份GPT损坏警告排查解决过程
服务器设备:IBM x3550 M4 Server IMM默认IP地址:192.168.70.125 用户名:USERID 密码:PASSW0RD(注意是零0) 操作系统:Windows Hyper-V Server 2016 IMM Web System Status Warning࿱…...
毫米波测试套装速递!高效赋能5G/6G、新材料及智能超表面(RIS)研发
德思特(Tesight)作为全球领先的测试测量解决方案提供商,始终致力于为前沿技术研发提供高精度、高效率的测试工具。 针对毫米波技术在高频通信、智能超表面(RIS)、新材料等领域的快速应用需求,我们推出毫米…...
Linux中卸载宝塔面板
输入命令 wget http://download.bt.cn/install/bt-uninstall.sh 执行脚本命令 sh bt-uninstall.sh 根据自己的情况选择1还是2 卸载完成校验 bt 这样我们的宝塔面板就卸载完了...
无人机的振动与噪声控制技术!
一、振动控制技术要点 1. 振动源分析 气动振动:旋翼桨叶涡脱落(如叶尖涡干涉)、动态失速(Dynamic Stall)引发的周期性气动激振力(频率与转速相关)。 机械振动:电机偏心、传动轴不…...
Linux(CentOS10) gcc编译
本例子摘自《鸟哥的linux私房菜-基础学习第四版》 21.3 用make进行宏编译 书中的代码在本机器(版本见下)编译出错,改正代码后发布此文章: #kernel version: rootlocalhost:~/testmake# uname -a Linux localhost 6.12.0-65.el10.x86_64 #1…...
【蓝桥杯】第十六届蓝桥杯 JAVA B组记录
试题 A: 逃离高塔 很简单,签到题,但是需要注意精度,用int会有溢出风险 答案:202 package lanqiao.t1;import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWrit…...
OSPF的接口网络类型【复习篇】
OSPF在不同网络环境下默认的不同工作方式 [a3]display ospf interface g 0/0/0 # 查看ospf接口的网络类型网络类型OSPF接口的网络类型(工作方式)计时器BMA(以太网)broadcast ,需要DR/BDR的选举hello:10s…...
微信小程序运行机制详解
微信小程序运行机制详解 微信小程序是介于 Web 和原生 App 之间的一种应用形态,具有无需安装、用完即走、体验流畅的特点。本文将从架构层面、运行环境、通信机制等方面深入剖析微信小程序的运行机制。 一、小程序运行架构概览 微信小程序采用双线程模型ÿ…...
python+requests接口自动化测试框架实例教程
🍅 点击文末小卡片 ,免费获取软件测试全套资料,资料在手,涨薪更快 前段时间由于公司测试方向的转型,由原来的web页面功能测试转变成接口测试,之前大多都是手工进行,利用postman和jmeter进行…...
2021第十二届蓝桥杯大赛软件赛省赛C/C++ 大学 B 组
记录刷题的过程、感悟、题解。 希望能帮到,那些与我一同前行的,来自远方的朋友😉 大纲: 1、空间-(题解)-字节单位转换 2、卡片-(题解)-可以不用当组合来写,思维题 3、直…...
