当前位置：首页 > article >正文

Meta羊驼LLaMA的崛起与争议：开源AI的史诗级故事

article 2026/3/18 9:04:49

本文相对于 DeepSeek 那一版要简单一些相关知识涉猎不多故事性要更强一些。只当这篇文章是一个乐子去看也是极佳。正文约 14000 字精读约 36 分钟建议收藏再看避免迷路~根据 0/3/1 的高票选择我们这一期不妨聊聊有关 Meta 的 Llama 吧。OPT在讲 LLaMA 之前我们得先提一个名字OPT。2022 年 5 月Meta 发布了 OPTOpen Pre-trained Transformer一个包含 125M 到 175B 参数的模型系列。OPT 是当时最具代表性的开放权重大模型之一并以较高透明度披露了训练过程与问题复盘。在不少基准上OPT 展现出了接近 GPT-3 的水平但训练碳足迹只有 GPT-3 的七分之一。OPT 更像是一次预演一方面让 Meta 积累了大规模模型训练与发布经验另一方面也让外界第一次认真看到了 Meta 在开放权重上的野心。真正的变革要等到 LLaMA。羊驼的诞生一场意外改变了开源 AI 的命运。LLaMA 的首秀更像是一场闹剧。2023 年 2 月 24 日Meta 正式发布了 LLaMA。这时候的 LLaMa 显得格外神秘因为它有个限制模型只对学术研究者开放需要申请、签署许可协议才能下载并非完全开源。但是 Meta 低估了网络的力量。2023 年 3 月 3 日仅仅一周后4chan 用户 “llamanon” 发布了 LLaMA 模型权重的种子文件约 219GB包含 7B 和 65B 版本。下载量迅速破千。Reddit 的 r/MachineLearning 板块、Twitter、各种 Discord 群组到处都是同一个消息“LLaMA 泄露了”几个小时内这个消息传遍全球。AI 研究者们兴奋地从 BitTorrent 下载、测试、微调。从公开层面来看Meta 并未就此次泄露发表高调回应但行动却十分迅速大量 GitHub 仓库很快收到了 DMCA 通知Hugging Face 上的相关仓库也大多被下架仅有部分得以保留。对于此次泄露的原因外界众说纷纭但无论真相如何既定事实已然无法改变。开源 AI 的潘多拉魔盒就此被彻底打开。Alpaca羊驼家族的第一个孩子泄露事件还带来了一个意外的副产品。2023 年 3 月距离 LLaMA 发布仅一个月Stanford 发布了 Alpaca-7B它是最早引发广泛关注的 LLaMA 指令微调模型之一。Alpaca 的故事很有意思。斯坦福的研究者们用 OpenAI 的 GPT-3.5 生成了 52,000 条指令数据然后用这些数据对 LLaMA-7B 进行微调。微调成本大约在 600 美元量级。Alpaca 通过较低成本的指令微调展示了惊人的实用性但其评估范围有限不能简单概括为全面接近 GPT-3.5。尽管如此它证明了一件事一个只有 70 亿参数、微调成本不到千元的模型也能在特定场景下展现出强大的能力。斯坦福本身没有直接上传模型权重毕竟 LLaMA 的许可证还在但随后社区很快就出现了多个可直接使用的非官方版本。Alpaca 证明了一件事微调比预训练更容易普及。你不需要数亿美元的算力不需要 PB 级的数据只需要几千条高质量的指令数据就能让一个基础模型变得会说人话。这为后来的 Vicuna、WizardLM、OpenChat 等一系列微调模型铺平了道路。LLaMA 生态的繁荣从 Alpaca 开始。开源 AI 的时代就这样以一种戏剧性的方式拉开了序幕。有时候历史就是这么有趣。初代 LLaMA小而美的哲学小而强的哲学LLaMA 1 的设计哲学很简单用更少的参数达到更好的效果。当时 GPT-3 有 175B 参数而 Meta 的研究团队发现如果在更多高质量数据上训练更久较小的模型也能达到甚至超越大模型的性能。Chinchilla 定律的实践但 LLaMA 真正的秘密武器其实不仅仅是架构的创新更多的是训练策略的改善。2022 年 3 月就在 LLaMA 发布前不到一年DeepMind 发表了一篇论文《Training Compute-Optimal Large Language Models》。这篇论文提出了一个颠覆性的观点当时的大模型都训练不足。在此之前业界的共识是越大越好。GPT-3 有 175B 参数Gopher 有 280BMegatron-Turing NLG 更是达到了 530B。当时很多模型在参数规模不断增大的同时训练数据并没有同步增长因而普遍存在训练不足的问题。DeepMind 的研究者们训练了 400 多个模型烧了一堆算力参数量从 70M 到 16B 不等训练数据从 5B 到 500B tokens。他们发现了一个小规律规律对于给定的计算预算模型参数和训练 tokens 应该同步增长。每当模型参数翻倍训练数据也应该翻倍。更具体地说最优比例大约是 **20:1**即每 1B 参数应该用 20B tokens 来训练。按照这个标准GPT-3175B 参数300B tokens严重训练不足理论上它应该用 3.5T tokens 来训练。为了验证这个理论DeepMind 训练了 Chinchilla一个 70B 参数的模型用了 1.4T tokens是 Gopher 的 4 倍。结果呢Chinchilla 在几乎所有任务上都超越了 Gopher280B、GPT-3175B和 Megatron-Turing NLG530B。Meta 直接奉行拿来主义。LLaMA 65B 在 1.4T tokens 上训练——正好符合 Chinchilla 的 20:1 比例。LLaMA 13B 用了 1T tokensLLaMA 7B 用了 1T tokens稍微过训练了一点但这个就是多多益善没有坏处。Chinchilla 定律不仅改变了 Meta 的策略也影响了整个行业。后来的 Llama 2、Llama 3以及 DeepSeek、Qwen 等中国开源模型都遵循了这个原则用更多的数据训练更高效的模型。在 MMLU、GSM8K、HumanEval 等多个基准上LLaMA 65B 已经展现出与当时顶级模型接近的竞争力而更令人震惊的是13B 版本也在特定任务上压过了 GPT-3 175B。在 2023 年初这个结果已经足够让学术界兴奋了这证明了小而精的路线是可行的。Llama 2拥抱开源走向商用许可证的重大突破。2023 年 7 月Meta 发布了 Llama 2以更宽松、可商用的开放权重许可发布较前代显著降低了产业采用门槛。相比前代Llama 2 的许可显著放宽绝大多数公司都可以在其许可框架下商用但对于超大规模平台Meta 仍设置了额外条款。Llama 2 带来了三个比较重要的升级。更大的训练规模训练数据从 1.4T 提升到 2T tokens上下文长度从 2048 翻倍到 4096。模型规模也调整为 7B、13B 和 70B 三个版本砍掉了 33B 和 65B新增了 70B。Llama 2-Chat对话优化版本这是 Llama 2 最大的亮点。Meta 不仅发布了基础模型Base还发布了经过对话优化的 Chat 版本后来也被称为 Instruct 版本。训练流程采用了经典的三段式预训练Pretraining在 2T tokens 上进行自回归训练监督微调SFT使用数万条高质量监督对话数据进行微调RLHF人类反馈强化学习结合奖励模型与 RLHF 流程进行对话优化其中包括 PPO 等经典做法之后我一定把强化学习这个坑给补上目前暂时继续一笔带过 (⊙﹏⊙) Meta 用的 RLHF 奖励函数设计很有意思。与 InstructGPT 很像它训练了两个独立的奖励模型Helpfulness RM评估回答是否有用Safety RM评估回答是否安全最终的奖励是两者的加权组合GQAGrouped-Query Attention在 Llama 2 的 70B 版本中Meta 引入了 GQA以兼顾性能与推理效率。传统的 Multi-Head Attention (MHA) 中每个头都有独立的 Key 和 Value虽然说这么强但是坏就坏在耗费算力而 Multi-Query Attention (MQA) 则是所有头共享一组 K/V这个就是有点弱了GQA 是两者的折中把多个头分组每组共享 K/V比如 Llama 2 70B 有 64 个注意力头但只有 8 组 K/V每 8 个头共享一组。这样既保持了表达能力又大幅减少了 KV Cache 的显存占用。成绩Llama 2 70B 的表现MMLU5-shot68.9%GSM8K8-shot56.8%HumanEval0-shot29.9%更重要的是在 Meta 公布的人类偏好评测里Llama 2-Chat 已经表现出与当时主流闭源聊天模型竞争的能力。开源社区彻底沸腾各种基于 Llama 2 的微调模型层出不穷。Code Llama代码专家程序员的福音。2023 年 8 月Meta 趁热打铁发布了 Code Llama。这是基于 Llama 2 继续在代码数据上训练的专业版本。Code Llama 有三个变体Code Llama在 Llama 2 的基础上又使用大规模代码数据进行了进一步训练。支持 Python、C、Java、PHP、C#、TypeScript、Bash 等主流语言。Code Llama - Python在基础版之上再用 100B tokens 的纯 Python 代码进行训练。Code Llama - Instruct经过指令微调更擅长理解自然语言描述并生成代码。长上下文支持Code Llama 针对长上下文代码任务做了增强官方重点规格通常写为 16K而论文也讨论了更长上下文下的泛化能力。这意味着你可以把较大的代码文件塞进去让模型理解项目结构。Infilling 能力Code Llama 支持代码填充Fill-in-the-Middle这对 IDE 自动补全至关重要。训练时数据集构造使用了特殊的 tokenPRE {prefix code} SUF {suffix code} MID {middle code}模型学会了根据前后文生成中间的代码这对于自回归模型来说十分巧妙通过自回归的方式拟合出类似双向注意力的效果。成绩Code Llama 34B 在 HumanEval 上达到了48.8%0-shot这在当时的开源代码模型里已经是非常亮眼的成绩。对于开源社区来说这是一个里程碑。终于有了一个可以本地部署、性能还不错的代码助手。当然Meta 的野心不止于此趁热打铁他们进一步提出了Llama 3终于羊驼要和 GPT-4 掰手腕了。2024 年 4 月Meta 发布了 Llama 3这次升级堪称脱胎换骨。训练规模Llama 3 在15T tokens上进行训练是 Llama 2 的 7.5 倍。更重要的是Meta 对训练数据进行了极其严格的清洗和筛选让 Llama 3 宝子吃的比较好避免被垃圾信息带跑了。新的 TokenizerLlama 3 使用了全新的 tokenizer词表大小从 32K 扩展到128K。这带来了两个直接好处对多语言尤其是中文的支持更好编码效率更高举个例子同样一段中文Llama 2 可能需要 100 个 tokenLlama 3 只需要 60 个。这意味着更长的有效上下文。上下文长度扩展首发的 Llama 3 提供 8K 上下文到 Llama 3.1Meta 将上下文窗口扩展到 128K。这是通过改进的 RoPE 实现的具体来说是使用了RoPE Scaling。传统 RoPE 的旋转频率是固定的外推到长序列时会出现性能下降。首发的 Llama 3 提供 8K 上下文到 Llama 3.1Meta 再通过长上下文训练与 RoPE 相关扩展手段把窗口进一步推到了 128K其中是缩放因子根据序列长度动态调整。GQA 的全面应用Llama 3 8B 和 70B 都使用了 GQA。以 Llama 3 8B 为例注意力头数32KV 头数8每 4 个 Query 头共享 1 组 KV这使得推理时的显存占用大幅降低吞吐量提升。成绩Llama 3 首发的 8B 和 70B 两个版本相比 Llama 2 有了非常明显的代际提升尤其是 70B已经重新把 Meta 拉回开源第一梯队。更夸张的是Llama 3 8B 在部分基准上的表现已经逼近甚至超过了上一代的大模型。这证明了数据质量和训练方法的重要性。Llama 3.1405B 巨兽登场开源模型的新纪元。2024 年 7 月Meta 放出了一个核弹级的消息Llama 3.1 405B。这是第一个参数量达到4000 亿级别的开源稠密型模型直接对标 GPT-4 和 Claude 3.5。顺便说一嘴这并不是第一个参数量达到4000 亿级别的开源模型。昆仑万维在2024 年 4 月就发布了 4000 亿参数的 MoE 模型「天工 3.0」并开源训练细节Llama 3.1 405B 在15.6T tokens上训练405B 的训练规模已经到了只有少数头部公司才负担得起的程度。为了训练这么大的模型Meta 使用了多种并行策略数据并行DP不同 GPU 处理不同的数据批次张量并行TP单个 Transformer 层切分到多个 GPU流水线并行PP不同层分配到不同 GPU序列并行SP长序列切分处理并行就是好直接超级加速。128K 上下文Llama 3.1 全系列8B、70B、405B都支持 128K tokens 的上下文长度这一能力主要依靠多项关键技术共同实现。模型采用了RoPE频率缩放来动态调整旋转频率同时通过分阶段训练的方式先在短序列上完成基础训练再逐步延长上下文长度进行优化还专门收集和生成了长文档数据用高质量的长上下文数据进一步提升模型对超长文本的理解与建模能力。多语言支持Llama 3.1 正式支持 8 种语言英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。虽然没有官方支持中文但实际测试表明Llama 3.1 的中文能力也还行得益于新的 tokenizer 和大规模训练数据。工具调用Tool UseLlama 3.1 内置了工具调用能力在这里开一个新坑LLM Scaffolding有机会写一写有关这个的文章。模型通过特殊的训练数据学会了输出结构化的工具调用请求{ role: assistant, content: null, tool_calls: [{ name: web_search, arguments: {query: latest AI news} }]}模型学会了在需要时输出结构化的工具调用请求。成绩Meta 官网上 Llama 3.1 405B 的表现十分不错基准测试 (设置)Llama 3.1 405BMMLU (0-shot, CoT)88.6MMLU PRO (5-shot, CoT)73.3IFEval88.6HumanEval (0-shot)89.0GSM8K (8-shot, CoT)96.8MATH (0-shot, CoT)73.8ARC Challenge (0-shot)96.9所以说至少在若干标准基准上Llama 3.1 405B 已经具备了与 GPT-4 早期公开成绩正面叫板的资格。更重要的是Meta 宣布 Llama 3.1 405B 可以用于合成数据生成和模型蒸馏。这意味着你可以用 405B 生成训练数据然后训练自己的小模型。开源社区再次沸腾。终于我们有了一个可以和闭源巨头正面刚的开源模型。Llama 3.2多模态的尝试羊驼学会看图了。2024 年 9 月Meta 发布了 Llama 3.2这次的重点是多模态和轻量化。视觉理解能力Llama 3.2 11B 和 90B 是多模态版本可以理解图像。架构上采用了经典的视觉编码器语言模型方案图像编码器使用预训练的 Vision TransformerViT适配器层将视觉特征映射到语言模型的嵌入空间语言模型Llama 3.1 的 Transformer训练分为两个阶段预训练在大规模图文对上训练适配器与微调在高质量的视觉问答数据上微调。轻量化模型Llama 3.2 1B 和 3B 是专门为边缘设备设计的轻量级模型。轻量版本明显带有蒸馏路线的色彩目标就是把更强模型的能力下放到端侧。成绩在多模态理解基准上Llama 3.2 的视觉版本进入了当时第一梯队但距离最强的闭源多模态模型仍有差距。Llama 3.2 3B 虽然只有 30 亿参数但在某些任务上的表现已经接近 Llama 2 7B。Llama 4多模态的全面进化2025 年 4 月羊驼家族迎来了第四代。Llama 4 是 Meta 在 2025 年 4 月发布的最新一代模型包含多个规模的变体从轻量级的 Scout 系列到旗舰级的 Maverick 系列。Llama 4 Herd羊驼群Meta 这次玩了个概念叫 “Herd”群包含Scout 系列侦察兵轻量级模型适合边缘部署Maverick 系列独行侠中等规模平衡性能与效率还有一个巨无霸叫做Behemoth2T 模型参数和 288B 激活参数16 个专家是最大号的 Llama 4 模型在多个测试中超过了 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro 。Behemoth 也可以当作小模型的教师模型来进行模型蒸馏。Llama 4 系列主打原生多模态能力可以理解文本、图像等多种输入。根据 Meta 官方发布的数据和社区测试Llama 4 Maverick 在多个基准测试上表现出色。刷榜但是事情并没有那么简单。Llama 4 发布后不到 24 小时Meta 很快就陷入了榜单版本与开源版本不一致的争议。事件经过2025 年 4 月 5 日Meta 发布 Llama 4并在官方博客中宣称 Llama 4 Maverick 在 LMArena一个流行的 AI 模型对战平台上一度拿到了非常靠前的名次。LMArena 的机制很简单用户输入问题两个匿名模型同时回答用户投票选出更好的那个。这是一个基于人类偏好的排行榜很难作弊——理论上。但很快眼尖的研究者发现了问题Meta 提交到 LMArena 的模型和开源发布的权重不一样。具体来说LMArena 上的模型叫Llama-4-Maverick-03-26-Experimental开源的模型叫Llama-4-Maverick两者的输出质量有明显差异有人用开源权重在本地测试发现性能远不如 LMArena 上的版本。社区开始质疑Meta 是不是专门训练了一个考试专用版来刷榜Meta 的回应面对质疑Meta 最初的回应是“我们在做实验提交了多个版本。”但这个解释显然不够。如果你宣传的是开源模型的性能却用一个不开源的版本去刷榜极不严谨。更糟糕的是社区质疑 Meta 在对外展示性能时使用了与最终公开权重并不完全一致的版本这也是争议最核心的部分。事情做得的确有点不太地道。官方回应面对质疑Meta 最初的回应是在做实验提交了多个版本。但是据《金融时报》2026 年 1 月采访中的说法Yann LeCun 曾用 “fudged a little bit” 形容 Meta 在结果展示上的做法。https://www.ft.com/content/e3c4c2f6-4ea7-4adf-b945-e58495f836c2“结果被做了一点手脚Results were fudged a little bit。”这倒不是对外界所有指控逐条认罪毕竟也没有办法排除 LeCun 在说气话但放在 Llama 4 榜单风波的语境里已经足够让 Meta 显得非常被动。后果风波之后LMArena 的管理员重新测试了开源的 Llama 4 Maverick 权重结果排名变这么弱刷榜版本1417 分排名第 2开源版本1320 分左右明显低于 Meta 最初对外展示的成绩。为什么 Meta 要这么做这是一个很有意思的问题。Meta 不缺钱也不缺技术为什么要冒着声誉受损的风险去使用两套参数没人知道。也许是竞争压力——2025 年初 DeepSeek R1 的横空出世让 Meta 感到了威胁。也许是内部考核的压力——AI 团队需要拿出漂亮的数字。也许就是天天熬夜没睡醒结果一个不小心上传错误的模型版本了。那就太不小心了但无论原因是什么结果都是一样的Meta 失去了社区的信任元气大伤。这次事件对 Meta 和整个开源 AI 社区都是一次打击。最直接的后果是信任危机。以后 Meta 发布的 benchmark 结果还有多少人会相信这也算是一次让公众定量地意识到Benchmark 并非万能。单纯追求分数只会导致过拟合与投机取巧真正核心的是模型在实际场景中的落地表现。一个在 LMArena 上排名第二、实际能力却只算中上游的模型对用户而言毫无价值。虽然但是这次事件反而证明了社区监督的力量。正是因为开源社区才能发现问题并追责。讽刺的是如果 Llama 4 是闭源的我们永远不会知道 Meta 在刷榜。从这个角度看开源的价值得到了另一种形式的证明。开源的力量从 1 到 4为什么 Meta 坚持开源说回正题。这是一个很多人都好奇的问题。Meta 花费数亿美元训练这些模型为什么要免费开放给全世界扎克伯格在 Llama 3.1 发布时的公开信中阐释了其开源哲学一是打破AI垄断避免少数公司锁定行业、收取高价二是借助开源社区加速创新Llama 发布后已收获数千个社区贡献的微调版本与工具三是通过全球研究者审查提升模型安全性避免闭源隐患四是贴合自身商业利益Meta 核心业务为社交媒体开源可吸引开发者、降低成本还能推动 Llama 成为行业标准掌握规则制定权。同时 Llama 的开源带来了一个庞大的生态系统微调工具Axolotl、LLaMA-Factory、Unsloth量化工具GPTQ、AWQ、GGUF部署框架vLLM、TGI、Ollama微调模型Vicuna、WizardLM、OpenChat、Nous-Hermes围绕 Llama 兴起的开源模型热潮也显著推动了 vLLM、Ollama、量化工具链和微调框架的普及反过来这些工具又进一步放大了 Llama 生态的影响力。开源的另一面但 Llama 的开源之路并非一帆风顺围绕其开源策略的争议从未停止。Llama 系列并未采用 MIT、Apache 等传统开源许可而是使用 Meta 自定义的授权协议对商业用途、模型分发、安全报告等均有明确约束。不少开发者认为这类限制与开源的开放精神不符更适合被称作 “有限制的权重开放”而非真正意义上的开源。当然从 Meta 的角度出发这种做法并非不可理解。但这也恰恰凸显出 DeepSeek、Qwen 等国产自研开源模型的重要价值只有构建更加多元的生态采用 Apache-2.0 这类更开放的许可协议才能有效降低对单一技术主体的依赖风险。技术细节Llama 的创新故事那就到此结束了接下来我们来深入聊聊一些技术细节。虽然 Llama 的架构基本遵循标准的 Transformer但在细节上有很多巧妙的设计。GQA正如前文所言Llama 使用的 Grouped-Query Attention 是一个精妙的平衡。我们来看看为什么在标准的 MHA 中KV Cache 的大小会随着层数、KV 头数、head 维度与上下文长度线性增长。对于几十B到70B级别的大模型而言即便只考虑单请求KV Cache 也会迅速膨胀到非常夸张的规模。如果要支持批处理显存压力会更大。使用 GQA通过让多个 Query 头共享一组 KV可以显著减少 KV Cache 的显存占用通常能减少 80% 以上而性能几乎没有损失。这就是 GQA 的意义所在。RoPERoPERotary Position Embedding是 Llama 使用的位置编码方案。它的核心思想是将位置信息编码为旋转对于位置的 query 和位置的 key它们的内积是其中是旋转矩阵。这意味着注意力分数只依赖于相对位置而不是绝对位置。更好的是RoPE 可以外推到训练时没见过的长度。如果训练时最长是 4K推理时可以扩展到 8K、16K甚至更长虽然会有性能下降。当然当代大模型的超级上下文例如 1M 长度会涉及到更多小技巧例如 YaRN 等。SwiGLUSwiGLU 是 LLaMA 使用的激活形式它比传统的 ReLU 或 GELU 更强。LLaMA 实际采用的是去掉 bias 的实现。标准的 FFN 为而 LLaMA 中的 SwiGLU 前馈层可写为其中因此SwiGLU 可以理解为一种带门控机制的前馈层变体。这个设计有两个好处门控机制充当门控决定哪些信息通过更强的非线性Swish 比 ReLU 更平滑梯度流动更好在多个 scale 下的 Transformer 实验表明使用 SwiGLU 可以提升 1-2% 的性能虽然计算量增加了约 50%因为多了一个矩阵乘法但这个代价是值得的毕竟在平方复杂度的语境下线性增长不算特别重要。训练稳定性的调整训练大模型最大的挑战是稳定性。Llama 使用了几个关键技术Pre-Norm RMSNormPre-Norm 让梯度流动更顺畅RMSNorm 比 LayerNorm 更简单不需要计算均值和方差只需要计算 RMS均方根梯度裁剪Llama 使用全局梯度裁剪防止梯度爆炸学习率调度Llama 使用 Cosine 学习率调度带有 Warmup这些技术的组合让 Llama 可以稳定地训练到数万亿 tokens。Llama vs 群雄羊驼在江湖中的地位如何让我们看看 Llama 和其他主流模型的对比。若按 Meta 与部分第三方公开评测口径Llama 3.1 405B 在若干标准基准上已经逼近甚至超过 GPT-4 的早期公开成绩但由于测试设定并不完全一致这类横向比较更适合看趋势不宜当作严格结论。Llama 3.1 405B 在 2024 年确实达到了开源模型的巅峰。但这是 Llama 的巅峰时刻之后就开始走下坡路了。那么 Llama 4 又是怎么样的呢不同来源下的公开成绩概览口径不完全一致仅供趋势参考Model模型全称发布时间参数规格完整参数/激活参数MMLU知识理解GSM8K基础数学推理HumanEval代码能力MATH高阶数学推理信源说明Llama4 MaverickMeta官方25.04.05~400B / 17B85.5-77.6-Meta Llama AI官方文档、YourGPT LLM LeaderboardLlama4 Maverick社区测试25.04.05~400B / 17B82-8588-9070-7555-60Hugging Face社区、大模型竞技场非官方定制版Llama3.3 70BMeta官方24.12.0670B / 70B全激活86.0-88.477.0Meta Llama AI官方文档、Azure AI FoundryLlama3.3 70B社区测试24.12.0670B / 70B全激活85-8785-9284-8745-52Hugging Face社区、DataLearner评测DeepSeek-R1深度求索官方25.01.20671B / 37B-97.888.484.3DeepSeek官方技术报告、Consensus Labs评测DeepSeek-R1社区测试25.01.20671B / 37B88-9090-9378-8282-85Consensus Labs社区、GitHub开源测试组Qwen2.5 72B阿里通义千问官方24.09.1972B / -86.189.564.683.1Qwen官方技术报告、CSDN大模型评测Qwen2.5 72B社区测试24.09.1972B / -85-8788-9187-8982-84OpenCompass社区、CSDN开发者测试、开源社区实测[4]Llama4 ScoutMeta官方25.04.05~109B / 17B74.3---Meta Llama AI官方文档、YourGPT LLM LeaderboardLlama4 Scout社区测试25.04.05~109B / 17B72-7580-8468-7350-55Hugging Face社区、大模型竞技场、开源开发者实测[3]Qwen2 57B-A14B社区测试24.06.0757B / 14B80-8385-8875-7870-73Qwen开源社区、GitHub开发者测试组DeepSeek-V3社区测试24.12.26671B / 37B89-9192-9485-8886-88DeepSeek开源社区、KCORES基准测试组这个表格排版…凑合看一下吧。补充说明Llama 4 Maverick 官方未发布分数的项目标注为“-”社区测试数据为开源社区综合实测结果存在小幅波动以范围呈现DeepSeek-R1 的 MATH-500 专项分数为97.3%官方社区测试未单独测该项标准 MATH 分数与官方接近Llama4系列社区测试需注意区分官方定制版与开源通用版本表社区数据均为开源通用版实测所有社区数据均来自主流开源社区、开发者实测与官方数据形成对比参考。由于实现不一样所以区间为作者根据若干公开社区测试结果整理不代表统一评测平台的官方统计。这张表展示了一个尴尬的事实Llama 4 Maverick 的实际开源版本在性能上并没有明显优势而其他一众模型不仅性能强劲训练成本还极低例如来源于 DeepSeek-V3 的 DeepSeek-R1只用了约 29.4 万美元而其基底模型 V3 也仅仅投入了约 600 万美元而 Llama 4 Maverick 最保守训练成本约为 500 万美元。更重要的是Llama 4 在发布后就陷入了沉寂而竞争对手们还在持续迭代。Afterword羊驼的故事或许已经不再是主角。从 2023 年 2 月的 Llama 1到 2025 年的沉寂Llama 的故事充满了戏剧性。Llama 的黄金时代2023-2024 年Llama 确实是开源 AI 的旗帜Llama 2 让开源模型第一次有了商用的可能Llama 3.1 405B 证明了开源可以和 GPT-4 正面竞争围绕 Llama 建立的生态系统vLLM、Ollama、各种微调工具成为了行业标准但时代变了。群雄并起Llama 不再辉煌。2025 年开源 AI 的格局已经彻底改变Llama 4 发布后2025 年 4 月Meta 已经几个月没有新动作了。而 DeepSeek 在 2025 年 1 月发布了 R1开创了开源推理模型的新纪元后来又迭代出了 v3.1、v3.2 等模型。Qwen 迭代速度也很迅速从 2.5 到 2025 年 4 月 28 日的 Qwen3 到 2025 年 9 月 10 日 Qwen3-Next 再到 2026 年 2 月 16 日的 Qwen3.5。Llama 似乎淡出了人们的视野。OpenAI 在2025 年 8 月 5 日冒了个泡发了俩开源模型 GPT-OSS-20B 和 GPT-OSS-120B但是吧个人认为本身模型能力就不在开源第一梯队而且其过度依赖 OpenAI 品牌造势不好评价。Llama 证明了什么但是回头看Llama 的历史意义不在于它现在有多 SOTA而在于它开创了一个时代。在 Llama 之前没人相信开源模型能和闭源竞争。Llama 用实际行动证明了开源的可行性让整个 LLM 行业看到了另一条路。Llama 的架构和工具链成为了事实标准后来者都在此基础上改进——vLLM、Ollama、各种微调工具都是围绕 Llama 生态建立起来的。更重要的是Meta 的开源策略也加剧了行业竞争推动了模型价格下探与大众化。为什么 Llama 掉队了这是一个值得深思的问题。Meta 不缺钱、不缺人才、不缺算力为什么会被超越也许是战略摇摆——Meta 在 AI 和元宇宙还有各种前沿领域之间摇摆不定投入不够坚决。也许是组织问题——Llama 4 刷榜事件暴露了内部管理的混乱LeCunn 的出走就是最好佐证。又或者只是对手实在太强DeepSeek 的 MoEMLA 架构、Qwen 的多模态能力都是实打实的技术创新但说到底这些都只是表象。真正的原因可能更简单开源的力量本就不应该被任何一家公司垄断。不那么完美的结局扎克伯格新成立的 MSL 团队并未明确下一代模型是否沿用 Llama 这个产品名存在品牌重塑的可能性或许会以新名称推出而非 Llama 5。所以 Llama 这个名字的故事或许不会有一个完美的结局。它不会像 GPT 那样一直引领潮流也不会像 DeepSeek 那样后来居上。它更像是一个开拓者——用自己的探索为后来者铺平了道路。2026 年的今天当我们谈论开源 AI 时我们会争辩各大开源模型孰强孰弱。但我们也会说“Llama 是开创这一切的那个。”开源的意义Llama 选择了开源这条路并且证明了这条路是可行的——尽管路上有坎坷比如 Llama 4 的刷榜风波比如在一些人口中的 “假开源” 。但正是这些挫折让开源社区变得更加成熟。我们学会了不盲目相信 benchmark学会了用批判的眼光看待每一个宣传数字学会了通过实际测试来验证模型的真实能力。致敬开拓者。扎克伯格的观点“开源不仅对开发者有利对 Meta 有利对整个世界都有利。”这句话依然成立。虽然 Llama 目前不再是开源界的老大哥它的开源许可也受到了种种诟病但它的历史地位无可撼动Llama 开启了开源大模型的时代。没有 Llama 的探索DeepSeek、Qwen、GLM 与今天百花齐放的开源 AI 生态也不会发展得这么快。这就是 Llama 的故事——一个关于开创、辉煌、挫折与传承的故事。它不完美但它真实。它不再引领但它永远被铭记。2026年AI行业最大的机会毫无疑问就在应用层字节跳动已有7个团队全速布局Agent大模型岗位暴增69%年薪破百万腾讯、京东、百度开放招聘技术岗80%与AI相关……如今超过60%的企业都在推进AI产品落地而真正能交付项目的大模型应用开发工程师****却极度稀缺落地AI应用绝对不是写几个prompt调几个API就能搞定的企业真正需要的是能搞定这三项核心能力的人✅RAG融入外部信息修正模型输出给模型装靠谱大脑✅Agent智能体让AI自主干活通过工具调用Tools环境交互多步推理完成复杂任务。比如做智能客服等等……✅微调针对特定任务优化让模型适配业务目前脉脉上有超过1000家企业发布大模型相关岗位人工智能岗平均月薪7.8w实习生日薪高达4000远超其他行业收入水平技术的稀缺性才是你「值钱」的关键具备AI能力的程序员比传统开发高出不止一截有的人早就转行AI方向拿到百万年薪AI浪潮正在重构程序员的核心竞争力现在入场仍是最佳时机我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】⭐️从大模型微调到AI Agent智能体搭建剖析AI技术的应用场景用实战经验落地AI技术。从GPT到最火的开源模型让你从容面对AI技术革新大模型微调掌握主流大模型如DeepSeek、Qwen等的微调技术针对特定场景优化模型性能。学习如何利用领域数据如制造、医药、金融等进行模型定制提升任务准确性和效率。RAG应用开发深入理解检索增强生成Retrieval-Augmented Generation, RAG技术构建高效的知识检索与生成系统。应用于垂类场景如法律文档分析、医疗诊断辅助、金融报告生成等实现精准信息提取与内容生成。AI Agent智能体搭建学习如何设计和开发AI Agent实现多任务协同、自主决策和复杂问题解决。构建垂类场景下的智能助手如制造业中的设备故障诊断Agent、金融领域的投资分析Agent等。如果你也有以下诉求快速链接产品/业务团队参与前沿项目构建技术壁垒从竞争者中脱颖而出避开35岁裁员危险期顺利拿下高薪岗迭代技术水平延长未来20年的新职业发展……那这节课你一定要来听因为留给普通程序员的时间真的不多了立即扫码即可免费预约「AI技术原理实战应用职业发展」「大模型应用开发实战公开课」还有靠谱的内推机会直聘权益完课后赠送大模型应用案例集、AI商业落地白皮书

Meta羊驼LLaMA的崛起与争议：开源AI的史诗级故事

相关文章：

Meta羊驼LLaMA的崛起与争议：开源AI的史诗级故事

操作步骤分享：DeepSeek转Word文档的正确步骤

51单片机按键控制LED移位

软件闪退处理流程

微网里的风电光伏总像青春期小孩——间歇性抽风。搞共享储能就像给熊孩子们找了个充电宝，但怎么配这个充电宝才不浪费钱？咱们直接上硬菜

WRF安装解决报错

相对于打工的职场，创业就是一个炼狱场，打破你原有的价值观和世界观，到处充满了人性的丑陋一面，自私、贪婪，欲望，虚伪、权谋.... 然后，正是因为人性的丑陋，诚信和坦诚在商业中才显得尤为可贵。

Simplorer与Maxwell电机联合仿真，包含搭建好的Simplorer电机场路耦合主电...

基于springboot专家库评审管理系统设计与开发(源码+精品论文+答辩PPT等资料)

能用脚本就别用Agent。

1Password Unified Access：应对 AI 代理凭证管理挑战

【无标题】arm v8 速记

智造“芯”肺：XGBoost与SHAP卷烟吸阻实时预测与工艺优化实战 | 附代码数据

Paperzz AI 毕业论文写作新体验：四步流程化生成，从选题到成稿全链路提效

NVIDIA 扩展开放模型系列，推动代理式、物理和医疗 AI 下一阶段发展

小程序毕业设计-基于微信小程序的个人财务管理系统设计与实现

OpenClaw 解决运行一些漏洞

嘎嘎降AI推出不达标退款承诺，降AI行业迎来新标杆

LLM 推理降本的六层技术栈：从硅片到工程的全链路解析

yolo系列模型详解-yolov5

2026年去AI味提示词Kimi豆包元宝通用？不如直接用降AI工具

关于SVD分解中的左奇异向量的物理意义。

3.17复试学习

ERP 数据安全及信息隐私保护

学习记录贴-day12

金三银四的安全招聘市场

转行要趁早！网络安全行业人才缺口大，企业招聘需求正旺！

亲测储能电源厂家，我的采购复盘

二氢视黄醛价格

LeetCode 热题 100 -- 128、最长连续序列