Llama 4 ——从万众瞩目到差评如潮

Meta 近期发布了备受瞩目的 Llama 4 系列大语言模型，旨在全面对标业界顶尖水平。该系列包括多个不同规模和定位的模型：

Llama-4-2T-Behemoth: 作为教师模型，拥有 2T 总参数（16 个专家，288B 活跃参数），用于蒸馏出其他规模的模型。目标对标 Claude Opus、Gemini Ultra 级别，目前仍在训练中，短期内可能不会提供 API 以防被竞争对手“蒸馏”。
Llama-4-400B-Maverick: 旗舰型号，具有 400B 总参数（128 个专家，17B 活跃参数），原生支持多模态，并具备 100 万 Token 的上下文长度。定价上，输入 $0.22/M Tok，输出 $0.88/M Tok，低于 DeepSeek-V3 (0324) 但高于 GPT-4o 等。
Llama-4-109B-Scout: 规模较小的模型，109B 总参数（16 个专家，17B 活跃参数），对标 Google Gemini 2.0 Flash-Lite、GPT-4o-mini、Claude 3.5 Haiku 等轻量级模型。
Llama-4-Reasoning: 一个专注于推理能力的独立模型，据称将在一个月内上线。

Llama 4 发布后，其旗舰模型 Maverick 在 LMSys Arena 排行榜上迅速攀升，一度位列第二，许多用户在 Arena 平台上的初步体验也相当积极，引发了社区的高度期待。

然而，当 Meta 开源其模型后，情况急转直下，用户发现开源版的表现与 Arena API 版相去甚远，“货不对板” 的感觉非常强烈，一场关于 Llama 4 是否存在刷榜、作弊的疑云开始弥漫。

疑点一：测试集过拟合？ “背题库”式训练？

有研究者通过对比 Llama 4 在“原始测试集”和经过微小改动的“扰动测试集”上的表现，发现了一个异常现象。

来源：https://math-perturb.github.io/

数据显示，Llama 4 在面对稍作改动的测试题时，分数出现明显下降，而其他主流模型则没有这种剧烈波动。这强烈暗示 Llama 4 可能在训练中“见过”甚至“学习”了原始测试集的内容，也就是所谓的测试集污染或过拟合。简单说，它可能只是记住了答案，而不是真正理解了问题，题目稍微变个样就不会了。

疑点二：特供 API vs 开源版，天差地别？

除了测试集污染的质疑，更直接的冲击来自开源版 Llama 4 的实际表现。

以 Llama-4-400B-Maverick 为例，在 Aider 编程能力评分中，其表现令人大跌眼镜，排名仅为第 29 位，甚至不如 DeepSeek-V2.5。这与其在 LMSys Arena 上的高排名形成了巨大反差。这引出了几种可能性：

最乐观：开源模型没问题，只是第三方（或 Meta 自己）在部署开源版 API 时调优没做好。

中等情况： Meta 送测到 LMSys Arena 的版本与最终开源的版本根本不是同一个东西，未来可能会开源那个“特供版”。

最悲观： Llama 4 的真实水平就是 Aider Benchmark 反映的那样，LMSys Arena 的高分是通过某种机制漏洞或专门优化的“刷分”版本实现的。用平台机制或特定优化刷出来的。

Meta 的回应与社区的质疑

面对日益增长的质疑声浪，Meta GenAI 负责人 Ahmad Al-Dahle 在 X 平台发文坚决否认存在刷榜行为。然而，他对 Arena API 版本与开源版之间差异的解释，被许多人认为含糊其辞、缺乏说服力。这番表态未能平息争议，反而招致了更多批评。

来源：https://x.com/Ahmad_Al_Dahle/status/1909302532306092107

LMSys Arena 的立场

作为风波中心的评测平台，LMSys Arena 也做出了回应。他们公开了 Llama 4 在平台上的对战记录数据，试图证明其评分过程的透明和公正。此举被普遍解读为：LMSys Arena 自身没有参与作弊，分数是真实用户对战产生的，但问题很可能出在 Meta 提交了一个专门优化过、与开源版不同的模型版本用于评测。

数据链接：Llama-4-Maverick-03-26-Experimental Battles - a Hugging Face Space by lmarena-ai

其他相关信息（需谨慎看待）

Meta AI 负责人辞职： 争议期间，Meta AI 基础研究部门（FAIR）负责人 Joelle Pineau 宣布将离职。虽然无法直接证明这与 Llama 4 争议有关，但时间点的巧合引人遐想。（来源：AP News）
匿名员工爆料： 有用户在北美华人论坛“一亩三分地”匿名发帖，自称 Meta AI 员工，指称 Meta 内部确实存在针对测试集刷分的做法，并暗示这与 Pineau 的离职有关。注意：该信息来自匿名新注册账号，真实性无法保证，仅作参考。（来源：1point3acres, Reddit 讨论）

总结

Llama 4 从万众瞩目到差评如潮，核心问题在于：

是否存在测试集污染/过拟合？ Math Perturbation 的测试结果提出了强烈质疑。
送测版本与开源版本是否一致？ 开源版在 Aider 等基准测试上的平庸表现与 Arena 上的高光形成鲜明对比。

Meta 官方的回应未能打消疑虑，而 LMSys Arena 则将球踢回给了 Meta。这场风波暴露了当前大模型评测机制可能存在的漏洞，以及厂商在追求排行榜高位时可能采取的“特殊手段”。真相如何，还需要 Meta 给出更透明、更有力的证据。