Published
- 7 min read
[AI]Llama 4 ——从万众瞩目到差评如潮

Llama 4 ——从万众瞩目到差评如潮
Meta 近期发布了备受瞩目的 Llama 4 系列大语言模型,旨在全面对标业界顶尖水平。该系列包括多个不同规模和定位的模型:
- Llama-4-2T-Behemoth: 作为教师模型,拥有 2T 总参数(16 个专家,288B 活跃参数),用于蒸馏出其他规模的模型。目标对标 Claude Opus、Gemini Ultra 级别,目前仍在训练中,短期内可能不会提供 API 以防被竞争对手“蒸馏”。
- Llama-4-400B-Maverick: 旗舰型号,具有 400B 总参数(128 个专家,17B 活跃参数),原生支持多模态,并具备 100 万 Token 的上下文长度。定价上,输入 $0.22/M Tok,输出 $0.88/M Tok,低于 DeepSeek-V3 (0324) 但高于 GPT-4o 等。
- Llama-4-109B-Scout: 规模较小的模型,109B 总参数(16 个专家,17B 活跃参数),对标 Google Gemini 2.0 Flash-Lite、GPT-4o-mini、Claude 3.5 Haiku 等轻量级模型。
- Llama-4-Reasoning: 一个专注于推理能力的独立模型,据称将在一个月内上线。
Llama 4 发布后,其旗舰模型 Maverick 在 LMSys Arena 排行榜上迅速攀升,一度位列第二,许多用户在 Arena 平台上的初步体验也相当积极,引发了社区的高度期待。
然而,当 Meta 开源其模型后,情况急转直下,用户发现开源版的表现与 Arena API 版相去甚远,“货不对板” 的感觉非常强烈,一场关于 Llama 4 是否存在刷榜、作弊的疑云开始弥漫。
疑点一:测试集过拟合? “背题库”式训练?
有研究者通过对比 Llama 4 在“原始测试集”和经过微小改动的“扰动测试集”上的表现,发现了一个异常现象。
来源:https://math-perturb.github.io/
数据显示,Llama 4 在面对稍作改动的测试题时,分数出现明显下降,而其他主流模型则没有这种剧烈波动。这强烈暗示 Llama 4 可能在训练中“见过”甚至“学习”了原始测试集的内容,也就是所谓的测试集污染或过拟合。简单说,它可能只是记住了答案,而不是真正理解了问题,题目稍微变个样就不会了。
疑点二:特供 API vs 开源版,天差地别?
除了测试集污染的质疑,更直接的冲击来自开源版 Llama 4 的实际表现。
以 Llama-4-400B-Maverick 为例,在 Aider 编程能力评分中,其表现令人大跌眼镜,排名仅为第 29 位,甚至不如 DeepSeek-V2.5。这与其在 LMSys Arena 上的高排名形成了巨大反差。 这引出了几种可能性:
最乐观: 开源模型没问题,只是第三方(或 Meta 自己)在部署开源版 API 时调优没做好。
中等情况: Meta 送测到 LMSys Arena 的版本与最终开源的版本根本不是同一个东西,未来可能会开源那个“特供版”。
最悲观: Llama 4 的真实水平就是 Aider Benchmark 反映的那样,LMSys Arena 的高分是通过某种机制漏洞或专门优化的“刷分”版本实现的。用平台机制或特定优化刷出来的。
Meta 的回应与社区的质疑
面对日益增长的质疑声浪,Meta GenAI 负责人 Ahmad Al-Dahle 在 X 平台发文坚决否认存在刷榜行为。然而,他对 Arena API 版本与开源版之间差异的解释,被许多人认为含糊其辞、缺乏说服力。这番表态未能平息争议,反而招致了更多批评。
来源:https://x.com/Ahmad_Al_Dahle/status/1909302532306092107
LMSys Arena 的立场
作为风波中心的评测平台,LMSys Arena 也做出了回应。他们公开了 Llama 4 在平台上的对战记录数据,试图证明其评分过程的透明和公正。此举被普遍解读为:LMSys Arena 自身没有参与作弊,分数是真实用户对战产生的,但问题很可能出在 Meta 提交了一个专门优化过、与开源版不同的模型版本用于评测。
数据链接:Llama-4-Maverick-03-26-Experimental Battles - a Hugging Face Space by lmarena-ai
其他相关信息(需谨慎看待)
-
Meta AI 负责人辞职: 争议期间,Meta AI 基础研究部门(FAIR)负责人 Joelle Pineau 宣布将离职。虽然无法直接证明这与 Llama 4 争议有关,但时间点的巧合引人遐想。(来源:AP News)
-
匿名员工爆料: 有用户在北美华人论坛“一亩三分地”匿名发帖,自称 Meta AI 员工,指称 Meta 内部确实存在针对测试集刷分的做法,并暗示这与 Pineau 的离职有关。注意:该信息来自匿名新注册账号,真实性无法保证,仅作参考。(来源:1point3acres, Reddit 讨论)
总结
Llama 4 从万众瞩目到差评如潮,核心问题在于:
-
是否存在测试集污染/过拟合? Math Perturbation 的测试结果提出了强烈质疑。
-
送测版本与开源版本是否一致? 开源版在 Aider 等基准测试上的平庸表现与 Arena 上的高光形成鲜明对比。
Meta 官方的回应未能打消疑虑,而 LMSys Arena 则将球踢回给了 Meta。这场风波暴露了当前大模型评测机制可能存在的漏洞,以及厂商在追求排行榜高位时可能采取的“特殊手段”。真相如何,还需要 Meta 给出更透明、更有力的证据。