Published
- 6 min read
[AI]说句 OpenAI 不爱听的,Gemini 王朝了!Gemini 2.5 Pro 强势摧毁竞技场!

说句 OpenAI 不爱听的,Gemini 王朝了!Gemini 2.5 Pro 强势摧毁竞技场!
直接上重点:Gemini 2.5 Pro 登顶 Lmarena 排行榜,总分甩开第二名 39 分,断档领先。所有单项榜也都是第一,中文榜更是把第二名干碎 75 分。
还有,L 站佬友搞了个区分大模型的题库,专门测渠道有没有掺水。结果Gemini 2.5 Pro 一个没错! Fiction.live 长上下文测试和 aider 编程评分也是断崖式第一。
Lmarena评分
aider编程评分
fiction.live长上下文性能抗衰减能力评分
所有大模型的性能都会随上下文增加而衰减,但衰减速度不同
2.5pro在120k(约12万字)上下文时性能保持率,也是断崖式第一
L站Mozi的llm区分题库,2.5pro全答对
目前看下来Gemini-2.5-pro强的可怕。
下面是详细信息:
参数规格
- 上下文: 1M (未来支持 2M)
- 输出长度: 64k (含推理过程)
- 其他能力: 支持搜索;多模态 (识别图片、音频、视频)
- 暂不支持: 画图、视频生成、音频生成、缓存
- 知识截止: 25 年 1 月 (原文如此,可能是 24 年?)
推理特点
- 自动控制长度: 简单问题,推理短、速度快,接近非推理模型。
- 过程可见: 用英文提问,能显示完整推理过程。
- 动态输出: 有时能边推理边输出结果,不用等推理完,还能根据推理过程动态修改结果。
版本与定价
- 当前状态: 只有 exp (实验) 版,免费。
- 正式版/API 定价: 暂无。
- API Free Tier: 每天限 50 次,2 RPM。
- Chat 版: 普通号暂时没有 2.5 Pro,可以免费试用 Advanced 会员一个月。Advanced 会员貌似不限量使用。
为啥直接 2.5 Pro?
我猜:现在 Grok3、Claude 3.7、GPT-5 都明确是混合模型(非推理+推理)了,这是大势所趋。纯非推理的 2.0 Pro 正式版就算出来也落伍了,性能没优势,用户也没新鲜感了 (exp 版挂了好几个月)。Google 干脆一步到位,直接上混合模型,叫 2.5 Pro。所以,应该不会再有 2.0 Pro 正式版、2.0 Pro-thinking 或 2.5 Pro-thinking 了。
另外,Advanced 会员和Aistudio里,2.0 Pro-exp 已经被下架了。
关于 2.5 Pro 最大输出token的测试
注意:以下是个人测试结果,非官方说明,仅供参考。
通常,带推理过程的模型会硬性划分推理 token 和最终输出 token 的上限。
- 例如 R1 总输出 24k tokens,硬性预留 16k 给推理,实际最终输出上限只有 8k,即便推理只用了 1k,最终输出也不会超过 8k。
- 同理,O3-mini 和 O1 总输出 100k,最终输出上限硬性卡在 16k。
- 2.0 Flash-thinking 总输出 64k,最终输出上限硬性卡在 24k。
- Grok3 具体机制不确定。
但 Claude 3.7 和 Gemini 2.5 Pro 似乎采用了弹性划分机制。只要总 token 不超标,推理和最终输出之间没有硬性预留限制。
- Claude 3.7 输出上限据称是弹性 64k (beta 版可能到 128k)。
- Gemini 2.5 Pro 输出上限据称是弹性 64k。
为了验证 2.5 Pro,我在 Gemini 网页版做了一个测试:输入一本约 11 万字的书,要求模型一字不差地复述。这种任务几乎不需要推理 token,主要是测试最终输出能力。结果,模型在输出到约 46k tokens (用 OpenAI tokenizer 估算,约 5.2 万汉字) 时被截断。
补充说明: Gemini 可能没有公开独立的 tokenizer。这里使用 OpenAI 的 tokenizer 进行估算,不同厂商、不同模型的 token 计算方法存在差异,所以 46k 只是一个参考值。
个人看法
一年前,Google AI 还被各种看衰,尤其 Bard 时代,感觉被 Claude 3 和 GPT-4 Turbo 按在地上摩擦。但自从 Gemini 1.5 Pro 上线,特别是 Google 开始重视用户反馈(官方人员在社交媒体很活跃),加上 AI Studio 砸钱收集人类反馈RLHF,硬生生从落后干到了反超。
反观微软,到现在还没个像样的大规模通用 LLM,Copilot 改版评价也一般,在自研大模型这事上似乎一直摇摆不定。
也许“造不如买,买不如租”只是权宜之计?Google 这波反超,值得深思。