Published

- 6 min read

[AI]说句 OpenAI 不爱听的,Gemini 王朝了!Gemini 2.5 Pro 强势摧毁竞技场!

Thumbnail

说句 OpenAI 不爱听的,Gemini 王朝了!Gemini 2.5 Pro 强势摧毁竞技场!

直接上重点:Gemini 2.5 Pro 登顶 Lmarena 排行榜,总分甩开第二名 39 分,断档领先。所有单项榜也都是第一,中文榜更是把第二名干碎 75 分。

还有,L 站佬友搞了个区分大模型的题库,专门测渠道有没有掺水。结果Gemini 2.5 Pro 一个没错! Fiction.live 长上下文测试和 aider 编程评分也是断崖式第一。

Lmarena评分

image image

aider编程评分

image

fiction.live长上下文性能抗衰减能力评分

所有大模型的性能都会随上下文增加而衰减,但衰减速度不同 2.5pro在120k(约12万字)上下文时性能保持率,也是断崖式第一 image

L站Mozi的llm区分题库,2.5pro全答对

image

目前看下来Gemini-2.5-pro强的可怕。


下面是详细信息:

参数规格

  • 上下文: 1M (未来支持 2M)
  • 输出长度: 64k (含推理过程)
  • 其他能力: 支持搜索;多模态 (识别图片、音频、视频)
  • 暂不支持: 画图、视频生成、音频生成、缓存
  • 知识截止: 25 年 1 月 (原文如此,可能是 24 年?)

推理特点

  • 自动控制长度: 简单问题,推理短、速度快,接近非推理模型。
  • 过程可见: 用英文提问,能显示完整推理过程。
  • 动态输出: 有时能边推理边输出结果,不用等推理完,还能根据推理过程动态修改结果。

版本与定价

  • 当前状态: 只有 exp (实验) 版,免费。
  • 正式版/API 定价: 暂无。
  • API Free Tier: 每天限 50 次,2 RPM。
  • Chat 版: 普通号暂时没有 2.5 Pro,可以免费试用 Advanced 会员一个月。Advanced 会员貌似不限量使用。

为啥直接 2.5 Pro?

我猜:现在 Grok3、Claude 3.7、GPT-5 都明确是混合模型(非推理+推理)了,这是大势所趋。纯非推理的 2.0 Pro 正式版就算出来也落伍了,性能没优势,用户也没新鲜感了 (exp 版挂了好几个月)。Google 干脆一步到位,直接上混合模型,叫 2.5 Pro。所以,应该不会再有 2.0 Pro 正式版、2.0 Pro-thinking 或 2.5 Pro-thinking 了。

另外,Advanced 会员和Aistudio里,2.0 Pro-exp 已经被下架了。

关于 2.5 Pro 最大输出token的测试

注意:以下是个人测试结果,非官方说明,仅供参考。

通常,带推理过程的模型会硬性划分推理 token 和最终输出 token 的上限。

  • 例如 R1 总输出 24k tokens,硬性预留 16k 给推理,实际最终输出上限只有 8k,即便推理只用了 1k,最终输出也不会超过 8k。
  • 同理,O3-mini 和 O1 总输出 100k,最终输出上限硬性卡在 16k。
  • 2.0 Flash-thinking 总输出 64k,最终输出上限硬性卡在 24k。
  • Grok3 具体机制不确定。

但 Claude 3.7 和 Gemini 2.5 Pro 似乎采用了弹性划分机制。只要总 token 不超标,推理和最终输出之间没有硬性预留限制。

  • Claude 3.7 输出上限据称是弹性 64k (beta 版可能到 128k)。
  • Gemini 2.5 Pro 输出上限据称是弹性 64k。

为了验证 2.5 Pro,我在 Gemini 网页版做了一个测试:输入一本约 11 万字的书,要求模型一字不差地复述。这种任务几乎不需要推理 token,主要是测试最终输出能力。结果,模型在输出到约 46k tokens (用 OpenAI tokenizer 估算,约 5.2 万汉字) 时被截断。

补充说明: Gemini 可能没有公开独立的 tokenizer。这里使用 OpenAI 的 tokenizer 进行估算,不同厂商、不同模型的 token 计算方法存在差异,所以 46k 只是一个参考值。

个人看法

一年前,Google AI 还被各种看衰,尤其 Bard 时代,感觉被 Claude 3 和 GPT-4 Turbo 按在地上摩擦。但自从 Gemini 1.5 Pro 上线,特别是 Google 开始重视用户反馈(官方人员在社交媒体很活跃),加上 AI Studio 砸钱收集人类反馈RLHF,硬生生从落后干到了反超。

反观微软,到现在还没个像样的大规模通用 LLM,Copilot 改版评价也一般,在自研大模型这事上似乎一直摇摆不定。

也许“造不如买,买不如租”只是权宜之计?Google 这波反超,值得深思。