Published

- 2 min read

[AI]一题看穿!DeepSeek-R1 与几大模型硬碰硬

Thumbnail

一题看穿!DeepSeek-R1 与几大模型硬碰硬

题目

两件独立装备,分别加 9% 和 13% 暴击率。问:攻击两次,至少一次暴击的概率是多少?

参赛选手

  • Gemini 2.0 Flash
  • Claude 3.5 Sonnet/Opus
  • GPT-4o
  • DeepSeek-R1
  • O1

战况

模型表现结果备注
Gemini 2.0 Flash思路、步骤、计算,全对。过关排版到位。
DeepSeek-R1思考 6 秒,直接点出二项分布,解答过程完整正确。过关排版舒服,思维链清晰,中文提问可能加分。
Claude 3.5 (Sonnet/Opus)中文提问不行,英文提问还不行,补了说明才对。险胜中文理解差点意思,中文语料库可能背锅。
**GPT-4o **初次尝试失败,通用 Prompt 不行,换数学 Prompt 才行。需调教表现相对拉胯,得用精确 Prompt 才能给出正确答案。
O1(评论区用户提供) 算对了。过关截图清晰

以下是各模型详细的回答情况截图记录:

Gemini 2.0 Flash:

DeepSeek-R1:

Claude 3.5 (Sonnet/Opus):

GPT-4o :

O1 :