Published
- 2 min read
[AI]一题看穿!DeepSeek-R1 与几大模型硬碰硬

一题看穿!DeepSeek-R1 与几大模型硬碰硬
题目
两件独立装备,分别加 9% 和 13% 暴击率。问:攻击两次,至少一次暴击的概率是多少?
参赛选手
- Gemini 2.0 Flash
- Claude 3.5 Sonnet/Opus
- GPT-4o
- DeepSeek-R1
- O1
战况
模型 | 表现 | 结果 | 备注 |
---|---|---|---|
Gemini 2.0 Flash | 思路、步骤、计算,全对。 | 过关 | 排版到位。 |
DeepSeek-R1 | 思考 6 秒,直接点出二项分布,解答过程完整正确。 | 过关 | 排版舒服,思维链清晰,中文提问可能加分。 |
Claude 3.5 (Sonnet/Opus) | 中文提问不行,英文提问还不行,补了说明才对。 | 险胜 | 中文理解差点意思,中文语料库可能背锅。 |
**GPT-4o ** | 初次尝试失败,通用 Prompt 不行,换数学 Prompt 才行。 | 需调教 | 表现相对拉胯,得用精确 Prompt 才能给出正确答案。 |
O1 | (评论区用户提供) 算对了。 | 过关 | 截图清晰 |
以下是各模型详细的回答情况截图记录:
Gemini 2.0 Flash:
DeepSeek-R1:
Claude 3.5 (Sonnet/Opus):
GPT-4o :
O1 :