Published
- 5 min read
[Deepseek]Deepseek-r1还在乱杀;在世界最难基准测试上打败o1,位列第一!

人类的最终测验:Humanity’s Last Exam
Humanity’s Last Exam 是一项极具挑战性的基准测试,其题目由各学科专家在去年年底精心挑选并提出,覆盖了超过一百个学科领域。这些问题并非寻常考题,而是专家们认为 AI 难以解答、经过人工审核和完善后才得以入选的顶级难题。成功入选的问题甚至可以获得 500-5000 美金的奖励。
这项测试的难度之高,可见一斑。就连强大的 o1 模型也仅能达到 9.1% 的正确率。然而,令人惊叹的是,R1 竟然能够略微超越 o1,展现出其非凡的实力。
下图展示了部分模型的测试结果:
如何解读图表中的两列参数?
- 第一列:正确率 (Accuracy) - 表示模型回答正确的题目比例。
- 第二列:Calibration Error - 评估模型的过度自信问题。数值越低,说明模型越能够意识到自己的错误。在当前大模型正确率普遍较低的情况下,Calibration Error 这项指标显得尤为重要。它反映了模型对自己答案的“信心”是否与其准确性相匹配,是衡量模型可靠性的一个重要方面。
让我们来看几个例题,感受一下难度(欢迎各位挑战):
-
生物学: 在雨燕目中,蜂鸟独特地拥有一对左右对称的椭圆形籽骨,它镶嵌在尾下肌扩大且呈十字形的肌腱膜插入部位的后外侧部分。这个籽骨支撑着多少对肌腱?请用一个数字回答。
-
物理学: 在一条水平导轨上放置一个滑块,它可以在导轨上无摩擦地滑动。该滑块与一根长度为 R、刚性且无质量的杆的一端相连,杆的另一端连接一个重物。这两个物体的重量均为 W。系统最初保持静止,且该质量位于滑块正上方。现在给予该质量一个极小的、平行于导轨的推动。假设系统被设计成能够让这根杆在不受阻碍的情况下完成 360 度的完整旋转。当杆处于水平位置时,杆所承受的拉力为 T1。当杆再次竖直、且质量位于滑块正下方时,杆所承受的拉力为 T2。(注意,这两个力的数值可能为负,表示杆处于受压状态。)请问:(T1−T2 )/W 的数值是多少?
-
化学: 所给出的反应是一个热诱导的周环级联反应,可将起始的庚烯(heptaene)转化为内地安酸B甲酯(endiandric acid B methyl ester)。该级联反应包含三个步骤:先后进行两次电环化反应(electrocyclizations),然后进行一次环加成反应(cycloaddition)。请问,在第1步和第2步分别发生了哪种类型的电环化反应?在第3步又是哪一种环加成反应?
回答电环化反应时,请使用 ([n\pi])-con 或 ([n\pi])-dis 的形式(其中 (n) 是参与反应的 (\pi) 电子数,con 表示同向旋转,dis 表示反向旋转);
回答环加成反应时,请使用 ([m+n]) 的形式(其中 (m) 和 (n) 分别表示各组分中参与反应的原子数)。
更多信息:
Humanity’s Last Exam 无疑是对当前 AI 模型的严峻考验,也为我们指明了 AI 未来发展的方向。它提醒我们,在追求更高准确率的同时,也要关注模型的可解释性和可靠性。