精读预计 2 分钟

Benchmarks in Leipzig

摘要

该基准测试源自莱比锡马普所的一次工作坊，包含 100 个具有已知答案的研究级数学问题。研究通过三个阶段评估了大模型的表现：从 SOTA 模型单次尝试（41 题未解），到增加运行次数（16 题未解），最后使用两个 “重度思考” 模型（Heavy-thinking models）进行测试，最终仅剩 2 道题未被攻克，显示出大模型在复杂数学推理方面的显著进步。

荐读理由

你可以直接利用该论文附录中的 100 个研究级数学问题作为高难度基准，来验证你开发的 AI 产品在复杂推理上的真实水平；同时其实验数据证明了通过增加推理尝试次数和使用“重思考”模型，能将 LLM 无法解决的问题比例从 41% 降至 2%，这为你优化推理类产品的架构提供了明确的工程依据。

Hacker News · 114 赞 · 42 评讨论 → 阅读原文 →

这条对你有帮助吗？