AI·新世界

研究机构Epoch AI推出新数学基准测试FrontierMath

2024年11月13日

基准测试的背景与目的

FrontierMath旨在评估AI模型在解决复杂数学问题上的能力，这些问题通常需要专业的数学知识和长时间的研究才能解答。与以往的数学基准测试不同，FrontierMath的问题集保持私密且未公开，以防止数据污染。这种设计确保了测试结果的真实性和可靠性，避免了AI模型因预先接触类似问题而产生的“记忆效应”。

当前AI模型的表现

在预印本研究论文中公布的性能结果显示，即使是在可以访问Python环境进行测试和验证的情况下，顶级AI模型如Claude 3.5 Sonnet、GPT-4o、o1-preview 和 Gemini 1.5 Pro 的表现也非常差。这与它们在更简单数学基准测试（如GSM8K和MATH）中的高分形成了鲜明对比，许多模型在这些测试中的得分超过了90%。

问题的设计与验证

FrontierMath的问题集由来自领先机构的60多名数学家合作开发，并经过严格的同行评审以确保正确性和清晰度。这些问题涵盖了多个数学学科，从计算数论到抽象代数几何，每20个问题中就有1个在评审过程中需要修正。菲尔兹奖得主陶哲轩和蒂莫西·高尔斯也参与了部分问题的评审。

陶哲轩在给Epoch的反馈中表示：“这些问题极具挑战性，我认为在短期内，除非有一个真正的领域专家，否则基本上唯一能解决它们的方法是通过一个半专家（比如相关领域的研究生），可能再加上现代AI和大量其他代数包的组合。”

与传统数学竞赛的区别

数学家陈谊廷在他的博客中详细解释了FrontierMath与传统数学竞赛（如国际数学奥林匹克IMO）的不同。他指出，IMO的问题通常需要创造性的洞察力，同时避免复杂的实现和专业知识。而FrontierMath则保留了对创造性洞察力的要求，但增加了对专业知识和复杂计算的需求。

陈谊廷进一步解释说：“因为AI系统具有巨大的计算能力，实际上可以设计出使用IOI或Project Euler相同理念的易于验证解决方案的问题——基本上，‘写一个证明’被‘在代码中实现一个算法’所取代。”

未来的发展

Epoch AI计划定期评估AI模型在FrontierMath基准测试中的表现，并逐步扩展问题集。他们将在未来几个月内发布更多示例问题，以帮助研究社区测试和改进他们的系统。（来源）