文章目录[隐藏]
上周五,研究机构Epoch AI发布了一项名为FrontierMath的新数学基准测试,迅速在人工智能界引起了广泛关注。这项测试的独特之处在于其难度极高,即使是当前最先进的AI模型,如支持ChatGPT的GPT-4o,在这些问题上的解决率也不足2%。
基准测试的背景与目的
FrontierMath旨在评估AI模型在解决复杂数学问题上的能力,这些问题通常需要专业的数学知识和长时间的研究才能解答。与以往的数学基准测试不同,FrontierMath的问题集保持私密且未公开,以防止数据污染。这种设计确保了测试结果的真实性和可靠性,避免了AI模型因预先接触类似问题而产生的“记忆效应”。
当前AI模型的表现
在预印本研究论文中公布的性能结果显示,即使是在可以访问Python环境进行测试和验证的情况下,顶级AI模型如Claude 3.5 Sonnet、GPT-4o、o1-preview 和 Gemini 1.5 Pro 的表现也非常差。这与它们在更简单数学基准测试(如GSM8K和MATH)中的高分形成了鲜明对比,许多模型在这些测试中的得分超过了90%。
问题的设计与验证
FrontierMath的问题集由来自领先机构的60多名数学家合作开发,并经过严格的同行评审以确保正确性和清晰度。这些问题涵盖了多个数学学科,从计算数论到抽象代数几何,每20个问题中就有1个在评审过程中需要修正。菲尔兹奖得主陶哲轩和蒂莫西·高尔斯也参与了部分问题的评审。
陶哲轩在给Epoch的反馈中表示:“这些问题极具挑战性,我认为在短期内,除非有一个真正的领域专家,否则基本上唯一能解决它们的方法是通过一个半专家(比如相关领域的研究生),可能再加上现代AI和大量其他代数包的组合。”
与传统数学竞赛的区别
数学家陈谊廷在他的博客中详细解释了FrontierMath与传统数学竞赛(如国际数学奥林匹克IMO)的不同。他指出,IMO的问题通常需要创造性的洞察力,同时避免复杂的实现和专业知识。而FrontierMath则保留了对创造性洞察力的要求,但增加了对专业知识和复杂计算的需求。
陈谊廷进一步解释说:“因为AI系统具有巨大的计算能力,实际上可以设计出使用IOI或Project Euler相同理念的易于验证解决方案的问题——基本上,‘写一个证明’被‘在代码中实现一个算法’所取代。”
未来的发展
Epoch AI计划定期评估AI模型在FrontierMath基准测试中的表现,并逐步扩展问题集。他们将在未来几个月内发布更多示例问题,以帮助研究社区测试和改进他们的系统。(来源)
发表回复