Epoch AI呈现Frontiermath：AI很重要的新标准

13. November 2024, 07:28 Uhr

Von WOM

在人工智能界的激动人心的发展中，非营利性研究组织Epoch AI引入了一种名为Frontiermath的新基准工具。该工具针对大型语音模型（LLM），旨在测试其在逻辑思维和数学问题解决方面的技能。

关于Frontiermath的特殊之处是从未出版过的数百个专家问题。这些问题应该提供一种在复杂的数学思维过程中监测AI进度的连续方法。频谱范围从数字理论中的算术问题到真实分析到代数几何学和类别理论中的抽象问题。

与专家合作开发

Epoch AI强调，他们与来自领先机构的60多位数学家一起开发了这一基准，包括教授，IMO问题的作者和田野奖牌获得者。该团队坚信，即使是这个新基准的最先进的LLM，也只能取得不到2％的分数。

该组织强调，诸如GSM8K和数学等现有基准不足，因为它们容易受到数据污染的影响，并且AI模型倾向于获得过高的分数。 Frontiermath应该通过引入许多独特的未发表的任务来解决这些问题，以最大程度地减少数据污染的风险。所提供的问题的设计方式使它们“无建议” - 只能通过结论性的逻辑思维来解决，这使得随机答案的不太可能。

作为研究工作的一部分而开发的任务的特征是大的数值答案或复杂的数学对象作为解决方案。没有必要的逻辑思维，正确建议的可能性不到百分之一。 Epoch AI认为，基准应集中精力解决创意问题，以对AI技能的真实评估，这需要对许多步骤进行可持续的思考。这与许多专家的共识相对应，他们认为当前的基准是不足以确切评估AI模型技能的不足。

为了确保Frontiermath仍然具有相关性和挑战性，Epoch AI计划继续与数学和AI研究社区合作。该组织打算定期进行审查，以便为进步提供标准化的规模以及思维技能如何随着时间的推移和扩展而提高。

有关此令人兴奋的主题的详细信息，请参见文章