Epoch AI präsentiert FrontierMath: Neuer Maßstab für KI-Rechenfähigkeiten

13. November 2024, 07:28 Uhr

Von WOM

In einer aufregenden Entwicklung in der Welt der Künstlichen Intelligenz hat die non-profit Forschungsorganisation Epoch AI ein neues Benchmark-Tool namens FrontierMath eingeführt. Dieses Tool richtet sich an große Sprachmodelle (LLMs) und soll deren Fähigkeiten in den Bereichen logisches Denken und mathematisches Problemlösen testen.

Das Besondere an FrontierMath sind die Hunderte von Fachfragen aus der Mathematik, die noch nie veröffentlicht wurden. Diese Fragen sollen eine kontinuierliche Möglichkeit bieten, den Fortschritt von KI in komplexen mathematischen Denkprozessen zu überwachen. Die Bandbreite reicht von rechenintensiven Problemen in der Zahlentheorie über reale Analysen bis hin zu abstrakten Fragestellungen in der algebraischen Geometrie und Kategorientheorie.

Entwicklung in Zusammenarbeit mit Experten

Epoch AI hat betont, dass sie bei der Entwicklung dieses Benchmarks mit über 60 Mathematikern aus führenden Institutionen zusammengearbeitet haben, darunter Professoren, Autoren von IMO-Fragen und Fields-Medaillengewinner. Das Team ist überzeugt, dass selbst die fortschrittlichsten LLMs auf diesem neuen Benchmark nur unter zwei Prozent Score erzielen konnten.

Die Organisation hebt hervor, dass bestehende Benchmarks wie GSM8K und MATH unzureichend sind, da sie anfällig für Datenverunreinigungen sind und KI-Modelle dazu neigen, übermäßig hohe Punktzahlen zu erzielen. FrontierMath soll diese Probleme lösen, indem es eine Reihe einzigartiger, unveröffentlichter Aufgaben einführt, die das Risiko von Datenverunreinigungen minimieren. Die gestellten Probleme sind so konzipiert, dass sie „ratefrei“ sind – sie können nur durch schlüssiges, logisches Denken gelöst werden, wodurch zufällige Antworten sehr unwahrscheinlich sind.

Die im Rahmen der Forschungsarbeit entwickelten Aufgaben zeichnen sich durch große numerische Antworten oder komplexe mathematische Objekte als Lösungen aus. Ohne das nötige logische Denken liegt die Wahrscheinlichkeit, richtig zu raten, unter einem Prozent. Epoch AI vertritt die Ansicht, dass Benchmarks zur echten Beurteilung von KI-Fähigkeiten sich auf kreative Problemlösung konzentrieren sollten, die nachhaltiges Denken über viele Schritte hinweg erfordert. Dies entspricht dem Konsens vieler Experten, die die gegenwärtigen Benchmarks als unzulänglich für eine präzise Beurteilung der Fähigkeiten von KI-Modellen erachten.

Um sicherzustellen, dass FrontierMath relevant und herausfordernd bleibt, plant Epoch AI, weiterhin mit der Mathematik- und KI-Forschungsgemeinschaft zusammenzuarbeiten. Die Organisation beabsichtigt, regelmäßige Bewertungen durchzuführen, um einen standardisierten Maßstab für den Fortschritt bereitzustellen und wie sich die Denkfähigkeiten mit der Zeit und der Skalierung verbessern.

Details zu diesem spannenden Thema finden sich im Artikel auf www.itnews.asia.