Epoch AI presenteert FrontiMath: nieuwe maatstaf voor AI Matters

13. November 2024

WOM

Artikel als PDF

Kommentare

Diesen Artikel teilen:

In een opwindende ontwikkeling in de wereld van kunstmatige intelligentie introduceerde het non-profit onderzoeksorganisatie Epoch AI een nieuwe benchmark-tool genaamd Frontiermath. Deze tool is gericht op grote spraakmodellen (LLMS) en is bedoeld om hun vaardigheden te testen op het gebied van logisch denken en wiskundige probleemoplossing.

Het speciale ding over FrontiMath zijn de honderden specialistische vragen van wiskunde die nog nooit zijn gepubliceerd. Deze vragen moeten een continue manier bieden om de voortgang van AI in complexe wiskundige denkprocessen te controleren. Het spectrum varieert van rekenkundige problemen in de getaltheorie tot echte analyses tot abstracte vragen in algebraïsche geometrie en categorietheorie.

Ontwikkeling in samenwerking met experts

Epoch AI heeft benadrukt dat ze samenwerkten met meer dan 60 wiskundigen van toonaangevende instellingen bij het ontwikkelen van deze benchmark, waaronder professoren, auteurs van IMO -problemen en velden medaillewinnaars. Het team is ervan overtuigd dat zelfs de meest geavanceerde LLM's op deze nieuwe benchmark slechts minder dan twee procent score kunnen behalen.

De organisatie benadrukt dat bestaande benchmarks zoals GSM8K en wiskunde onvoldoende zijn omdat ze vatbaar zijn voor gegevensvervuiling en AI -modellen hebben de neiging om overmatig hoge scores te bereiken. Frontiermath moet deze problemen oplossen door een aantal unieke, niet -gepubliceerde taken te introduceren die het risico op gegevensvervuiling minimaliseren. De meegeleverde problemen zijn zo ontworpen dat ze "advies -vrij" zijn - ze kunnen alleen worden opgelost door sluitend, logisch denken, wat willekeurige antwoorden zeer onwaarschijnlijk maakt.

De taken die zijn ontwikkeld als onderdeel van het onderzoekswerk worden gekenmerkt door grote numerieke antwoorden of complexe wiskundige objecten als oplossingen. Zonder het noodzakelijke logische denken is de kans op correct adviseren minder dan één procent. Epoch AI is van mening dat benchmarks zich moeten concentreren op creatieve probleemoplossing voor de echte beoordeling van AI -vaardigheden, wat duurzaam denken over vele stappen vereist. Dit komt overeen met de consensus van veel experts die de huidige benchmarks als onvoldoende beschouwen voor een precieze beoordeling van de vaardigheden van AI -modellen.

Om ervoor te zorgen dat FrontiMath relevant en uitdagend blijft, is Epoch AI van plan om te blijven werken met de wiskunde- en AI -onderzoeksgemeenschap. De organisatie is van plan om regelmatige beoordelingen uit te voeren om een gestandaardiseerde schaal te bieden voor vooruitgang en hoe de denkvaardigheden in de loop van de tijd verbeteren en schalen.

Details over dit spannende onderwerp zijn te vinden in het artikel

Epoch AI presenteert FrontiMath: nieuwe maatstaf voor AI Matters

Ontwikkeling in samenwerking met experts

Kommentare (0)