Epoch AI præsenterer Frontiermath: New Yardstick for AI Matters

13. November 2024, 07:28 Uhr

Von WOM

I en spændende udvikling i verdenen af kunstig intelligens introducerede den non-profit forskningsorganisation Epoch AI et nyt benchmark-værktøj kaldet Frontiermath. Dette værktøj er rettet mod store stemmemodeller (LLM'er) og er beregnet til at teste deres evner inden for logisk tænkning og matematisk problemløsning.

Det specielle ved Frontiermath er de hundreder af specialiserede spørgsmål fra matematik, der aldrig er blevet offentliggjort. Disse spørgsmål skal tilbyde en kontinuerlig måde at overvåge fremskridtene med AI i komplekse matematiske tænkningsprocesser. Spektret spænder fra aritmetiske problemer i antallet af teori til reelle analyser til abstrakte spørgsmål i algebraisk geometri og kategoryteori.

Udvikling i samarbejde med eksperter

Epoch AI har understreget, at de arbejdede sammen med over 60 matematikere fra førende institutioner i udviklingen af dette benchmark, herunder professorer, forfattere af IMO -spørgsmål og feltermedaljer. Holdet er overbevist om, at selv de mest avancerede LLM'er på denne nye benchmark kun kunne opnå mindre end to procent score.

Organisationen understreger, at eksisterende benchmarks såsom GSM8K og matematik er utilstrækkelige, fordi de er modtagelige for dataforurening, og AI -modeller har en tendens til at opnå for høje score. Frontiermath bør løse disse problemer ved at indføre en række unikke, upublicerede opgaver, der minimerer risikoen for dataforurening. De givne problemer er designet på en sådan måde, at de er "råd - fri" - de kan kun løses gennem afgørende, logisk tænkning, hvilket gør tilfældige svar meget usandsynlige.

De opgaver, der er udviklet som en del af forskningsarbejdet, er kendetegnet ved store numeriske svar eller komplekse matematiske objekter som løsninger. Uden den nødvendige logiske tænkning er sandsynligheden for korrekt rådgivning mindre end en procent. Epoch AI er af den opfattelse, at benchmarks skal koncentrere sig om kreativ problemløsning til den virkelige vurdering af AI -færdigheder, som kræver bæredygtig tænkning over mange trin. Dette svarer til konsensus fra mange eksperter, der betragter de nuværende benchmarks som utilstrækkelige til en præcis vurdering af AI -modellernes færdigheder.

For at sikre, at Frontiermath forbliver relevant og udfordrende, planlægger Epoch AI at fortsætte med at arbejde med matematik- og AI -forskningsfællesskabet. Organisationen har til hensigt at gennemføre regelmæssige anmeldelser for at give en standardiseret skala for fremskridt, og hvordan tænkningskompetence forbedres over tid og skalering.

Detaljer om dette spændende emne findes i artiklen på www.itews.asia .