Epoha AI predstavlja FrontierMath: Novo mjerilo za AI stvari
Epoha AI predstavlja FrontierMath: Novo mjerilo za AI stvari
U uzbudljivom razvoju u svijetu umjetne inteligencije, neprofitna istraživačka organizacija Epoch AI predstavila je novi referentni alat nazvan FrontierMath. Ovaj je alat usmjeren na velike glasovne modele (LLMS) i namijenjen je testiranju njihovih vještina u područjima logičkog razmišljanja i matematičkog rješavanja problema.
Posebna stvar u FrontierMathu su stotine specijalističkih pitanja iz matematike koja nikada nisu objavljena. Ova bi pitanja trebala ponuditi kontinuirani način praćenja napretka AI u složenim procesima matematičkog razmišljanja. Spektar se kreće od aritmetičkih problema u teoriji broja do stvarnih analiza do apstraktnih pitanja u algebarskoj geometriji i teoriji kategorija.
Razvoj u suradnji sa stručnjacima
Epoha AI naglasila je da su zajedno radili s više od 60 matematičara vodećih institucija u razvoju ove referentne vrijednosti, uključujući profesore, autore izdanja IMO -a i medalje Fields. Tim je uvjeren da bi čak i najnapredniji LLM -ovi na ovom novom referentnom znaku mogli postići samo manje od dva posto.
Organizacija naglašava da su postojeća mjerila poput GSM8K i matematike neadekvatne jer su osjetljivi na onečišćenje podataka, a AI modeli imaju tendenciju da postignu pretjerano visoke rezultate. FrontierMath bi trebao riješiti ove probleme uvođenjem brojnih jedinstvenih, neobjavljenih zadataka koji minimiziraju rizik od onečišćenja podataka. Osigurani problemi dizajnirani su na takav način da su "savjet -slobodni" - mogu se riješiti samo konačnim, logičnim razmišljanjem, što slučajno odgovori čini vrlo malo vjerojatnim.
Zadaci razvijeni kao dio istraživačkog rada karakteriziraju veliki numerički odgovori ili složeni matematički objekti kao rješenja. Bez potrebnog logičkog razmišljanja, vjerojatnost ispravnog savjetovanja je manja od jednog posto. Epoha AI zauzima mišljenje da bi se mjerila trebala usredotočiti na kreativno rješavanje problema na stvarnu procjenu AI vještina, što zahtijeva održivo razmišljanje u mnogim koracima. To odgovara konsenzusu mnogih stručnjaka koji smatraju da su trenutna mjerila neadekvatna za preciznu procjenu vještina AI modela.
Kako bi se osiguralo da FrontierMath ostane relevantna i izazovna, epoha AI planira nastaviti raditi s istraživačkom zajednicom matematike i AI. Organizacija namjerava provesti redovne preglede kako bi osigurala standardiziranu ljestvicu za napredak i kako se vještine razmišljanja poboljšavaju s vremenom i skaliranjem.