Epoch AI prezentē FrontierMath: Jauns kritērijs AI Matters
Epoch AI prezentē FrontierMath: Jauns kritērijs AI Matters
Aizraujošā attīstībā mākslīgā intelekta pasaulē bezpeļņas pētījumu organizācija Epoch AI iepazīstināja ar jaunu etalona rīku ar nosaukumu Frontiermath. Šis rīks ir paredzēts lieliem balss modeļiem (LLMS), un tas ir paredzēts, lai pārbaudītu viņu prasmes loģiskās domāšanas un matemātiskās problēmu risināšanas jomā.
Īpašā lieta par Frontiermath ir simtiem speciālistu jautājumu no matemātikas, kas nekad nav publicēti. Šiem jautājumiem vajadzētu piedāvāt nepārtrauktu veidu, kā uzraudzīt AI progresu sarežģītos matemātiskās domāšanas procesos. Spektrs svārstās no aritmētiskām problēmām skaitļu teorijā līdz reālai analīzei līdz abstraktiem jautājumiem algebriskajā ģeometrijā un kategorijas teorijā.
Attīstība sadarbībā ar ekspertiem
Epoch AI ir uzsvēris, ka viņi strādāja kopā ar vairāk nekā 60 matemātiķiem no vadošajām institūcijām šī etalona izstrādē, ieskaitot profesorus, IMO jautājumu autorus un lauku medaļniekus. Komanda ir pārliecināta, ka pat vismodernākie LLM šajā jaunajā etalonā var sasniegt tikai mazāk nekā divu procentu punktu skaitu.
Organizācija uzsver, ka esošie etaloni, piemēram, GSM8K un matemātika, ir nepietiekami, jo tie ir jutīgi pret datu piesārņojumu un AI modeļiem ir tendence sasniegt pārmērīgi augstus rādītājus. Frontiermath vajadzētu atrisināt šīs problēmas, ieviešot vairākus unikālus, nepublicētus uzdevumus, kas samazina datu piesārņojuma risku. Sniegtās problēmas ir izstrādātas tādā veidā, ka tās ir “bez padomiem” - tās var atrisināt tikai ar pārliecinošu, loģisku domāšanu, kas nejaušas atbildes padara ļoti maz ticamu.
Uzdevumi, kas izstrādāti kā daļa no pētniecības darba, raksturo lielas skaitliskas atbildes vai sarežģīti matemātiski objekti kā risinājumi. Bez nepieciešamās loģiskās domāšanas iespējamība pareizi ieteikt ir mazāks par vienu procentu. Epoch AI uzskata, ka etaloniem būtu jākoncentrējas uz radošu problēmu risināšanu, lai reāli novērtētu AI prasmes, kurām daudzos soļos nepieciešama ilgtspējīga domāšana. Tas atbilst daudzu ekspertu vienprātībai, kuri pašreizējos etalonus uzskata par nepietiekamu, lai precīzi novērtētu AI modeļu prasmes.
Lai nodrošinātu, ka Frontiermath joprojām ir aktuāls un izaicinošs, Epoch AI plāno turpināt sadarboties ar matemātikas un AI pētījumu kopienu. Organizācija plāno veikt regulāras atsauksmes, lai nodrošinātu standartizētu progresa mērogu un to, kā domāšanas prasmes laika gaitā un mērogošana uzlabojas.
Sīkāka informācija par šo aizraujošo tēmu ir atrodama rakstā