EPOCH AI Presents Frontiermath: New Yardstick for Ai Matters
EPOCH AI Presents Frontiermath: New Yardstick for Ai Matters
In un entusiasmante sviluppo nel mondo dell'intelligenza artificiale, l'organizzazione di ricerca senza scopo di lucro Epoch AI ha introdotto un nuovo strumento di riferimento chiamato FrontierMath. Questo strumento è rivolto a grandi modelli vocali (LLM) ed è destinato a testare le loro abilità nelle aree del pensiero logico e della risoluzione dei problemi matematici.
La cosa speciale di Frontiermath sono le centinaia di domande specialistiche dalla matematica che non sono mai state pubblicate. Queste domande dovrebbero offrire un modo continuo per monitorare l'avanzamento dell'IA in complessi processi di pensiero matematico. Lo spettro varia da problemi aritmetici nella teoria dei numeri alle analisi reali alle domande astratte nella geometria algebrica e nella teoria delle categorie.
sviluppo in collaborazione con gli esperti
Epoch AI ha sottolineato di aver collaborato con oltre 60 matematici delle principali istituzioni nello sviluppo di questo punto di riferimento, tra cui professori, autori di questioni IMO e medaglie da campi. Il team è convinto che anche gli LLM più avanzati su questo nuovo punto di riferimento potrebbero ottenere solo meno del due percento.
L'organizzazione sottolinea che i parametri di riferimento esistenti come GSM8K e matematica sono inadeguati perché sono suscettibili all'inquinamento dei dati e i modelli di intelligenza artificiale tendono a ottenere punteggi eccessivamente alti. FrontierMath dovrebbe risolvere questi problemi introducendo una serie di compiti unici e non pubblicati che minimizzano il rischio di inquinamento dei dati. I problemi forniti sono progettati in modo tale da essere "consigli", possono essere risolti solo attraverso un pensiero logico conclusivo e logico, il che rende le risposte casuali molto improbabili.
I compiti sviluppati come parte del lavoro di ricerca sono caratterizzati da grandi risposte numeriche o oggetti matematici complessi come soluzioni. Senza il pensiero logico necessario, la probabilità di consigliare correttamente è inferiore all'uno percento. Epoch AI ritiene che i parametri di riferimento dovrebbero concentrarsi sulla risoluzione dei problemi creativi alla vera valutazione delle competenze di intelligenza artificiale, che richiede un pensiero sostenibile su molti passi. Ciò corrisponde al consenso di molti esperti che considerano gli attuali parametri di riferimento inadeguati per una valutazione precisa delle competenze dei modelli AI.
Per garantire che Frontiermath rimanga pertinente e stimolante, Epoch AI sta pianificando di continuare a lavorare con la comunità di ricerca matematica e AI. L'organizzazione intende eseguire revisioni regolari al fine di fornire una scala standardizzata per i progressi e come le capacità di pensiero migliorano nel tempo e il ridimensionamento.
I dettagli su questo entusiasmante argomento sono disponibili nell'articolo su www.itnews.a>.
Kommentare (0)