Epoch AI esitleb esiküljel: AI jaoks uus mõõdupuu

13. November 2024, 07:28 Uhr

Von WOM

Tehisintellekti maailmas põnevas arengus tutvustas mittetulundusühing Epoch AI uut võrdlusaluse tööriista nimega Frontmath. See tööriist on suunatud suurtele häälmudelitele (LLM -idele) ja selle eesmärk on testida nende oskusi loogilise mõtlemise ja matemaatiliste probleemide lahendamise valdkonnas.

Frontmathi eriline asi on sadu matemaatika spetsialiseerunud küsimusi, mida pole kunagi avaldatud. Need küsimused peaksid pakkuma pidevat viisi AI edenemise jälgimiseks keerukates matemaatilistes mõtlemisprotsessides. Spekter ulatub arvuteooria aritmeetilistest probleemidest kuni reaalsete analüüsideni kuni abstraktsete küsimusteni algebralise geomeetria ja kategooriateooria osas.

areng koostöös ekspertidega

Epoch AI on rõhutanud, et nad tegid koostööd enam kui 60 matemaatikuga juhtivatest asutustest selle võrdlusaluse arendamisel, sealhulgas professorid, IMO väljaannete ja valdkondade medalistide autorid. Meeskond on veendunud, et isegi selle uue võrdlusaluse kõige arenenumad LLM -id võivad saavutada ainult vähem kui kahe protsendi tulemuse.

Organisatsioon rõhutab, et olemasolevad võrdlusalused nagu GSM8K ja matemaatika on ebapiisavad, kuna need on vastuvõtlikud andmete reostusele ja AI mudelid saavutavad tavaliselt liiga kõrged hinded. Esikülg peaks need probleemid lahendama, tutvustades mitmeid ainulaadseid avaldamata ülesandeid, mis minimeerivad andmete reostuse riski. Pakutavad probleemid on kavandatud nii, et need on "nõuanded" - neid saab lahendada ainult veenva ja loogilise mõtlemise kaudu, mis teeb juhuslikud vastused väga ebatõenäoliseks.

Uurimistööna välja töötatud ülesandeid iseloomustavad suured numbrilised vastused või keerulised matemaatilised objektid lahendustena. Ilma vajaliku loogilise mõtlemiseta on õigesti nõustamise tõenäosus vähem kui üks protsent. Epoch AI võtab seisukoha, et võrdlusalused peaksid keskenduma loomingulisele probleemide lahendamisele AI -oskuste tegelikule hindamisele, mis nõuab jätkusuutlikku mõtlemist paljude sammude jooksul. See vastab paljude ekspertide konsensusele, kes peavad praeguseid võrdlusaluseid AI -mudelite oskuste täpseks hindamiseks ebapiisavaks.

Esilennuki asjakohase ja keeruka tagamiseks plaanib Epoch AI jätkata koostööd matemaatika ja AI teadusringkonnaga. Organisatsioon kavatseb korrapäraseid ülevaateid läbi viia, et pakkuda standardiseeritud ulatust edusammudele ja sellele, kuidas mõtlemisoskused aja jooksul ja skaleerimisel paranevad.

Selle põneva teema üksikasjad leiate artiklist www.