Epoch AI prezintă Frontiermath: New YardStick pentru AI Matters

Epoch AI prezintă Frontiermath: New YardStick pentru AI Matters

Într-o dezvoltare interesantă în lumea inteligenței artificiale, organizația de cercetare non-profit Epoch AI a introdus un nou instrument de referință numit Frontiermath. Acest instrument se adresează modelelor vocale mari (LLM) și este destinat să -și testeze abilitățile în domeniile gândirii logice și rezolvării problemelor matematice.

Lucrul special despre Frontiermath este sutele de întrebări de specialitate din partea matematicii care nu au fost niciodată publicate. Aceste întrebări ar trebui să ofere o modalitate continuă de a monitoriza progresul AI în procesele de gândire matematică complexă. Spectrul variază de la probleme aritmetice din teoria numerelor până la analize reale la întrebări abstracte în geometria algebrică și teoria categoriei.

Dezvoltare în cooperare cu experți

Epoch AI a subliniat că au lucrat împreună cu peste 60 de matematicieni de la instituții de frunte în dezvoltarea acestui punct de referință, inclusiv profesori, autori ai problemelor IMO și medaliați în domeniu. Echipa este convinsă că chiar și cele mai avansate LLM -uri de pe acest nou punct de referință nu ar putea obține decât mai puțin de două procente.

Organizația subliniază că reperele existente, cum ar fi GSM8K și Math sunt inadecvate, deoarece sunt susceptibile la poluarea datelor, iar modelele AI tind să obțină scoruri excesiv de mari. Frontiermath ar trebui să rezolve aceste probleme prin introducerea mai multor sarcini unice, nepublicate, care reduc la minimum riscul de poluare a datelor. Problemele furnizate sunt concepute astfel încât acestea să fie „sfaturi” - pot fi rezolvate doar prin gândire concludentă, logică, ceea ce face ca răspunsurile aleatorii să fie foarte puțin probabile.

Sarcinile dezvoltate ca parte a activității de cercetare sunt caracterizate prin răspunsuri numerice mari sau obiecte matematice complexe ca soluții. Fără gândirea logică necesară, probabilitatea de a consiliere corectă este mai mică de un procent. Epoch AI consideră că valorile de referință ar trebui să se concentreze pe rezolvarea problemelor creative la evaluarea reală a abilităților AI, care necesită o gândire durabilă pe mai mulți pași. Acest lucru corespunde consensului multor experți care consideră reperele actuale ca fiind inadecvate pentru o evaluare precisă a abilităților modelelor AI.

Pentru a se asigura că Frontiermath rămâne relevant și provocator, Epoch AI intenționează să continue să lucreze cu comunitatea de cercetare matematică și AI. Organizația intenționează să efectueze recenzii periodice pentru a oferi o scară standardizată pentru progres și modul în care abilitățile de gândire se îmbunătățesc în timp și la scalare.

Detalii despre acest subiect interesant pot fi găsite în articolul pe www.itnews.asia .