Epochas AI pristato pasienį: naujas AI kriterijus

Epochas AI pristato pasienį: naujas AI kriterijus

Įdomiai plėtojant dirbtinio intelekto pasaulyje, ne pelno siekianti tyrimų organizacija „Epoch“ AI pristatė naują etaloninį įrankį, pavadintą „Frontiermath“. Šis įrankis skirtas dideliems balso modeliams (LLMS) ir yra skirta išbandyti savo įgūdžius loginio mąstymo ir matematinio problemų sprendimo srityse.

Ypatingas dalykas, susijęs su „Frontiermath“, yra šimtai specialistų matematikos klausimų, kurie niekada nebuvo paskelbti. Šie klausimai turėtų pasiūlyti nuolatinį būdą stebėti AI pažangą sudėtinguose matematinio mąstymo procesuose. Spektras svyruoja nuo aritmetinių problemų skaičių teorijoje iki tikrosios analizės iki abstrakčių klausimų algebrinėje geometrijoje ir kategorijų teorijoje.

bendradarbiaujant su ekspertais

Epochos AI pabrėžė, kad jie dirbo kartu su daugiau nei 60 matematikų iš pirmaujančių institucijų kuriant šį etaloną, įskaitant profesorius, Imo leidimų ir laukų medalininkų autorius. Komanda įsitikinusi, kad net patys pažangiausi LLM šiame naujame etalone gali pasiekti tik mažiau nei du procentus.

Organizacija pabrėžia, kad esami etalonai, tokie kaip GSM8K ir matematika, yra nepakankami, nes jie yra jautrūs duomenų taršai, o AI modeliai linkę pasiekti pernelyg aukštus balus. „Frontiermath“ turėtų išspręsti šias problemas įvesdamas daugybę unikalių, neskelbtų užduočių, kurios sumažina duomenų taršos riziką. Pateiktos problemos yra sukurtos taip, kad jos būtų „neteikiamos patarimo“ - jas galima išspręsti tik per įtikinamą, loginį mąstymą, todėl atsitiktiniai atsakymai yra labai mažai tikėtini.

Užduotoms, sukurtoms kaip tiriamojo darbo dalis, būdingi dideli skaitiniai atsakymai arba sudėtingi matematiniai objektai kaip sprendimai. Be reikiamo loginio mąstymo, teisingo patarimo tikimybė yra mažesnė nei vienas procentas. Epochos AI laikosi nuomonės, kad etalonai turėtų sutelkti dėmesį į kūrybinius problemų sprendimą, kad būtų galima įvertinti AI įgūdžius, kuriems reikia tvaraus mąstymo daugeliu žingsnių. Tai atitinka daugelio ekspertų, kurie mano, kad dabartiniai etalonai yra netinkami tiksliai įvertinti AI modelių įgūdžius, sutarimą.

Siekdama užtikrinti, kad pasienio pasienyje išliks aktuali ir sudėtinga, epocha AI planuoja toliau dirbti su matematikos ir AI tyrimų bendruomene. Organizacija ketina atlikti reguliarias apžvalgas, kad būtų užtikrinta standartizuota pažangos skalė ir tai, kaip mąstymo įgūdžiai pagerėja laikui bėgant ir mastelio keitimas.

Išsamią informaciją šia jaudinančia tema galite rasti straipsnyje