Epoch AI esittelee Frontiermath: Uusi Yardstick for AI -asioissa

Epoch AI esittelee Frontiermath: Uusi Yardstick for AI -asioissa

Mielenkiintoisessa kehityksessä keinotekoisen älykkyyden maailmassa voittoa tavoittelematon tutkimusorganisaatio EPOCH AI esitteli uuden vertailutyökalun nimeltä Frontiermath. Tämä työkalu on suunnattu suurille äänimalleille (LLMS), ja sen tarkoituksena on testata taitojaan loogisen ajattelun ja matemaattisen ongelmanratkaisun aloilla.

Frontiermathin erityinen asia on satoja matematiikan erikoiskysymyksiä, joita ei ole koskaan julkaistu. Näiden kysymysten tulisi tarjota jatkuva tapa seurata AI: n etenemistä monimutkaisissa matemaattisten ajatteluprosesseissa. Spektri vaihtelee lukuteorian aritmeettisista ongelmista todellisiin analyyseihin abstraktiin kysymyksiin algebrallisessa geometriassa ja luokkateoriassa.

Kehitys yhteistyössä asiantuntijoiden kanssa

Epoch AI on korostanut, että he työskentelivät yhdessä yli 60 matemaatikon kanssa johtavien instituutioiden kanssa tämän vertailuarvojen kehittämisessä, mukaan lukien professorit, IMO -kysymyksen kirjoittajat ja kenttien mitalistit. Joukkue on vakuuttunut siitä, että jopa edistyneimmät LLM: t tässä uudessa vertailukohdassa voisi saavuttaa vain alle kahden prosentin pistemäärän.

Organisaatio korostaa, että olemassa olevat vertailuarvot, kuten GSM8K ja matematiikka, ovat riittämättömiä, koska ne ovat alttiita tietojen pilaantumiselle ja AI -malleilla on taipumus saavuttaa liian korkeat pisteet. Frontiermathin tulisi ratkaista nämä ongelmat ottamalla käyttöön useita ainutlaatuisia, julkaisemattomia tehtäviä, jotka minimoivat tietojen pilaantumisen riskin. Tarjotut ongelmat on suunniteltu siten, että ne ovat "neuvoja - vapaat" - ne voidaan ratkaista vain vakuuttavan loogisen ajattelun avulla, mikä tekee satunnaisista vastauksista erittäin epätodennäköisiä.

Osana tutkimustyötä kehitettyjä tehtäviä on ominaista suuret numeeriset vastaukset tai monimutkaiset matemaattiset esineet ratkaisuina. Ilman tarvittavaa loogista ajattelua oikein neuvonnan todennäköisyys on vähemmän kuin yksi prosentti. Epoch AI suhtautuu näkemykseen, että vertailuarvojen tulisi keskittyä luovaan ongelmanratkaisuun AI -taitojen todelliseen arviointiin, joka vaatii kestävää ajattelua monissa vaiheissa. Tämä vastaa monien asiantuntijoiden yksimielisyyttä, jotka pitävät nykyisiä vertailuarvoja riittämättömänä AI -mallien taitojen tarkan arvioinnin suhteen.

varmistaakseen, että frontiermath on edelleen merkityksellinen ja haastava, APOCH AI aikoo jatkaa yhteistyötä matematiikan ja AI -tutkimusyhteisön kanssa. Organisaatio aikoo suorittaa säännöllisiä arvosteluja standardisoidun asteikon tarjoamiseksi edistymiselle ja siitä, kuinka ajattelutaitot paranevat ajan myötä ja skaalaamiseen.

Yksityiskohdat tästä jännittävästä aiheesta löytyy artikkelista On www.itnews.

Kommentare (0)