Epoch AI presenterer Frontiermath: New Yardstick for AI Matters
Epoch AI presenterer Frontiermath: New Yardstick for AI Matters
I en spennende utvikling i verden av kunstig intelligens, introduserte den ideelle organisasjonen forskningsorganisasjon Epoch AI et nytt referanseverktøy kalt Frontiermath. Dette verktøyet er rettet mot store stemmemodeller (LLM) og er ment å teste ferdighetene sine innen områdene logisk tenking og matematisk problemløsning.
Det spesielle med Frontiermath er de hundrevis av spesialistspørsmål fra matematikk som aldri har blitt publisert. Disse spørsmålene skal tilby en kontinuerlig måte å overvåke fremdriften til AI i komplekse matematiske tenkningsprosesser. Spekteret spenner fra aritmetiske problemer i tallteorien til reelle analyser til abstrakte spørsmål i algebraisk geometri og kategori teori.
Utvikling i samarbeid med eksperter
Epoch AI har lagt vekt på at de jobbet sammen med over 60 matematikere fra ledende institusjoner for å utvikle dette målestokken, inkludert professorer, forfattere av IMO -spørsmål og feltmedaljevinner. Laget er overbevist om at selv de mest avanserte LLM -ene på denne nye målestokken bare kunne oppnå mindre enn to prosent poengsum.
Organisasjonen understreker at eksisterende benchmarks som GSM8K og matematikk er utilstrekkelige fordi de er mottakelige for dataforurensning og AI -modeller har en tendens til å oppnå for høye score. Frontiermath bør løse disse problemene ved å innføre en rekke unike, upubliserte oppgaver som minimerer risikoen for dataforurensning. Problemene som er gitt er designet på en slik måte at de er "råd - gratis" - de kan bare løses gjennom avgjørende, logisk tenking, noe som gjør tilfeldige svar veldig usannsynlig.
Oppgavene som er utviklet som en del av forskningsarbeidet er preget av store numeriske svar eller komplekse matematiske objekter som løsninger. Uten nødvendig logisk tenking er sannsynligheten for å gi råd riktig enn en prosent. Epoch AI ser på at benchmarks skal konsentrere seg om kreativ problemløsning til den virkelige vurderingen av AI -ferdigheter, som krever bærekraftig tenkning over mange trinn. Dette tilsvarer konsensus fra mange eksperter som anser de nåværende målestokkene som utilstrekkelige for en presis vurdering av ferdighetene til AI -modeller.
For å sikre at Frontiermath forblir relevant og utfordrende, planlegger epoken AI å fortsette å samarbeide med matematikk- og AI -forskningssamfunnet. Organisasjonen har til hensikt å gjennomføre regelmessige anmeldelser for å gi en standardisert skala for fremgang og hvordan tenkningsevnen forbedres over tid og skalering.