Epoch AI prezentē FrontierMath: Jauns kritērijs AI Matters

13. November 2024

WOM

Artikel als PDF

Kommentare

Diesen Artikel teilen:

Aizraujošā attīstībā mākslīgā intelekta pasaulē bezpeļņas pētījumu organizācija Epoch AI iepazīstināja ar jaunu etalona rīku ar nosaukumu Frontiermath. Šis rīks ir paredzēts lieliem balss modeļiem (LLMS), un tas ir paredzēts, lai pārbaudītu viņu prasmes loģiskās domāšanas un matemātiskās problēmu risināšanas jomā.

Īpašā lieta par Frontiermath ir simtiem speciālistu jautājumu no matemātikas, kas nekad nav publicēti. Šiem jautājumiem vajadzētu piedāvāt nepārtrauktu veidu, kā uzraudzīt AI progresu sarežģītos matemātiskās domāšanas procesos. Spektrs svārstās no aritmētiskām problēmām skaitļu teorijā līdz reālai analīzei līdz abstraktiem jautājumiem algebriskajā ģeometrijā un kategorijas teorijā.

Attīstība sadarbībā ar ekspertiem

Epoch AI ir uzsvēris, ka viņi strādāja kopā ar vairāk nekā 60 matemātiķiem no vadošajām institūcijām šī etalona izstrādē, ieskaitot profesorus, IMO jautājumu autorus un lauku medaļniekus. Komanda ir pārliecināta, ka pat vismodernākie LLM šajā jaunajā etalonā var sasniegt tikai mazāk nekā divu procentu punktu skaitu.

Organizācija uzsver, ka esošie etaloni, piemēram, GSM8K un matemātika, ir nepietiekami, jo tie ir jutīgi pret datu piesārņojumu un AI modeļiem ir tendence sasniegt pārmērīgi augstus rādītājus. Frontiermath vajadzētu atrisināt šīs problēmas, ieviešot vairākus unikālus, nepublicētus uzdevumus, kas samazina datu piesārņojuma risku. Sniegtās problēmas ir izstrādātas tādā veidā, ka tās ir “bez padomiem” - tās var atrisināt tikai ar pārliecinošu, loģisku domāšanu, kas nejaušas atbildes padara ļoti maz ticamu.

Uzdevumi, kas izstrādāti kā daļa no pētniecības darba, raksturo lielas skaitliskas atbildes vai sarežģīti matemātiski objekti kā risinājumi. Bez nepieciešamās loģiskās domāšanas iespējamība pareizi ieteikt ir mazāks par vienu procentu. Epoch AI uzskata, ka etaloniem būtu jākoncentrējas uz radošu problēmu risināšanu, lai reāli novērtētu AI prasmes, kurām daudzos soļos nepieciešama ilgtspējīga domāšana. Tas atbilst daudzu ekspertu vienprātībai, kuri pašreizējos etalonus uzskata par nepietiekamu, lai precīzi novērtētu AI modeļu prasmes.

Lai nodrošinātu, ka Frontiermath joprojām ir aktuāls un izaicinošs, Epoch AI plāno turpināt sadarboties ar matemātikas un AI pētījumu kopienu. Organizācija plāno veikt regulāras atsauksmes, lai nodrošinātu standartizētu progresa mērogu un to, kā domāšanas prasmes laika gaitā un mērogošana uzlabojas.

Sīkāka informācija par šo aizraujošo tēmu ir atrodama rakstā .sidebar { width: 300px; min-width:300px; position: sticky; top: 0; align-self: flex-start; } .contentwrapper { display: flex ; gap: 20px; overflow-wrap: anywhere; } @media (max-width:768px){ .contentwrapper { flex-direction: column; } .sidebar{display:none;} } .sidebar_sharing { display: flex; justify-content: space-between; } .sidebar_sharing a { background-color: #e6e6e6; padding: 5px 10px; margin: 0; font-size: .95rem; transform: none; border-radius: 5px; display: inline-block; text-decoration: none; color:#333; display: inline-flex; justify-content: space-between; } .sidebar_sharing a:hover { background-color: #333; color:#fff; } .sidebar_box { padding: 15px; margin-bottom: 20px; box-shadow: 0 2px 5px rgba(0, 0, 0, .1); border-radius: 5px; margin-top: 20px; } a.social__item { color: black; } .translate-dropdown { background-color: #e6e6e6; padding: 5px 10px; margin: 0; font-size: .8em; transform: none; border-radius: 5px; display: inline-block; text-decoration: none; color: #333; margin-bottom: 8px; } .translate-dropdown { position: relative; display: inline-flex; align-items: center; width: 100%; justify-content: space-between; height: 36px; } .translate-dropdown label { margin-right: 10px; color: #000; font-size: .95rem; } .article-meta { gap:0 !important; } .author-label, .modified-label, .published-label, modified-label { font-weight: 300 !important; } .date_autor_sidebar { background-color: #e6e6e6; padding: 5px 10px; margin: 0; font-size: .8em; transform: none; border-radius: 5px; text-decoration: none; color: #333; display: flex; justify-content: space-between; margin-bottom: 8px; } .sidebar_autor { background: #333; border-radius: 4px; color: #fff; padding: 0px 5px; font-size: .95rem; } time.sidebar_time, .translateSelectlabel, sidebar_time { margin-top: 2px; color:#000; font-style:normal; font-size:.95rem; } .sidebar_updated_time { background-color: #e6e6e6; padding: 5px 10px; margin: 0; font-size: .8em; transform: none; border-radius: 5px; text-decoration: none; color: #333; display: flex; justify-content: space-between; margin-bottom: 8px; } time.sidebar_updated_time_inner { background: #333; border-radius: 4px; color: #fff;; padding: 2px 6px; } .translate-dropdown .translate { color: #fff; !important; background-color: #333; } .translate-dropdown .translate:hover { color: #fff; !important; background-color: #b20e10 !important; } .share-button svg, .translate-dropdown .translate svg { fill: #fff; } span.modified-label { margin-top: 2px; color: #000; font-size: .95rem; font-weight: normal !important; } .ad_sidebar{ padding:0; border: none; } .ad_leaderboard { margin-top: 10px; margin-bottom: 10px; } .pdf_sidebar:hover { background: #b20e10; } span.sidebar_time { font-size: .95rem; margin-top: 3px; color: #000; } table.wp-block-table { white-space: normal; } input {padding: 8px;width: 200px;border: 1px solid #ddd;border-radius: 5px;} .comments { margin-top: 30px; } .comments ul { list-style: none; padding: 0; } .comments li { border-bottom: 1px solid #ddd; padding: 10px 0; } .comment-form { margin-top: 15px; display: flex; flex-direction: column; gap: 10px; } .comment-form textarea { width: 100%; padding: 8px; border: 1px solid #ddd; border-radius: 5px;} .comment-form button { align-self: flex-start; background: #333; color:#fff; border:0; padding:8px 15px; border-radius:5px; cursor:pointer; } .comment-form button:hover { background: #b20e10; }

Epoch AI prezentē FrontierMath: Jauns kritērijs AI Matters

Attīstība sadarbībā ar ekspertiem

Kommentare (0)