Epoch AI presenterar frontiermath: ny måttstock för AI -frågor

Epoch AI presenterar frontiermath: ny måttstock för AI -frågor

I en spännande utveckling i världen av artificiell intelligens introducerade den ideella forskningsorganisationen Epoch AI ett nytt referensverktyg som heter Frontiermath. Detta verktyg riktar sig till stora röstmodeller (LLM) och är avsett att testa sina färdigheter inom områdena logiskt tänkande och matematisk problemlösning.

Den speciella saken med Frontiermath är hundratals specialfrågor från matematik som aldrig har publicerats. Dessa frågor bör erbjuda ett kontinuerligt sätt att övervaka AI: s framsteg i komplexa matematiska tänkande. Spektrumet sträcker sig från aritmetiska problem i antaleteorin till verkliga analyser till abstrakta frågor i algebraisk geometri och kategorteori.

Utveckling i samarbete med experter

Epoch AI har betonat att de arbetade tillsammans med över 60 matematiker från ledande institutioner för att utveckla detta riktmärke, inklusive professorer, författare till IMO -frågor och områden medaljister. Teamet är övertygat om att även de mest avancerade LLM: erna på detta nya riktmärke bara skulle kunna uppnå mindre än två procent.

Organisationen betonar att befintliga riktmärken som GSM8K och Math är otillräckliga eftersom de är mottagliga för dataföroreningar och AI -modeller tenderar att uppnå alltför höga poäng. Frontiermath bör lösa dessa problem genom att införa ett antal unika, opublicerade uppgifter som minimerar risken för dataföroreningar. De problem som tillhandahålls är utformade på ett sådant sätt att de är "råd - fria" - de kan bara lösas genom avgörande, logiskt tänkande, vilket gör slumpmässiga svar mycket osannolika.

De uppgifter som utvecklats som en del av forskningsarbetet kännetecknas av stora numeriska svar eller komplexa matematiska objekt som lösningar. Utan nödvändigt logiskt tänkande är sannolikheten för att råda korrekt rådgivning mindre än en procent. Epoch AI anser att riktmärken bör koncentrera sig på kreativ problemlösning till den verkliga bedömningen av AI -färdigheter, vilket kräver hållbart tänkande över många steg. Detta motsvarar konsensus från många experter som anser att de nuvarande riktmärkena är otillräckliga för en exakt bedömning av färdigheterna hos AI -modeller.

För att säkerställa att frontiermath förblir relevant och utmanande planerar Epoch AI att fortsätta arbeta med matematik- och AI -forskarsamhället. Organisationen avser att genomföra regelbundna recensioner för att ge en standardiserad skala för framsteg och hur tänkande färdigheter förbättras över tid och skalning.

Detaljer om detta spännande ämne kan hittas i artikeln .sidebar { width: 300px; min-width:300px; position: sticky; top: 0; align-self: flex-start; } .contentwrapper { display: flex ; gap: 20px; overflow-wrap: anywhere; } @media (max-width:768px){ .contentwrapper { flex-direction: column; } .sidebar{display:none;} } .sidebar_sharing { display: flex; justify-content: space-between; } .sidebar_sharing a { background-color: #e6e6e6; padding: 5px 10px; margin: 0; font-size: .95rem; transform: none; border-radius: 5px; display: inline-block; text-decoration: none; color:#333; display: inline-flex; justify-content: space-between; } .sidebar_sharing a:hover { background-color: #333; color:#fff; } .sidebar_box { padding: 15px; margin-bottom: 20px; box-shadow: 0 2px 5px rgba(0, 0, 0, .1); border-radius: 5px; margin-top: 20px; } a.social__item { color: black; } .translate-dropdown { background-color: #e6e6e6; padding: 5px 10px; margin: 0; font-size: .8em; transform: none; border-radius: 5px; display: inline-block; text-decoration: none; color: #333; margin-bottom: 8px; } .translate-dropdown { position: relative; display: inline-flex; align-items: center; width: 100%; justify-content: space-between; height: 36px; } .translate-dropdown label { margin-right: 10px; color: #000; font-size: .95rem; } .article-meta { gap:0 !important; } .author-label, .modified-label, .published-label, modified-label { font-weight: 300 !important; } .date_autor_sidebar { background-color: #e6e6e6; padding: 5px 10px; margin: 0; font-size: .8em; transform: none; border-radius: 5px; text-decoration: none; color: #333; display: flex; justify-content: space-between; margin-bottom: 8px; } .sidebar_autor { background: #333; border-radius: 4px; color: #fff; padding: 0px 5px; font-size: .95rem; } time.sidebar_time, .translateSelectlabel, sidebar_time { margin-top: 2px; color:#000; font-style:normal; font-size:.95rem; } .sidebar_updated_time { background-color: #e6e6e6; padding: 5px 10px; margin: 0; font-size: .8em; transform: none; border-radius: 5px; text-decoration: none; color: #333; display: flex; justify-content: space-between; margin-bottom: 8px; } time.sidebar_updated_time_inner { background: #333; border-radius: 4px; color: #fff;; padding: 2px 6px; } .translate-dropdown .translate { color: #fff; !important; background-color: #333; } .translate-dropdown .translate:hover { color: #fff; !important; background-color: #b20e10 !important; } .share-button svg, .translate-dropdown .translate svg { fill: #fff; } span.modified-label { margin-top: 2px; color: #000; font-size: .95rem; font-weight: normal !important; } .ad_sidebar{ padding:0; border: none; } .ad_leaderboard { margin-top: 10px; margin-bottom: 10px; } .pdf_sidebar:hover { background: #b20e10; } span.sidebar_time { font-size: .95rem; margin-top: 3px; color: #000; } table.wp-block-table { white-space: normal; } input {padding: 8px;width: 200px;border: 1px solid #ddd;border-radius: 5px;} .comments { margin-top: 30px; } .comments ul { list-style: none; padding: 0; } .comments li { border-bottom: 1px solid #ddd; padding: 10px 0; } .comment-form { margin-top: 15px; display: flex; flex-direction: column; gap: 10px; } .comment-form textarea { width: 100%; padding: 8px; border: 1px solid #ddd; border-radius: 5px;} .comment-form button { align-self: flex-start; background: #333; color:#fff; border:0; padding:8px 15px; border-radius:5px; cursor:pointer; } .comment-form button:hover { background: #b20e10; }

Kommentare (0)