Epoch AI przedstawia Frontiermath: New Yardstick dla AI Matters

Epoch AI przedstawia Frontiermath: New Yardstick dla AI Matters

W ekscytującym rozwoju w świecie sztucznej inteligencji epoch AI organizacji badawczej non-profit wprowadziła nowe narzędzie porównawcze o nazwie Frontiermath. To narzędzie jest skierowane do dużych modeli głosowych (LLM) i ma na celu przetestowanie swoich umiejętności w obszarach logicznego myślenia i rozwiązywania problemów matematycznych.

Specjalną rzeczą w Frontiermath to setki specjalistycznych pytań z matematyki, które nigdy nie zostały opublikowane. Pytania te powinny oferować ciągły sposób monitorowania postępów AI w złożonych procesach myślenia matematycznego. Widmo waha się od problemów arytmetycznych w teorii liczb po rzeczywiste analizy po abstrakcyjne pytania w geometrii algebraicznej i teorii kategorii.

Rozwój we współpracy z ekspertami

Epoch AI podkreślił, że współpracowali z ponad 60 matematykami z wiodących instytucji w opracowywaniu tego punktu odniesienia, w tym profesorami, autorów IMO Issues i Medalistów Fields. Zespół jest przekonany, że nawet najbardziej zaawansowane LLM w tym nowym odniesieniu mogą osiągnąć tylko mniej niż dwa procent.

Organizacja podkreśla, że ​​istniejące punkty odniesienia, takie jak GSM8K i matematyka, są nieodpowiednie, ponieważ są podatne na zanieczyszczenie danych, a modele AI mają tendencję do osiągania nadmiernie wysokich wyników. Frontiermath powinien rozwiązać te problemy, wprowadzając szereg unikalnych, niepublikowanych zadań, które minimalizują ryzyko zanieczyszczenia danych. Zapewnione problemy są zaprojektowane w taki sposób, że są „wolne od porady” - można je rozwiązać tylko poprzez rozstrzygające, logiczne myślenie, co sprawia, że ​​przypadkowe odpowiedzi są bardzo mało prawdopodobne.

Zadania opracowane w ramach prac badawczych charakteryzują się dużymi odpowiedziami numerycznymi lub złożonymi obiektami matematycznymi jako rozwiązania. Bez niezbędnego logicznego myślenia prawdopodobieństwo prawidłowego doradzania jest mniejsze niż jeden procent. Epoch AI uważa, że ​​punkty odniesienia powinny skoncentrować się na kreatywnym rozwiązywaniu problemów na prawdziwą ocenę umiejętności AI, co wymaga zrównoważonego myślenia w wielu krokach. Odpowiada to konsensusowi wielu ekspertów, którzy uważają obecne punkty odniesienia za nieodpowiednie dla dokładnej oceny umiejętności modeli AI.

Aby upewnić się, że Frontiermath pozostanie aktualny i trudny, Epoch AI planuje nadal współpracować z społecznością matematyki i AI. Organizacja zamierza przeprowadzić regularne recenzje w celu zapewnienia znormalizowanej skali postępu i sposobu ulepszenia umiejętności myślenia w czasie i skalowania.

Szczegóły na ten ekscytujący temat można znaleźć w artykule na www.itnews.asia .