Epoch AI przedstawia Frontiermath: New Yardstick dla AI Matters
Epoch AI przedstawia Frontiermath: New Yardstick dla AI Matters
W ekscytującym rozwoju w świecie sztucznej inteligencji epoch AI organizacji badawczej non-profit wprowadziła nowe narzędzie porównawcze o nazwie Frontiermath. To narzędzie jest skierowane do dużych modeli głosowych (LLM) i ma na celu przetestowanie swoich umiejętności w obszarach logicznego myślenia i rozwiązywania problemów matematycznych.
Specjalną rzeczą w Frontiermath to setki specjalistycznych pytań z matematyki, które nigdy nie zostały opublikowane. Pytania te powinny oferować ciągły sposób monitorowania postępów AI w złożonych procesach myślenia matematycznego. Widmo waha się od problemów arytmetycznych w teorii liczb po rzeczywiste analizy po abstrakcyjne pytania w geometrii algebraicznej i teorii kategorii.
Rozwój we współpracy z ekspertami
Epoch AI podkreślił, że współpracowali z ponad 60 matematykami z wiodących instytucji w opracowywaniu tego punktu odniesienia, w tym profesorami, autorów IMO Issues i Medalistów Fields. Zespół jest przekonany, że nawet najbardziej zaawansowane LLM w tym nowym odniesieniu mogą osiągnąć tylko mniej niż dwa procent.
Organizacja podkreśla, że istniejące punkty odniesienia, takie jak GSM8K i matematyka, są nieodpowiednie, ponieważ są podatne na zanieczyszczenie danych, a modele AI mają tendencję do osiągania nadmiernie wysokich wyników. Frontiermath powinien rozwiązać te problemy, wprowadzając szereg unikalnych, niepublikowanych zadań, które minimalizują ryzyko zanieczyszczenia danych. Zapewnione problemy są zaprojektowane w taki sposób, że są „wolne od porady” - można je rozwiązać tylko poprzez rozstrzygające, logiczne myślenie, co sprawia, że przypadkowe odpowiedzi są bardzo mało prawdopodobne.
Zadania opracowane w ramach prac badawczych charakteryzują się dużymi odpowiedziami numerycznymi lub złożonymi obiektami matematycznymi jako rozwiązania. Bez niezbędnego logicznego myślenia prawdopodobieństwo prawidłowego doradzania jest mniejsze niż jeden procent. Epoch AI uważa, że punkty odniesienia powinny skoncentrować się na kreatywnym rozwiązywaniu problemów na prawdziwą ocenę umiejętności AI, co wymaga zrównoważonego myślenia w wielu krokach. Odpowiada to konsensusowi wielu ekspertów, którzy uważają obecne punkty odniesienia za nieodpowiednie dla dokładnej oceny umiejętności modeli AI.
Aby upewnić się, że Frontiermath pozostanie aktualny i trudny, Epoch AI planuje nadal współpracować z społecznością matematyki i AI. Organizacja zamierza przeprowadzić regularne recenzje w celu zapewnienia znormalizowanej skali postępu i sposobu ulepszenia umiejętności myślenia w czasie i skalowania.
Szczegóły na ten ekscytujący temat można znaleźć w artykule na www.itnews.asia /a.a>.