Epocha AI představuje Frontiermath: Nový měřítko pro záležitosti AI
Epocha AI představuje Frontiermath: Nový měřítko pro záležitosti AI
Ve vzrušujícím vývoji ve světě umělé inteligence zavedla nezisková výzkumná organizace Epocha AI nový benchmark s názvem Frontiermath. Tento nástroj je zaměřen na velké hlasové modely (LLMS) a je určen k testování jejich dovedností v oblasti logického myšlení a řešení matematických problémů.
Zvláštní věcí na Frontiermathu jsou stovky specializovaných otázek z matematiky, které nikdy nebyly zveřejněny. Tyto otázky by měly nabídnout nepřetržitý způsob, jak sledovat pokrok AI ve složitých procesech matematického myšlení. Spektrum sahá od aritmetických problémů v teorii čísel až po skutečné analýzy až po abstraktní otázky v algebraické geometrii a teorii kategorií.
Vývoj ve spolupráci s odborníky
Epocha AI zdůraznila, že spolupracovali s více než 60 matematiky z předních institucí při vývoji tohoto benchmarku, včetně profesorů, autorů IMO problémů a medailistů v oboru. Tým je přesvědčen, že i nejpokročilejší LLM v tomto novém benchmarku dokázali dosáhnout méně než dvou procentních skóre.
Organizace zdůrazňuje, že stávající benchmarky, jako jsou GSM8K a Math, jsou nedostatečné, protože jsou náchylné k znečištění dat a modely AI mají tendenci dosáhnout příliš vysokého skóre. Frontiermath by měl tyto problémy vyřešit zavedením řady jedinečných nepublikovaných úkolů, které minimalizují riziko znečištění dat. Poskytnuté problémy jsou navrženy takovým způsobem, že se jedná o „radu - bez rady“ - lze je vyřešit pouze přesvědčivým logickým myšlením, což činí náhodné odpovědi velmi nepravděpodobné.
Úkoly vyvinuté jako součást výzkumných prací jsou charakterizovány velkými numerickými odpověďmi nebo složitými matematickými objekty jako řešení. Bez nezbytného logického myšlení je pravděpodobnost správného poradenství menší než jedno procento. Epocha AI zastává názor, že benchmarky by se měly soustředit na kreativní řešení problémů ke skutečnému posouzení dovedností AI, což vyžaduje udržitelné myšlení v mnoha krocích. To odpovídá konsensu mnoha odborníků, kteří považují současné benchmarky za nedostatečné pro přesné posouzení dovedností modelů AI.
Aby se zajistilo, že Frontiermath zůstává relevantní a náročný, Epoch AI plánuje pokračovat v práci s komunitou matematiky a výzkumné AI. Organizace má v úmyslu provádět pravidelné recenze, aby poskytla standardizované měřítko pro pokrok a jak se dovednosti myšlení v průběhu času a škálování zlepšují.
Podrobnosti o tomto vzrušujícím tématu naleznete v článku na www.itnews.asia.