Epoch AI представя Frontiermath: Нов критерий за AI Matters

13. November 2024

WOM

Artikel als PDF

Kommentare

Diesen Artikel teilen:

В вълнуващо развитие в света на изкуствения интелект, нестопанската изследователска организация EPOCH AI въведе нов еталон, наречен Frontiermath. Този инструмент е насочен към големи гласови модели (LLM) и е предназначен да тества своите умения в областите на логическото мислене и решаването на проблеми с математиката.

Специалното нещо за Frontiermath са стотиците специализирани въпроси от математиката, които никога не са публикувани. Тези въпроси трябва да предлагат непрекъснат начин за наблюдение на напредъка на AI в сложни математически процеси на мислене. Спектърът варира от аритметични проблеми в теорията на броя до реалните анализи до абстрактните въпроси в алгебраичната геометрия и теорията на категорията.

Развитие в сътрудничество с експерти

Epoch AI подчерта, че те са работили заедно с над 60 математици от водещи институции в разработването на този еталон, включително професори, автори на IMO проблеми и медалисти от полета. Екипът е убеден, че дори най -напредналите LLM на този нов показател могат да постигнат само по -малко от два процента резултат.

Организацията подчертава, че съществуващите показатели като GSM8K и MATH са недостатъчни, тъй като са податливи на замърсяване на данните и AI модели са склонни да постигат прекомерно високи резултати. Frontiermath трябва да реши тези проблеми, като въведе редица уникални, непубликувани задачи, които свеждат до минимум риска от замърсяване на данните. Предоставените проблеми са проектирани по такъв начин, че да са „без съвети“ - те могат да бъдат решени само чрез категорично, логично мислене, което прави случайни отговори много малко вероятни.

Задачите, разработени като част от изследователската работа, се характеризират с големи числени отговори или сложни математически обекти като решения. Без необходимото логическо мислене вероятността правилно да се съветва е по -малка от един процент. Epoch AI приема мнението, че показателите трябва да се концентрират върху творческото решаване на проблеми с реалната оценка на уменията за AI, което изисква устойчиво мислене на много стъпки. Това съответства на консенсуса на много експерти, които смятат, че настоящите показатели са недостатъчни за точна оценка на уменията на модели на AI.

За да гарантира, че Frontiermath остава уместен и предизвикателен, Epoch AI планира да продължи да работи с математиката и изследователската общност на AI. Организацията възнамерява да извършва редовни отзиви, за да осигури стандартизиран мащаб за напредък и как мислещите умения се подобряват с течение на времето и мащабирането.

Подробности по тази вълнуваща тема можете да намерите в статията on www.itnews.asia .