Epoch AI bemutatja a Frontiermath -ot: Új mércét az AI ügyekben

13. November 2024, 07:28 Uhr

Von WOM

A mesterséges intelligencia világának izgalmas fejlődésében a nonprofit kutatási szervezet, az Epoch AI bemutatta a Frontiermath nevű új referencia eszközt. Ez az eszköz a nagy hangmodellekre (LLM) célozza meg, és célja, hogy tesztelje képességeiket a logikai gondolkodás és a matematikai problémamegoldás területén.

A Frontiermath különleges dolga a matematika több száz speciális kérdése, amelyeket még soha nem tettek közzé. Ezeknek a kérdéseknek folyamatos módszert kell kínálniuk az AI előrehaladásának nyomon követésére a komplex matematikai gondolkodási folyamatokban. A spektrum a számelmélet számtani problémáitól a valós elemzésekig terjed, az absztrakt kérdésekig az algebrai geometria és a kategóriaelméletben.

Fejlesztés a szakértőkkel együttműködésben

EPOCH AI hangsúlyozta, hogy együtt dolgoztak több mint 60 vezető intézményből származó matematikusokkal a referenciaérték kidolgozásában, ideértve a professzorokat, az IMO -kiadások szerzőit és a Fields -érméket. A csapat meg van győződve arról, hogy még az új referenciaérték legfejlettebb LLMS is csak kevesebb, mint két százalékos pontszámot tud elérni.

A szervezet hangsúlyozza, hogy a meglévő referenciaértékek, mint például a GSM8K és a Math, nem megfelelőek, mivel hajlamosak az adatszennyezésre, és az AI modellek általában túl magas pontszámot érnek el. A Frontiermath -nak meg kell oldania ezeket a problémákat számos egyedi, nem publikált feladat bevezetésével, amelyek minimalizálják az adatszennyezés kockázatát. A biztosított problémákat oly módon tervezték, hogy "tanácsadás -mentes" - csak meggyőző, logikai gondolkodással oldhatók meg, ami a véletlenszerű válaszokat nagyon valószínűtlenné teszi.

A kutatási munka részeként kifejlesztett feladatokat nagy numerikus válaszok vagy komplex matematikai objektumok oldatokként jellemzik. A szükséges logikai gondolkodás nélkül a helyes tanácsadás valószínűsége kevesebb, mint egy százalék. Az Epoch AI úgy véli, hogy a referenciaértékeknek a kreatív problémamegoldásra kell koncentrálniuk az AI készségek valódi értékelésére, amely sok lépésben fenntartható gondolkodást igényel. Ez megegyezik sok szakértő konszenzusával, akik a jelenlegi referenciaértékeket nem megfelelőnek tartják az AI modellek készségeinek pontos értékeléséhez.

Annak biztosítása érdekében, hogy a Frontiermath továbbra is releváns és kihívásokkal teli, az Epoch AI azt tervezi, hogy továbbra is együttműködik a matematikával és az AI kutatási közösséggel. A szervezet rendszeres áttekintéseket kíván elvégezni annak érdekében, hogy szabványosított skálát biztosítson az előrehaladáshoz, és hogyan javul a gondolkodási készségek az idő és a méretezés során.

Ennek az izgalmas témának a részletei megtalálhatók a on www.itnews.aws.ysia .