Epoch AI bemutatja a Frontiermath -ot: Új mércét az AI ügyekben
Epoch AI bemutatja a Frontiermath -ot: Új mércét az AI ügyekben
A mesterséges intelligencia világának izgalmas fejlődésében a nonprofit kutatási szervezet, az Epoch AI bemutatta a Frontiermath nevű új referencia eszközt. Ez az eszköz a nagy hangmodellekre (LLM) célozza meg, és célja, hogy tesztelje képességeiket a logikai gondolkodás és a matematikai problémamegoldás területén.
A Frontiermath különleges dolga a matematika több száz speciális kérdése, amelyeket még soha nem tettek közzé. Ezeknek a kérdéseknek folyamatos módszert kell kínálniuk az AI előrehaladásának nyomon követésére a komplex matematikai gondolkodási folyamatokban. A spektrum a számelmélet számtani problémáitól a valós elemzésekig terjed, az absztrakt kérdésekig az algebrai geometria és a kategóriaelméletben.
Fejlesztés a szakértőkkel együttműködésben
AEPOCH AI hangsúlyozta, hogy együtt dolgoztak több mint 60 vezető intézményből származó matematikusokkal a referenciaérték kidolgozásában, ideértve a professzorokat, az IMO -kiadások szerzőit és a Fields -érméket. A csapat meg van győződve arról, hogy még az új referenciaérték legfejlettebb LLMS is csak kevesebb, mint két százalékos pontszámot tud elérni.
A szervezet hangsúlyozza, hogy a meglévő referenciaértékek, mint például a GSM8K és a Math, nem megfelelőek, mivel hajlamosak az adatszennyezésre, és az AI modellek általában túl magas pontszámot érnek el. A Frontiermath -nak meg kell oldania ezeket a problémákat számos egyedi, nem publikált feladat bevezetésével, amelyek minimalizálják az adatszennyezés kockázatát. A biztosított problémákat oly módon tervezték, hogy "tanácsadás -mentes" - csak meggyőző, logikai gondolkodással oldhatók meg, ami a véletlenszerű válaszokat nagyon valószínűtlenné teszi.
A kutatási munka részeként kifejlesztett feladatokat nagy numerikus válaszok vagy komplex matematikai objektumok oldatokként jellemzik. A szükséges logikai gondolkodás nélkül a helyes tanácsadás valószínűsége kevesebb, mint egy százalék. Az Epoch AI úgy véli, hogy a referenciaértékeknek a kreatív problémamegoldásra kell koncentrálniuk az AI készségek valódi értékelésére, amely sok lépésben fenntartható gondolkodást igényel. Ez megegyezik sok szakértő konszenzusával, akik a jelenlegi referenciaértékeket nem megfelelőnek tartják az AI modellek készségeinek pontos értékeléséhez.
Annak biztosítása érdekében, hogy a Frontiermath továbbra is releváns és kihívásokkal teli, az Epoch AI azt tervezi, hogy továbbra is együttműködik a matematikával és az AI kutatási közösséggel. A szervezet rendszeres áttekintéseket kíván elvégezni annak érdekében, hogy szabványosított skálát biztosítson az előrehaladáshoz, és hogyan javul a gondolkodási készségek az idő és a méretezés során.
Ennek az izgalmas témának a részletei megtalálhatók a on www.itnews.aws.ysia .