Epoch AI predstavuje Frontiermath: Nové meradlo pre AI Matters

13. November 2024, 07:28 Uhr

Von WOM

V vzrušujúcom vývoji vo svete umelej inteligencie nezisková výskumná organizácia Epoch AI predstavila nový referenčný nástroj s názvom Frontiermath. Tento nástroj je zameraný na veľké hlasové modely (LLMS) a je určený na testovanie ich zručností v oblasti logického myslenia a riešenia matematických problémov.

Špeciálna vec na Frontiermath sú stovky špecializovaných otázok z matematiky, ktoré nikdy neboli zverejnené. Tieto otázky by mali ponúknuť nepretržitý spôsob monitorovania pokroku AI v zložitých procesoch matematického myslenia. Spektrum sa pohybuje od aritmetických problémov v teórii čísel až po skutočné analýzy až po abstraktné otázky v algebraickej geometrii a teórii kategórií.

Vývoj v spolupráci s odborníkmi

Epoch AI zdôraznila, že spolupracovali s viac ako 60 matematikmi z popredných inštitúcií pri rozvoji tohto referenčného hodnoty vrátane profesorov, autorov problémov IMO a medailistov z polí. Tím je presvedčený, že aj tie najpokročilejšie LLM v tomto novom referenčnom bode môžu dosiahnuť iba skóre menej ako dve percentá.

Organizácia zdôrazňuje, že existujúce referenčné hodnoty, ako sú GSM8K a Math, sú neprimerané, pretože sú náchylné na znečistenie údajov a modely AI majú tendenciu dosahovať príliš vysoké skóre. Frontiermath by mal tieto problémy vyriešiť zavedením množstva jedinečných, nepublikovaných úloh, ktoré minimalizujú riziko znečistenia údajov. Poskytnuté problémy sú navrhnuté tak, aby boli „rady - bezplatné“ - môžu byť vyriešené iba prostredníctvom presvedčivého logického myslenia, vďaka ktorému je náhodné odpovede veľmi nepravdepodobné.

Úlohy vyvinuté ako súčasť výskumnej práce sa vyznačujú veľkými numerickými odpoveďami alebo zložitými matematickými objektmi ako riešeniami. Bez potrebné logické myslenie je pravdepodobnosť správneho poradenstva nižšia ako jedno percento. Epoch AI zastáva názor, že referenčné hodnoty by sa mali sústrediť na tvorivé riešenie problémov s skutočným hodnotením zručností AI, čo si vyžaduje trvalo udržateľné myslenie nad mnohými krokmi. To zodpovedá konsenzu mnohých odborníkov, ktorí považujú súčasné referenčné hodnoty za neprimerané na presné posúdenie zručností modelov AI.

Aby sa zabezpečilo, že Frontiermath zostane relevantný a náročný, Epoch AI plánuje pokračovať v spolupráci s matematikou a výskumnou komunitou AI. Organizácia má v úmysle vykonávať pravidelné recenzie s cieľom poskytnúť štandardizovaný rozsah pre pokrok a ako sa schopnosť myslenia zlepšovať v priebehu času a škálovania.

Podrobnosti o tejto vzrušujúcej téme nájdete v článku na www.itneSs.ASS.ASASS.ASSS.ASSS.ASSS.ASSS.ASSS.ASS.ASS.ASSE.