Epoch AI présente FrontitierArhath: Nouveau critère pour les questions de l'IA
Epoch AI présente FrontitierArhath: Nouveau critère pour les questions de l'IA
Dans un développement passionnant dans le monde de l'intelligence artificielle, l'Organisation de recherche à but non lucratif Epoch AI a introduit un nouvel outil de référence appelé FrontitierMath. Cet outil est destiné aux grands modèles vocaux (LLM) et vise à tester leurs compétences dans les domaines de la pensée logique et de la résolution de problèmes mathématiques.
La chose particulière à propos de FrontitierArt est les centaines de questions spécialisées des mathématiques qui n'ont jamais été publiées. Ces questions devraient offrir un moyen continu de surveiller les progrès de l'IA dans les processus de pensée mathématique complexes. Le spectre va des problèmes arithmétiques dans la théorie des nombres aux analyses réelles aux questions abstraites en géométrie algébrique et théorie des catégories.
Développement en coopération avec les experts
L'EPOCH AI a souligné qu'ils travaillaient avec plus de 60 mathématiciens de principaux institutions dans le développement de cette référence, y compris des professeurs, des auteurs de problèmes d'OMI et de médaillés de champs. L'équipe est convaincue que même les LLM les plus avancées de ce nouveau référence ne pouvaient atteindre un score de moins de 2%.
L'organisation souligne que les repères existants tels que GSM8K et les mathématiques sont inadéquats car ils sont sensibles à la pollution des données et les modèles d'IA ont tendance à obtenir des scores excessivement élevés. Frontitiermath devrait résoudre ces problèmes en introduisant un certain nombre de tâches uniques et non publiées qui minimisent le risque de pollution des données. Les problèmes fournis sont conçus de manière à ce qu'ils soient «des conseils et gratuits» - ils ne peuvent être résolus que par une pensée concluante et logique, ce qui rend les réponses aléatoires très improbables.
Les tâches développées dans le cadre des travaux de recherche sont caractérisées par de grandes réponses numériques ou des objets mathématiques complexes comme solutions. Sans la pensée logique nécessaire, la probabilité de conseiller correctement est inférieure à un pour cent. L'EPOCH AI considère que les repères devraient se concentrer sur la résolution créative de problèmes pour l'évaluation réelle des compétences en IA, ce qui nécessite une réflexion durable sur de nombreuses étapes. Cela correspond au consensus de nombreux experts qui considèrent les repères actuels comme inadéquats pour une évaluation précise des compétences des modèles d'IA.
Pour s'assurer que Frontitiermath reste pertinent et stimulant, Epoch AI prévoit de continuer à travailler avec la communauté des mathématiques et de l'IA. L'organisation a l'intention de réaliser des examens réguliers afin de fournir une échelle standardisée pour les progrès et comment les compétences de réflexion s'améliorent au fil du temps et de la mise à l'échelle.
Les détails sur ce sujet passionnant peuvent être trouvés dans l'article on www.itnews.asia