Epoch AI presenta Frontiermath: Nuevo criterio para AI Matters

Epoch AI presenta Frontiermath: Nuevo criterio para AI Matters

En un desarrollo emocionante en el mundo de la inteligencia artificial, la organización de investigación sin fines de lucro Epoch AI introdujo una nueva herramienta de referencia llamada Frontiermath. Esta herramienta está dirigida a grandes modelos de voz (LLM) y está destinado a probar sus habilidades en las áreas de pensamiento lógico y resolución de problemas matemáticos.

Lo especial de Frontiermath son los cientos de preguntas especializadas de matemáticas que nunca se han publicado. Estas preguntas deben ofrecer una forma continua de monitorear el progreso de la IA en procesos de pensamiento matemático complejos. El espectro abarca desde problemas aritméticos en la teoría de números hasta análisis reales hasta preguntas abstractas en geometría algebraica y teoría de categorías.

Desarrollo en cooperación con expertos

Epoch AI ha enfatizado que trabajaron junto con más de 60 matemáticos de instituciones líderes en el desarrollo de este punto de referencia, incluidos profesores, autores de temas de Imo y medallistas de campos. El equipo está convencido de que incluso los LLM más avanzados en este nuevo punto de referencia solo podrían lograr un puntaje de menos del dos por ciento.

La organización enfatiza que los puntos de referencia existentes como GSM8K y Math son inadecuados porque son susceptibles a la contaminación de datos y los modelos de IA tienden a lograr puntajes excesivamente altos. Frontiermath debe resolver estos problemas mediante la introducción de una serie de tareas únicas e inéditas que minimizan el riesgo de contaminación de datos. Los problemas proporcionados están diseñados de tal manera que son "sin consejos", solo se pueden resolver a través del pensamiento concluyente y lógico, lo que hace que las respuestas aleatorias sean muy poco probables.

Las tareas desarrolladas como parte del trabajo de investigación se caracterizan por grandes respuestas numéricas o objetos matemáticos complejos como soluciones. Sin el pensamiento lógico necesario, la probabilidad de asesorar correctamente es inferior al uno por ciento. Epoch AI considera que los puntos de referencia deben concentrarse en la resolución creativa de problemas a la evaluación real de las habilidades de IA, lo que requiere un pensamiento sostenible en muchos pasos. Esto corresponde al consenso de muchos expertos que consideran que los puntos de referencia actuales son inadecuados para una evaluación precisa de las habilidades de los modelos de IA.

Para garantizar que Frontiermath siga siendo relevante y desafiante, Epoch AI planea continuar trabajando con la comunidad de Investigación de Matemáticas e IA. La organización tiene la intención de llevar a cabo revisiones regulares para proporcionar una escala estandarizada para el progreso y cómo las habilidades de pensamiento mejoran con el tiempo y la escala.

Los detalles sobre este emocionante tema se pueden encontrar en el artículo en wwww.itnews.s.asia .

Kommentare (0)