Epoch Ai apresenta Frontiermath: New Markesk for Ai Matters
Epoch Ai apresenta Frontiermath: New Markesk for Ai Matters
Em um desenvolvimento emocionante no mundo da inteligência artificial, a organização de pesquisa sem fins lucrativos Epoch Ai introduziu uma nova ferramenta de referência chamada FrontierMath. Esta ferramenta é voltada para grandes modelos de voz (LLMS) e visa testar suas habilidades nas áreas de pensamento lógico e resolução de problemas matemáticos.
A coisa especial sobre Frontiermath são as centenas de perguntas especializadas da matemática que nunca foram publicadas. Essas perguntas devem oferecer uma maneira contínua de monitorar o progresso da IA em processos complexos de pensamento matemático. O espectro varia de problemas aritméticos na teoria dos números a análises reais a questões abstratas na geometria algébrica e na teoria da categoria.
Desenvolvimento em cooperação com especialistas
A IA enfatizou que eles trabalharam em conjunto com mais de 60 matemáticos de instituições líderes no desenvolvimento dessa referência, incluindo professores, autores de questões da IMO e medalhistas de campos. A equipe está convencida de que mesmo os LLMs mais avançados nesse novo benchmark só conseguiram obter menos de dois por cento de pontuação.
A organização enfatiza que os benchmarks existentes, como GSM8K e matemática, são inadequados porque são suscetíveis à poluição dos dados e os modelos de IA tendem a alcançar pontuações excessivamente altas. A FrontierMath deve resolver esses problemas, introduzindo várias tarefas exclusivas e não publicadas que minimizam o risco de poluição dos dados. Os problemas fornecidos são projetados de tal maneira que eles são "conselhos - livres" - eles só podem ser resolvidos por meio de um pensamento lógico conclusivo, o que torna as respostas aleatórias muito improváveis.
As tarefas desenvolvidas como parte do trabalho de pesquisa são caracterizadas por grandes respostas numéricas ou objetos matemáticos complexos como soluções. Sem o pensamento lógico necessário, a probabilidade de aconselhar corretamente é inferior a um por cento. A Epoch AI considera que os benchmarks devem se concentrar na solução criativa de problemas na avaliação real das habilidades de IA, que requer pensamento sustentável em muitos passos. Isso corresponde ao consenso de muitos especialistas que consideram os referências atuais inadequados para uma avaliação precisa das habilidades dos modelos de IA.
Para garantir que a Frontiermath permaneça relevante e desafiadora, a Epoch IA planeja continuar trabalhando com a comunidade de pesquisa de matemática e IA. A organização pretende realizar críticas regulares para fornecer uma escala padronizada para o progresso e como as habilidades de pensamento melhoram com o tempo e a escala.
Detalhes sobre este tópico emocionante podem ser encontrados no artigo wwwnwwwwwwwn.
Kommentare (0)