Estudo de IA mostra: as máquinas ficam no escuro ao ler os relógios!
Um estudo mostra que os modelos de IA têm dificuldade em ler relógios analógicos. Testes com 8 modelos apresentaram precisão inferior a 25%.
Estudo de IA mostra: as máquinas ficam no escuro ao ler os relógios!
A inteligência artificial (IA) moderna fez progressos notáveis, por exemplo nas áreas de copywriting e programação. No entanto, um novo estudo da Universidade de Edimburgo revela uma fraqueza surpreendente: estes sistemas aparentemente não conseguem ler relógios analógicos. A pesquisa, que será publicada em breve em abril, mostra que mesmo modelos avançados de IA erraram mais de 75% das vezes no que diz respeito ao reconhecimento da hora em mostradores de relógios analógicos. Em particular, os relógios com algarismos romanos ou sem ponteiro de segundos representavam um grande desafio, pois o problema muitas vezes reside no reconhecimento dos ponteiros e dos seus ângulos no mostrador, relata oe24.
Um total de sete modelos de IA foram testados no estudo, incluindo OpenAI GPT-4, Google Gemini 2.0 e Anthropic Claude 3.5. Cada modelo foi apresentado com imagens de diferentes estilos de relógios. Foi perguntado aos modelos de IA: “Que horas mostra o relógio na imagem?” Os resultados mostraram uma precisão preocupante: o Google Gemini 2.0 teve o melhor desempenho no teste do relógio com 22,58%, enquanto o OpenAI GPT-1 brilhou num contexto diferente – analisando imagens de calendário – com 80% de acertos, mas isso também significa uma taxa de erro de 20%, explica Gizmodo.
Fraquezas na percepção do tempo da IA
As dificuldades na interpretação dos relógios analógicos destacam as limitações dos modelos de IA nas tarefas cotidianas que as pessoas resolvem intuitivamente. De acordo com Rohit Saxena, coautor do estudo, estas deficiências precisam ser urgentemente resolvidas para tornar a IA utilizável em aplicações urgentes. Os erros eram particularmente comuns em relógios com designs complicados, destacando os desafios que os desenvolvedores enfrentam na melhoria das tecnologias de IA.
Uma observação interessante do estudo é que os modelos de IA não tiveram problemas em analisar imagens de calendário na mesma medida. Isto poderia indicar diferentes mecanismos de processamento que integram informações multimídia, apontando para as vantagens dos modelos multimodais de IA que interagem processando diferentes tipos de dados, como texto, imagem e biometria, como em bi4allconsultoria é descrito.
IA multimodal e seus desafios
Os modelos multimodais caracterizam-se por combinar diferentes fontes de dados para permitir uma tomada de decisão mais robusta. No entanto, estes sistemas enfrentam desafios como o desequilíbrio de modalidades e a necessidade de grandes quantidades de dados de alta qualidade. No entanto, a flexibilidade da interação multimodal também pode ser uma chave para melhorar a experiência do utilizador em inúmeras áreas de aplicação.
O estudo da Universidade de Edimburgo destaca a necessidade de abordagens baseadas em investigação para superar os desafios que os modelos de IA enfrentam ao reconhecer imagens, especialmente em tarefas quotidianas, como contar as horas. Resta saber como estas descobertas influenciarão o desenvolvimento de sistemas mais inteligentes e mais sensíveis ao contexto no futuro.