O estudo da IA mostra que as máquinas rasgam a escuridão no escuro!
O estudo da IA mostra que as máquinas rasgam a escuridão no escuro!
Edinburgh, Vereinigtes Königreich - Inteligência artificial moderna (IA) fez um progresso notável, por exemplo, nas áreas de posição e programação do texto. No entanto, um novo estudo da Universidade de Edimburgo revela uma fraqueza surpreendente: esses sistemas aparentemente não podem ler relógios analógicos. A investigação, que será publicada em breve em abril, mostra que mesmo os modelos avançados de IA estavam errados em mais de 75 % dos casos quando se tratava de reconhecer o tempo em mostradores análogos. Em particular, relógios com dígitos romanos ou sem um segundo ponto em que o problema geralmente se encontra na detecção dos ponteiros e em seus ângulos no mostrador, relata Google Gemini 2.0 e o Antrópico Claude 3.5. Cada modelo foi confrontado com fotos de diferentes estilos de relógio. Os modelos de IA foram perguntados: "Que horas o relógio mostra na foto?" Os resultados mostraram uma precisão preocupante: o Google Gemini 2.0 alcançou o melhor desempenho no teste do relógio com 22,58 %, enquanto o OpenAI GPT-1 em um contexto diferente-a análise das imagens do calendário com 80 %de respostas corretas, o que também significa uma taxa de erro de 20 %, explica gizmodo .
Fraquezas na percepção do tempo do ki
As dificuldades de interpretar os relógios analógicos ilustram os limites dos modelos de IA nas tarefas cotidianas que resolvem intuitivamente as pessoas. De acordo com Rohit Saxena, co -autor do estudo, esses déficits precisam urgentemente ser abordados para tornar a IA utilizável para aplicações críticas de tempo. Os erros ocorreram particularmente em relógios com projetos complicados, o que ilustra os desafios que os desenvolvedores estão na frente da melhoria nas tecnologias de IA.
Uma observação interessante do estudo é que os modelos de IA não tiveram problemas com a análise de imagens calendárias na mesma extensão. This could indicate different processing mechanisms that integrate multimedia information, which indicates the advantages of multimodal AI models, which interact through the processing of different data types such as text, image and biometry, as in Bi4AllConsulting
AI multimodal e seus desafios
Modelos multimodais são caracterizados pela combinação de diferentes fontes de dados para permitir a tomada de decisão mais robusta. No entanto, esses sistemas estão lutando com desafios, como o desequilíbrio das modalidades e a necessidade de grandes quantidades de dados de alta qualidade. No entanto, a flexibilidade da interação multimodal também pode ser a chave para uma melhor experiência do usuário em várias áreas de aplicativos.
O estudo da Universidade de Edimburgo enfatiza a necessidade de abordagens baseadas em pesquisa para superar os desafios com os quais os modelos de IA são confrontados com o reconhecimento de imagens, especialmente em tarefas cotidianas, como a leitura do tempo. Resta ver como essas descobertas influenciarão o desenvolvimento do desenvolvimento de sistemas inteligentes e mais conscientes do contexto no futuro.
Details | |
---|---|
Ort | Edinburgh, Vereinigtes Königreich |
Quellen |