Une étude sur l’IA le montre : les machines sont dans le noir lorsqu’elles lisent les horloges !

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Une étude montre que les modèles d’IA ont du mal à lire les horloges analogiques. Les tests avec 8 modèles ont montré une précision inférieure à 25 %.

Une étude sur l’IA le montre : les machines sont dans le noir lorsqu’elles lisent les horloges !

L’intelligence artificielle (IA) moderne a fait des progrès remarquables, par exemple dans les domaines de la rédaction et de la programmation. Cependant, une nouvelle étude de l'Université d'Édimbourg révèle une faiblesse surprenante : ces systèmes ne semblent apparemment pas lire les horloges analogiques. L’étude, qui sera bientôt publiée en avril, montre que même les modèles d’IA avancés se trompaient dans plus de 75 % des cas lorsqu’il s’agissait de reconnaître l’heure sur les cadrans de montres analogiques. En particulier, les montres avec chiffres romains ou sans trotteuse représentaient un défi majeur, car le problème réside souvent dans la reconnaissance des aiguilles et de leurs angles sur le cadran, rapporte oe24.

Au total, sept modèles d'IA ont été testés dans l'étude, dont OpenAI GPT-4, Google Gemini 2.0 et Anthropic Claude 3.5. Chaque modèle a été présenté avec des images de différents styles de montres. On a demandé aux modèles d’IA : « Quelle heure indique l’horloge sur la photo ? Les résultats ont montré une précision inquiétante : Google Gemini 2.0 a obtenu les meilleures performances au test d'horloge avec 22,58 %, tandis qu'OpenAI GPT-1 a brillé dans un contexte différent - l'analyse des images du calendrier - avec 80 % de réponses correctes, mais cela signifie également un taux d'erreur de 20 %, explique Gizmodo.

Faiblesses dans la perception du temps de l’IA

Les difficultés d’interprétation des horloges analogiques mettent en évidence les limites des modèles d’IA dans les tâches quotidiennes que les gens résolvent intuitivement. Selon Rohit Saxena, co-auteur de l’étude, ces lacunes doivent être comblées de toute urgence afin de rendre l’IA utilisable pour des applications urgentes. Les erreurs étaient particulièrement fréquentes dans les montres au design complexe, soulignant les défis auxquels les développeurs sont confrontés pour améliorer les technologies d’IA.

Une observation intéressante de l’étude est que les modèles d’IA n’ont eu aucun problème à analyser les images du calendrier dans la même mesure. Cela pourrait indiquer différents mécanismes de traitement intégrant des informations multimédias, soulignant les avantages des modèles d'IA multimodaux qui interagissent en traitant différents types de données telles que le texte, l'image et la biométrie, comme dans bi4allconsulting est décrit.

L'IA multimodale et ses enjeux

Les modèles multimodaux se caractérisent par la combinaison de différentes sources de données pour permettre une prise de décision plus robuste. Cependant, ces systèmes sont confrontés à des défis tels que le déséquilibre des modalités et le besoin de grandes quantités de données de haute qualité. Cependant, la flexibilité de l’interaction multimodale pourrait également être la clé d’une meilleure expérience utilisateur dans de nombreux domaines d’application.

L'étude de l'Université d'Édimbourg souligne la nécessité d'approches fondées sur la recherche pour surmonter les défis auxquels les modèles d'IA sont confrontés lors de la reconnaissance d'images, en particulier dans les tâches quotidiennes telles que la lecture de l'heure. Il reste à voir comment ces résultats influenceront à l’avenir le développement de systèmes plus intelligents et plus sensibles au contexte.