L'étude AI montre que les machines déchirent l'obscurité dans l'obscurité!
L'étude AI montre que les machines déchirent l'obscurité dans l'obscurité!
Edinburgh, Vereinigtes Königreich - L'intelligence artificielle moderne (IA) a fait des progrès remarquables, par exemple dans les domaines de la position du texte et de la programmation. Cependant, une nouvelle étude de l'Université d'Édimbourg révèle une faiblesse surprenante: ces systèmes ne peuvent apparemment pas lire les montres analogiques. L'enquête, qui sera bientôt publiée en avril, montre que même les modèles d'IA avancés étaient erronés dans plus de 75% des cas lorsqu'il s'agit de reconnaître le temps sur les cadrans analogues. En particulier, les montres avec des chiffres romains ou sans un deuxième point où le problème réside souvent dans la détection des pointeurs et leurs angles sur le cadran, rapporte Google Gemini 2.0 et Anthropic Claude 3.5. Chaque modèle a été confronté à des images de différents styles d'horloge. Les modèles d'IA ont été demandés: "À quelle heure la montre montre-t-elle sur l'image?" Les résultats ont montré une précision inquiétante: Google Gemini 2.0 avait atteint les meilleures performances dans le test d'horloge avec 22,58%, tandis que Openai GPT-1 dans un contexte différent - l'analyse des images calendaires avec 80% de réponses correctes, ce qui signifie également un taux d'erreur de 20%, explique
Faiblesses dans la perception du temps du ki
Les difficultés d'interprétation des montres analogiques illustrent les limites des modèles d'IA dans les tâches quotidiennes qui résolvent intuitivement les gens. Selon Rohit Saxena, co-auteur de l'étude, ces déficits doivent être abordés d'urgence afin de rendre l'IA utilisable pour les applications critiques. Des erreurs se sont produites particulièrement souvent dans les montres avec des conceptions compliquées, qui illustre les défis que les développeurs sont devant l'amélioration des technologies de l'IA.
Une observation intéressante de l'étude est que les modèles d'IA n'ont eu aucun problème avec l'analyse des images calendaires dans la même mesure. Cela pourrait indiquer différents mécanismes de traitement qui intègrent des informations multimédias, qui indiquent les avantages des modèles d'IA multimodaux, qui interagissent à travers le traitement de différents types de données tels que le texte, l'image et la biométrie, comme dans
se caractérisent en combinant différentes sources de données pour permettre la prise de décision plus robuste. Cependant, ces systèmes se battent avec des défis, tels que le déséquilibre des modalités et la nécessité de grandes quantités de données de haute qualité. Cependant, la flexibilité de l'interaction multimodale pourrait également être la clé d'une expérience utilisateur améliorée dans de nombreux domaines d'application. L'étude de l'Université d'Édimbourg souligne la nécessité d'approches basées sur la recherche pour surmonter les défis auxquels les modèles d'IA sont confrontés à la reconnaissance des images, en particulier dans les tâches quotidiennes telles que la lecture de l'heure. Il reste à voir comment ces résultats influenceront le développement du développement de systèmes intelligents et plus conscients du contexte à l'avenir. AI multimodal et leurs défis
Les modèles multimodaux
Details | |
---|---|
Ort | Edinburgh, Vereinigtes Königreich |
Quellen |