¡El estudio de IA muestra que las máquinas rompen en la oscuridad en la oscuridad!

¡El estudio de IA muestra que las máquinas rompen en la oscuridad en la oscuridad!

Edinburgh, Vereinigtes Königreich - La inteligencia artificial moderna (AI) ha hecho un progreso notable, por ejemplo, en las áreas de posición de texto y programación. Sin embargo, un nuevo estudio de la Universidad de Edimburgo revela una sorprendente debilidad: estos sistemas aparentemente no pueden leer relojes analógicos. La investigación, que pronto se publicará en abril, muestra que incluso los modelos de IA avanzados estaban equivocados en más del 75 % de los casos cuando se trata de reconocer el tiempo en diales análogos. En particular, los relojes con dígitos romanos o sin un segundo punto en el que el problema a menudo radica en la detección de los punteros y sus ángulos en el dial, informa Google Gemini 2.0 y Anthrope Claude 3.5. Cada modelo se ha enfrentado a imágenes de diferentes estilos de reloj. Se preguntó a los modelos de IA: "¿A qué hora se muestra el reloj en la imagen?" Los resultados mostraron una precisión preocupante: Google Gemini 2.0 había logrado el mejor rendimiento en la prueba del reloj con 22.58 %, mientras que OpenAI GPT-1 en un contexto diferente: el análisis de las imágenes calendario-shone con un 80 %de respuestas correctas, lo que también significa una tasa de error del 20 %, explica Gizmodo .

Debilidades en la percepción del tiempo del ki

Las dificultades de interpretar relojes analógicos ilustran los límites de los modelos de IA en las tareas cotidianas que resuelven intuitivamente a las personas. Según Rohit Saxena, co -autor del estudio, estos déficits deben abordarse urgentemente para que la IA se pueda usar para aplicaciones críticas en el tiempo. Los errores ocurrieron particularmente a menudo en los relojes con diseños complicados, lo que ilustra los desafíos que los desarrolladores están frente a la mejora en las tecnologías de IA.

Una observación interesante del estudio es que los modelos de IA no tuvieron problemas con el análisis de las imágenes de calendario en la misma medida. This could indicate different processing mechanisms that integrate multimedia information, which indicates the advantages of multimodal AI models, which interact through the processing of different data types such as text, image and biometry, as in Bi4allConsulting

AI multimodal y sus desafíos

Los modelos multimodales se caracterizan por combinar diferentes fuentes de datos para permitir la toma de decisiones más sólida. Sin embargo, estos sistemas están luchando con desafíos, como el desequilibrio de las modalidades y la necesidad de grandes cantidades de datos de alta calidad. Sin embargo, la flexibilidad de la interacción multimodal también podría ser clave para una experiencia de usuario mejorada en numerosas áreas de aplicación.

El estudio de la Universidad de Edimburgo enfatiza la necesidad de enfoques basados en la investigación para superar los desafíos con los que los modelos de IA se enfrentan al reconocimiento de imágenes, especialmente en tareas cotidianas como leer el tiempo. Queda por ver cómo estos hallazgos influirán en el desarrollo del desarrollo de sistemas inteligentes y más conscientes del contexto en el futuro.

Details
OrtEdinburgh, Vereinigtes Königreich
Quellen

Kommentare (0)