AI-studie viser: maskiner er i mørket når de leser klokker!

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

En studie viser at AI-modeller har problemer med å lese analoge klokker. Tester med 8 modeller viste mindre enn 25 % nøyaktighet.

AI-studie viser: maskiner er i mørket når de leser klokker!

Moderne kunstig intelligens (AI) har gjort bemerkelsesverdige fremskritt, for eksempel innen copywriting og programmering. En ny studie fra University of Edinburgh avslører imidlertid en overraskende svakhet: disse systemene kan tilsynelatende ikke lese analoge klokker. Forskningen, som snart skal publiseres i april, viser at selv avanserte AI-modeller tok feil mer enn 75 % av tiden når det gjaldt å gjenkjenne tiden på analoge urskiver. Spesielt klokker med romertall eller uten sekundviser utgjorde en stor utfordring, ettersom problemet ofte ligger i å gjenkjenne viserne og deres vinkler på urskiven, melder oe24.

Totalt syv AI-modeller ble testet i studien, inkludert OpenAI GPT-4, Google Gemini 2.0 og Anthropic Claude 3.5. Hver modell ble presentert med bilder av forskjellige klokkestiler. AI-modellene ble spurt: "Hvilken tid viser klokken på bildet?" Resultatene viste bekymringsfull nøyaktighet: Google Gemini 2.0 hadde best ytelse i klokketesten med 22,58 %, mens OpenAI GPT-1 strålte i en annen kontekst – analyserte kalenderbilder – med 80 % riktige svar, men dette betyr også en feilrate på 20 %, forklarer Gizmodo.

Svakheter i AIs tidsoppfatning

Vanskelighetene med å tolke analoge klokker fremhever begrensningene til AI-modeller i dagligdagse oppgaver som folk løser intuitivt. I følge Rohit Saxena, medforfatter av studien, må disse manglene raskt løses for å gjøre AI brukbar for tidskritiske applikasjoner. Feil var spesielt vanlig i klokker med kompliserte design, og fremhever utfordringene utviklere står overfor når det gjelder å forbedre AI-teknologier.

En interessant observasjon fra studien er at AI-modeller ikke hadde problemer med å analysere kalenderbilder i samme grad. Dette kan indikere ulike behandlingsmekanismer som integrerer multimedieinformasjon, og peker på fordelene med multimodale AI-modeller som samhandler ved å behandle ulike typer data som tekst, bilde og biometri, som i bi4all consulting er beskrevet.

Multimodal AI og dens utfordringer

Multimodale modeller kjennetegnes ved å kombinere ulike datakilder for å muliggjøre mer robust beslutningstaking. Disse systemene sliter imidlertid med utfordringer som ubalanse mellom modaliteter og behovet for store mengder data av høy kvalitet. Imidlertid kan fleksibiliteten til multimodal interaksjon også være en nøkkel til forbedret brukeropplevelse på en rekke applikasjonsområder.

Studien fra University of Edinburgh fremhever behovet for forskningsbaserte tilnærminger for å overvinne utfordringene AI-modeller møter når de gjenkjenner bilder, spesielt i hverdagslige oppgaver som å fortelle tid. Det gjenstår å se hvordan disse funnene vil påvirke utviklingen av smartere, mer kontekstbevisste systemer i fremtiden.