AI-studie visar: maskiner är i mörker när de läser klockor!

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

En studie visar att AI-modeller har svårt att läsa analoga klockor. Tester med 8 modeller visade mindre än 25 % noggrannhet.

AI-studie visar: maskiner är i mörker när de läser klockor!

Modern artificiell intelligens (AI) har gjort anmärkningsvärda framsteg, till exempel inom områdena copywriting och programmering. En ny studie från University of Edinburgh avslöjar dock en överraskande svaghet: dessa system kan tydligen inte läsa analoga klockor. Forskningen, som snart kommer att publiceras i april, visar att även avancerade AI-modeller hade fel mer än 75 % av gångerna när det gällde att känna igen tiden på analoga urtavlor. I synnerhet klockor med romerska siffror eller utan sekundvisare var en stor utmaning, eftersom problemet ofta ligger i att känna igen visarna och deras vinklar på urtavlan, rapporterar oe24.

Totalt sju AI-modeller testades i studien, inklusive OpenAI GPT-4, Google Gemini 2.0 och Anthropic Claude 3.5. Varje modell presenterades med bilder av olika klockstilar. AI-modellerna tillfrågades: "Vilken tid visar klockan på bilden?" Resultaten visade oroande noggrannhet: Google Gemini 2.0 hade den bästa prestandan i klocktestet med 22,58 %, medan OpenAI GPT-1 lyste i ett annat sammanhang – analyserade kalenderbilder – med 80 % korrekta svar, men detta innebär också en felfrekvens på 20 %, förklarar Gizmodo.

Svagheter i AI:s tidsuppfattning

Svårigheterna med att tolka analoga klockor lyfter fram AI-modellernas begränsningar i vardagliga uppgifter som människor löser intuitivt. Enligt Rohit Saxena, medförfattare till studien, måste dessa brister snabbt åtgärdas för att göra AI användbar för tidskritiska tillämpningar. Fel var särskilt vanliga i klockor med komplicerad design, vilket belyser utmaningarna som utvecklare står inför när det gäller att förbättra AI-teknik.

En intressant observation från studien är att AI-modeller inte hade några problem med att analysera kalenderbilder i samma utsträckning. Detta kan indikera olika bearbetningsmekanismer som integrerar multimediainformation, vilket pekar på fördelarna med multimodala AI-modeller som interagerar genom att bearbeta olika typer av data som text, bild och biometri, som i bi4allconsulting beskrivs.

Multimodal AI och dess utmaningar

Multimodala modeller kännetecknas av att kombinera olika datakällor för att möjliggöra mer robust beslutsfattande. Dessa system kämpar dock med utmaningar som obalansen i modaliteter och behovet av stora mängder data av hög kvalitet. Men flexibiliteten i multimodal interaktion kan också vara en nyckel till förbättrad användarupplevelse inom många applikationsområden.

Studien från University of Edinburgh belyser behovet av forskningsbaserade tillvägagångssätt för att övervinna de utmaningar som AI-modeller står inför när de känner igen bilder, särskilt i vardagliga uppgifter som att visa tid. Det återstår att se hur dessa resultat kommer att påverka utvecklingen av smartare, mer kontextmedvetna system i framtiden.