Studie AI ukazuje, že stroje trhají ve tmě ve tmě!

Studie AI ukazuje, že stroje trhají ve tmě ve tmě!

Edinburgh, Vereinigtes Königreich - Moderní umělá inteligence (AI) dosáhla pozoruhodného pokroku, například v oblasti polohy a programování textu. Nová studie University of Edinburgh však odhaluje překvapivou slabost: tyto systémy zjevně nemohou číst analogové hodinky. Šetření, které bude brzy zveřejněno v dubnu, ukazuje, že i pokročilé modely AI se nesprávnou ve více než 75 % případů, pokud jde o rozpoznání času na analogických číselnících. Zejména hodinky s římskými číslicemi nebo bez druhého bodu, ve kterém problém často spočívá v detekci ukazatelů a jejich úhlů na číselníku, uvádí Google Gemini 2.0 a Antropic Claude 3.5. Každý model byl konfrontován s obrázky různých hodin. Modely AI byly dotázány: „V kolik hodin se zobrazují hodinky na obrázku?“ Výsledky ukázaly znepokojivou přesnost: Google Gemini 2.0 dosáhl nejlepšího výkonu v testu hodin s 22,58 %, zatímco OpenAI GPT-1 v jiném kontextu-analýza obrazů kalendáře s 80 %správnými odpověďmi, což také znamená chybovost 20 %, vysvětluje gizmodo .

Slabé stránky v čase vnímání Ki

Obtížnost interpretace analogových hodinek ilustrují limity modelů AI v každodenních úkolech, které intuitivně řeší lidi. Podle Rohit Saxeny, co -autor studie, je třeba tyto deficity naléhavě řešit, aby byla AI použitelná pro časově -kritické aplikace. K chybám došlo zvláště často u hodinek s komplikovanými návrhy, což ilustruje výzvy, že vývojáři jsou před zlepšením technologií AI.

Zajímavé pozorování studie je, že modely AI neměly problémy s analýzou obrazů kalendáře ve stejném rozsahu. To by mohlo naznačovat různé mechanismy zpracování, které integrují multimediální informace, které ukazují výhody multimodálních modelů AI, které interagují prostřednictvím zpracování různých typů dat, jako je text, obrázek a biometrie, jako v bi4allconsulting

multimodální AI a jejich výzvy

Multimodální modely se vyznačují kombinací různých zdrojů dat, které umožňují robustnější rozhodování. Tyto systémy však bojují s výzvami, jako je nerovnováha způsobů a potřeba velkého množství dat s vysokou kvalitou. Flexibilita multimodální interakce by však mohla být také klíčem ke zlepšení uživatelského prostředí v řadě oblastí aplikací.

Studie University of Edinburgh zdůrazňuje potřebu přístupů založených na výzkumu k překonání problémů, s nimiž jsou modely AI konfrontovány s uznáním obrázků, zejména v každodenních úkolech, jako je čtení času. Zbývá vidět, jak tato zjištění ovlivní rozvoj rozvoje inteligentních a více kontextových systémů v budoucnosti.

Details
OrtEdinburgh, Vereinigtes Königreich
Quellen

Kommentare (0)