Un nou studiu a scos la iveală o serie de sarcini pe care majoritatea oamenilor le realizează cu ușurință, dar care reprezintă adevărate provocări pentru modelele AI – cum ar fi citirea unui ceas analogic sau calcularea zilei săptămânii pentru o anumită dată.
Deși AI poate genera cod, imagini realiste, texte care sună uman și chiar poate susține examene (cu grade variabile de succes), aceste sisteme interpretează în mod frecvent greșit poziția acelor unui ceas obișnuit și dau greș la calculele aritmetice elementare necesare pentru interpretarea unui calendar.
Cercetătorii au prezentat aceste deficiențe neașteptate în cadrul Conferinței Internaționale privind Reprezentările în Învățare (ICLR) din 2025 și au publicat rezultatele pe 18 martie pe serverul preprint arXiv, ceea ce înseamnă că studiul nu a fost încă supus evaluării peer-review.
„Majoritatea oamenilor pot spune ora și folosesc calendare de la o vârstă fragedă. Descoperirile noastre evidențiază un decalaj semnificativ în capacitatea AI de a îndeplini abilități care sunt destul de elementare pentru oameni”, a declarat Rohit Saxena, cercetător la Universitatea din Edinburgh și autor principal al studiului. „Aceste lipsuri trebuie abordate dacă sistemele AI vor fi integrate cu succes în aplicații sensibile la timp, cum ar fi programarea, automatizarea și tehnologiile asistive.”
Pentru a investiga capacitatea AI de a interpreta timpul, cercetătorii au folosit un set personalizat de imagini cu ceasuri și calendare, pe care l-au introdus în mai multe modele mari de limbaj multimodal (MLLM), capabile să proceseze atât informații vizuale, cât și textuale. Modelele testate au inclus Llama 3.2-Vision de la Meta, Claude-3.5 Sonnet de la Anthropic, Gemini 2.0 de la Google și GPT-4o de la OpenAI.
Rezultatele au fost slabe: modelele nu au reușit să identifice corect ora dintr-o imagine cu ceas sau ziua săptămânii pentru o dată anume, în mai mult de jumătate din cazuri. Mai precis, AI a recunoscut corect ora doar în 38,7% din cazuri și ziua din calendar în 26,3% din cazuri, scrie Live Science.
Cercetătorii oferă o explicație pentru aceste deficiențe surprinzătoare:
„Sistemele timpurii au fost antrenate pe baza unor exemple etichetate. Citirea ceasului necesită ceva diferit – raționament spațial”, explică Saxena. „Modelul trebuie să detecteze acele suprapuse, să măsoare unghiurile și să navigheze printre diversele designuri, cum ar fi cifrele romane sau cadranele stilizate. Recunoașterea faptului că ‘asta este un ceas’ este mai ușoară decât citirea efectivă a orei”.
La fel de dificilă s-a dovedit a fi și interpretarea datelor calendaristice. De exemplu, întrebarea „Ce zi a săptămânii va fi în a 153-a zi a anului?” a avut un grad ridicat de eșec.
Această limitare este surprinzătoare, mai ales că aritmetica este un fundament al calculatoarelor. Totuși, Saxena explică că AI folosește o abordare diferită:
„Aritmetica este trivială pentru calculatoarele tradiționale, dar nu și pentru modelele mari de limbaj. AI nu rulează algoritmi matematici, ci prezice rezultatele bazându-se pe tiparele din datele de antrenament”. Astfel, deși uneori răspunde corect la întrebări aritmetice, raționamentul său nu este consistent sau bazat pe reguli, iar studiul evidențiază acest decalaj.
Acest proiect face parte dintr-un corp tot mai mare de cercetări care evidențiază diferențele dintre modul în care AI „înțelege” lumea și felul în care o fac oamenii. Modelele AI derivă răspunsuri din tipare familiare și excelează atunci când au suficiente exemple în datele de antrenament, dar dau greș când trebuie să generalizeze sau să folosească raționamente abstracte.
„Ce pentru noi este o sarcină foarte simplă, cum ar fi citirea unui ceas, poate fi foarte dificil pentru ele, și invers”, explică Saxena.
Cercetarea scoate în evidență și problema antrenării AI cu date limitate – în acest caz, fenomene relativ rare, cum ar fi anii bisecți sau calculele calendaristice mai puțin comune. Deși modelele mari de limbaj au numeroase exemple care explică conceptul de an bisect, acest lucru nu garantează că fac conexiunile necesare pentru a rezolva o sarcină vizuală.
Studiul subliniază necesitatea includerii unor exemple mai țintite în seturile de antrenament și nevoia de a regândi modul în care AI combină raționamentul logic cu cel spațial, mai ales în sarcini pe care le întâlnește rar.
Mai presus de toate, cercetarea relevă încă o zonă în care încrederea excesivă în rezultatele AI poate fi periculoasă.
„AI este puternică, dar atunci când sarcinile combină percepția cu raționamentul precis, avem nevoie în continuare de teste riguroase, logică de rezervă și, în multe cazuri, de intervenția unui om în proces”, concluzionează Saxena.