În era tehnologiei avansate, modelele de inteligență artificială au făcut pași importanți în reproducerarea anumitor aspecte ale gândirii umane, însă există trăsături esențiale care încă le scapă acestor sisteme. Într-un interviu recent, șeful departamentului de AI de la Meta a evidențiat patru caracteristici fundamentale ale inteligenței umane pe care modelele actuale de inteligență artificială nu le pot replica în totalitate.
La Summit-ul AI Action din Paris, desfășurat la începutul acestui an, lideri politici și experți în inteligență artificială s-au reunit pentru a discuta despre dezvoltarea AI. Yann LeCun, șeful departamentului AI de la Meta, a împărtășit o definiție de bază a inteligenței umane în cadrul unei conversații cu Anthony Annunziata, liderul AI de la IBM.
„Există patru caracteristici esențiale ale comportamentului inteligent pe care orice animal, sau cel puțin orice animal relativ deștept, le poate realiza, iar oamenii cu siguranță le posedă,” a explicat LeCun pentru Business Insider.
Acestea sunt:
- înțelegerea lumii fizice,
- memoria persistentă,
- capacitatea de a raționa și
- abilitatea de a planifica, în special planificarea acțiunilor complexe în mod ierarhic.
LeCun susține că modelele de inteligență artificială, în special modelele mari de limbaj (LLM), nu au atins încă acest prag al inteligenței. Pentru a integra aceste capacități, ar fi necesară o schimbare fundamentală în modul în care sunt antrenate aceste modele. Din acest motiv, multe dintre cele mai mari companii tehnologice adaugă funcționalități suplimentare modelelor existente în cursa lor pentru dominația pieței AI.
„Pentru a înțelege lumea fizică, antrenezi un sistem separat de viziune, pe care îl atașezi apoi la modelul mare de limbaj. Pentru memorie, folosești RAG sau adaugi o memorie asociativă deasupra, sau pur și simplu faci modelul mai mare,” a explicat LeCun.
RAG (retrieval augmented generation) este o metodă dezvoltată la Meta care îmbunătățește rezultatele modelelor mari de limbaj prin accesarea unor surse externe de cunoștințe. Cu toate acestea, LeCun consideră aceste soluții doar „trucuri” temporare.
LeCun a vorbit în mai multe rânduri despre o alternativă pe care o numește „modele bazate pe lume (world based models)”. Aceste modele sunt antrenate pe scenarii din viața reală și posedă un nivel mai ridicat de cogniție comparativ cu AI-ul bazat doar pe pattern-uri. În discuția cu Annunziata, LeCun a oferit o definiție suplimentară:
„Ai o idee despre starea lumii la un moment T, îți imaginezi o acțiune pe care o poți face, iar modelul lumii prezice care va fi starea lumii după acea acțiune.”
El a subliniat însă că lumea evoluează conform unui set infinit și imprevizibil de posibilități, iar singura metodă de a antrena AI-ul pentru acestea este prin abstracție.
Meta experimentează deja această abordare prin V-JEPA, un model lansat în februarie 2025. Este un model non-generativ care învață prin prezicerea părților lipsă sau mascate dintr-un videoclip.
„Ideea de bază este că nu prezici la nivel de pixeli. Antrenezi un sistem să ruleze o reprezentare abstractă a videoclipului, astfel încât să poți face predicții în acea reprezentare abstractă, eliminând toate detaliile care nu pot fi anticipate,” a explicat LeCun.
Conceptul este similar cu modul în care chimiștii au stabilit o ierarhie fundamentală pentru elementele materiei: particule, atomi, molecule, materiale.
„De fiecare dată când urcăm un nivel în această ierarhie, eliminăm multe informații despre nivelurile inferioare care nu sunt relevante pentru sarcina pe care o avem,” a spus LeCun.
În esență, aceasta este o altă modalitate de a spune că am învățat să înțelegem lumea fizică prin crearea unor ierarhii.
Yann LeCun consideră că modelele actuale de inteligență artificială nu au încă patru trăsături fundamentale ale inteligenței umane: înțelegerea lumii fizice, memoria persistentă, raționamentul și planificarea ierarhică. Pentru a depăși aceste limitări, Meta explorează modele bazate pe lume și abstracție, precum V-JEPA, care promit să aducă AI-ul mai aproape de modul în care oamenii percep și interacționează cu realitatea.