Marile companii de tehnologie dezvoltă „world models”, sisteme AI capabile să înțeleagă lumea fizică și să accelereze cursa spre superinteligență.
Cele mai mari grupuri de inteligență artificială investesc masiv în așa-numitele world models. Scopul este construirea unor sisteme capabile să înțeleagă mediile umane. Această direcție alternativă promite să depășească limitele modelelor lingvistice mari. Pentru antrenarea noilor versiuni, Google DeepMind, Meta și Nvidia mizează pe date video și robotice, nu doar pe modele de limbaj.
Modelele world AI pot înțelege mediile fizice și pot reacționa în timp real la schimbări. Pot ghida roboți în fabrici, de exemplu, pentru a optimiza producția și pentru a reduce erorile umane. În industria divertismentului, pot ridica decoruri interactive și pot genera personaje care să reacționeze logic la acțiunile utilizatorilor. În transport, mașinile autonome ar putea anticipa obstacole și ar putea ajusta rutele instantaneu, pentru siguranță maximă. Aceste sisteme creează scenarii realiste, simulând interacțiuni complexe între obiecte, oameni și mediu, aproape ca într-un joc video hiperrealist.
Succesul ChatGPT și al altor chatboți a demonstrat puterea modelelor lingvistice mari. Totuși, în ultima vreme nu au mai fost înregistrate progrese așa de mari, în ciuda investițiilor uriașe, scrie Financial Times. Performanțele comparative dintre OpenAI, Google și xAI s-au redus vizibil. Această stagnare alimentează interesul pentru alternative, respectiv versiuni AI care să înțeleagă dinamica mediului fizic.
Rev Lebaredian, de la Nvidia, estimează această nouă piață la 100.000 miliarde dolari. Potențialul ei derivă din aplicații industriale, de la producție, la sănătate. Modelele pot învăța să opereze în medii fizice complexe. Această capacitate promite să transforme industrii întregi, aproape la scara economiei globale.
Antrenamentul se bazează pe fluxuri masive de date reale sau simulate. Acest tip de antrenament este considerat esențial pentru roboți, pentru mașini autonome și pentru agenți AI. Dar necesită resurse colosale de calcul și stocare. Așa că acestea rămân, deocamdată, o provocare tehnică majoră, nerezolvată complet de comunitatea științifică.
În ciuda dificultăților, primele rezultate încep să se vadă. Google DeepMind a lansat Genie 3, un model video interactiv. Spre deosebire de generațiile anterioare, acesta creează cadre pas cu pas. Noutatea constă în integrarea interacțiunilor anterioare în generarea secvențelor. Astfel, AI capătă o înțelegere mai realistă a dinamicii mediului.
Meta experimentează cu V-JEPA, inspirat de modul în care copiii învață prin observație. Laboratorul FAIR, condus de LeCun, a testat noul model pe roboți. LeCun avertizează că LLM-urile nu pot raționa sau planifica la nivel uman. Între timp, Zuckerberg investește masiv în talente AI pentru următoarele modele Llama.
World Labs, fondată de Fei-Fei Li, creează medii 3D realiste pentru jocuri. Start-upul Runway, colaborator Lionsgate, generează decoruri interactive în timp real. Aceste produse depășesc limitările metodelor video tradiționale. Modelele înțeleg fizica scenelor, nu doar manipulează pixeli – pentru a da iluzia mișcării.
Pentru a antrena aceste noi generații, companiile strâng volume uriașe de date despre lumea reală. Niantic a cartografiat 10 milioane de locații prin jocul Pokémon Go. Chiar după vânzarea jocului către Scopely, jucătorii contribuie cu date anonime. Aceste resurse alimentează construirea modelelor world la scară planetară.
Nvidia folosește platforma Omniverse pentru simulări realiste aplicabile în robotică. Directorul Jensen Huang anunță că următoarea fază de creștere va veni prin acest AI fizic. Aceasta extinde expertiza companiei din jocuri video spre aplicații industriale. Experții prevăd o revoluție în robotică și automatizare.
Yann LeCun estimează că ar mai fi doar zece ani până să avem mașini cu inteligență umană. Totuși, experții consideră impactul tehnologiei ca fiind vast. Modelele world pot transforma industrii întregi, dincolo de digital. Ele pot amplifica munca fizică, așa cum computerele au amplificat munca cognitivă.