Prima pagină » Modelele AI de ultimă generație de la OpenAI și DeepSeek clachează când problemele devin prea dificile, arată un studiu Apple

Modelele AI de ultimă generație de la OpenAI și DeepSeek clachează când problemele devin prea dificile, arată un studiu Apple

Modelele AI de ultimă generație de la OpenAI și DeepSeek clachează când problemele devin prea dificile, arată un studiu Apple
Foto: Shutterstock

Un nou studiu realizat de Apple evidențiază limitările modelelor de inteligență artificială de ultimă generație dezvoltate de OpenAI și DeepSeek, care se prăbușesc complet atunci când întâlnesc probleme prea complexe sau dificile. În ciuda performanțelor impresionante în anumite domenii, aceste tehnologii demonstrează vulnerabilități semnificative în fața provocărilor avansate, subliniind necesitatea unor îmbunătățiri continue pentru a le asigura fiabilitatea și eficiența în situații critice. Analiza oferă o perspectivă importantă asupra evoluției și limitărilor actuale ale inteligenței artificiale de ultimă generație.

Un studiu recent realizat de Apple a stârnit controverse în domeniul inteligenței artificiale, demonstrând că modelele de raționament AI suferă un „colaps total al acurateței” atunci când sunt suprasolicitate cu probleme complexe. Conform cercetătorilor, aceste modele nu sunt atât de inteligente pe cât se credea, iar performanța lor scade dramatic când sarcinile depășesc un anumit prag de dificultate, scrie Live Science.

Ce sunt modelele de raționament și de ce contează

Modelele de raționament, precum Claude de la Meta, o3 de la OpenAI și R1 de la DeepSeek, sunt modele lingvistice mari (LLM) specializate care alocă mai mult timp și resurse de calcul pentru a genera răspunsuri mai precise comparativ cu modelele tradiționale. Acestea sunt considerate de marile companii tehnologice drept pași importanți spre dezvoltarea inteligenței artificiale generale (AGI), adică sisteme capabile să depășească performanța umană în majoritatea sarcinilor.

Totuși, studiul publicat pe 7 iunie pe site-ul Apple Machine Learning Research aduce o lovitură serioasă acestor așteptări. Cercetătorii arată că modelele de raționament nu doar că nu demonstrează un raționament generalizat, ci chiar „se prăbușesc” atunci când dificultatea problemelor depășește un anumit nivel critic.

„Prin experimente extinse pe diverse puzzle-uri, am demonstrat că modelele lingvistice de ultimă generație suferă un colaps complet al acurateței dincolo de anumite praguri de complexitate,” scriu autorii studiului.

Mai mult, modelele prezintă o limită de scalare contraintuitivă: efortul lor de raționament crește odată cu complexitatea problemei până la un punct, apoi scade, chiar dacă dispun de un buget adecvat de tokeni (unități de procesare a datelor).

Cum funcționează modelele de raționament și de ce efortul lor poate scădea

Modelele lingvistice mari învață prin absorbția unor cantități uriașe de date generate de oameni, folosind aceste informații pentru a produce modele probabilistice. Modelele de raționament încearcă să îmbunătățească acuratețea printr-un proces numit „lanț de gândire” (chain-of-thought), care implică generarea unor răspunsuri în mai mulți pași, imitând modul în care oamenii aplică logica pentru a ajunge la o concluzie.

Acest proces permite chatbot-urilor să-și reevalueze raționamentul și să abordeze sarcini mai complexe cu o precizie mai mare, explicându-și pas cu pas logica în limbaj clar. Totuși, fiind bazat pe estimări statistice și nu pe înțelegere reală, modelele au tendința de a „halucina” – adică de a genera răspunsuri eronate, de a inventa informații sau de a oferi sfaturi bizare și uneori dăunătoare.

Problema halucinațiilor crește odată cu complexitatea modelelor

Un raport tehnic OpenAI relevă că modelele de raționament sunt mult mai susceptibile la halucinații decât modelele generice. Spre exemplu, modelele o3 și o4-mini au generat informații eronate în 33%, respectiv 48% din cazuri, în timp ce modelul mai vechi o1 avea o rată de doar 16%. Reprezentanții OpenAI admit că nu înțeleg pe deplin cauzele și că „este nevoie de cercetări suplimentare”.

Testarea modelelor pe puzzle-uri clasice: performanțe în scădere la dificultăți mari

Pentru a analiza mai profund aceste probleme, cercetătorii Apple au supus modelelor generice și de raționament patru puzzle-uri clasice: traversarea râului, săritul pieselor pe tabla de cărți, stivuirea blocurilor și Turnul din Hanoi. Complexitatea a fost ajustată prin adăugarea de piese suplimentare.

La nivel scăzut de dificultate, modelele generice au avut un avantaj, rezolvând problemele fără costurile suplimentare ale lanțului de gândire. Pe măsură ce dificultatea a crescut, modelele de raționament au preluat conducerea, însă la nivel înalt de complexitate performanța ambelor tipuri de modele a scăzut până aproape de zero.

Mai mult, după depășirea unui prag critic, modelele de raționament au redus numărul de tokeni alocați sarcinilor complexe, indicând o scădere a efortului de raționament și limitări fundamentale în menținerea lanțurilor de gândire. Aceste probleme au persistat chiar și când li s-a oferit algoritmul soluției.

Concluzii și implicații: modelele se bazează mai mult pe recunoașterea tiparelor decât pe logică emergentă

Rezultatele sugerează că modelele actuale depind mai mult de recunoașterea tiparelor decât de un raționament logic autentic, contrazicând afirmațiile despre apropierea de o inteligență artificială superioară. Totuși, cercetătorii recunosc că testele acoperă doar o „feliuță” din gama largă de sarcini de raționament posibile.

Poziția apple în cursa AI și reacții din industrie

Apple, cu asistentul său Siri, este considerată în urma competitorilor, Siri fiind cu 25% mai puțin precis decât ChatGPT într-un studiu recent. Compania se concentrează mai degrabă pe dezvoltarea unor AI eficiente pe dispozitive locale decât pe modele mari de raționament.

Această poziție a generat critici și ironii, unii considerând că Apple încearcă să minimalizeze progresul altor companii. Profesorul Pedros Domingos a comentat ironic că „strategia genială a Apple în AI este să demonstreze că AI-ul nu există”.

Reacții pozitive: un apel la cercetare riguroasă

Pe de altă parte, mulți cercetători au salutat studiul Apple ca pe o doză necesară de realism în fața așteptărilor exagerate privind AI-ul superinteligent.

Andriy Burkov, expert AI și fost lider de echipă la Gartner, a declarat că Apple a făcut un serviciu imens domeniului, demonstrând prin publicații riguroase că modelele lingvistice mari sunt doar rețele neuronale cu limitele inerente acestora. El speră ca acum comunitatea științifică să abordeze studiul acestor modele cu rigurozitate matematică, nu cu abordări metaforice sau psihologice.

Alte articole importante
Commerzbank anunță concedieri și ținte financiare mai ambițioase pentru a bloca preluarea de către UniCredit
Commerzbank anunță concedieri și ținte financiare mai ambițioase pentru a bloca preluarea de către UniCredit
Grupul bancar german Commerzbank a anunțat un nou plan de restructurare care include reducerea a aproximativ 3.000 de locuri de muncă și creșterea obiectivelor de profitabilitate până în 2028, într-o mișcare menită să întărească poziția băncii în fața tentativei de preluare venite din partea UniCredit. Anunțul a fost făcut vineri, după ce grupul italian UniCredit […]
Consiliul Concurenței monitorizează zilnic prețurile la carburanți. Chirițoiu: România are combustibili cu 16% mai ieftini decât media UE
Consiliul Concurenței monitorizează zilnic prețurile la carburanți. Chirițoiu: România are combustibili cu 16% mai ieftini decât media UE
Autoritățile urmăresc atent evoluția prețurilor la carburanți, în contextul scumpirilor accelerate din ultimele săptămâni și al tensiunilor de pe piețele internaționale.  Președintele Consiliului Concurenței, Bogdan Chirițoiu, a declarat că instituția colectează zilnic date privind prețurile practicate în marile lanțuri de benzinării din România și transmite aceste informații către Guvern. Potrivit acestuia, deși carburanții au depășit […]
Bursa de la București continuă să crească după căderea Guvernului. Investitorii văd „o ușurare”, iar leul recuperează timid
Bursa de la București continuă să crească după căderea Guvernului. Investitorii văd „o ușurare”, iar leul recuperează timid
Piața de capital din România a continuat să crească pentru a treia ședință consecutiv după demiterea Guvernului Bolojan, într-un context în care investitorii par să privească schimbările politice mai degrabă ca pe o resetare necesară decât ca pe un motiv de panică. În paralel, moneda națională a avut o apreciere simbolică în raport cu euro, […]
Bursele europene au explodat după semnalele de pace dintre SUA și Iran. Investitorii pariază pe sfârșitul tensiunilor din Orientul Mijlociu
Bursele europene au explodat după semnalele de pace dintre SUA și Iran. Investitorii pariază pe sfârșitul tensiunilor din Orientul Mijlociu
Piețele financiare europene au avut miercuri una dintre cele mai bune ședințe din ultimele luni, după apariția informațiilor potrivit cărora Statele Unite și Iranul sunt aproape de un acord care ar putea reduce semnificativ tensiunile din Orientul Mijlociu. Investitorii au reacționat imediat, iar marile burse de pe continent au închis pe creștere puternică. Optimismul a […]
Consumul românilor se prăbușește pentru a opta lună la rând. Datele INS arată un recul mai sever decât în unele perioade din pandemie
Consumul românilor se prăbușește pentru a opta lună la rând. Datele INS arată un recul mai sever decât în unele perioade din pandemie
Economia României primește un nou semnal de alarmă după ce datele publicate de Institutul Național de Statistică arată o scădere accentuată a consumului. Comerțul cu amănuntul continuă să se contracte pentru a opta lună consecutiv, într-un context marcat de inflație ridicată, scumpiri și incertitudine economică. Potrivit celor mai recente cifre ale INS, volumul cifrei de […]
ANAF a depășit ținta de încasări și a stabilit un nou record în 2026. Colectările la buget au trecut peste pragul estimat pentru aprilie
ANAF a depășit ținta de încasări și a stabilit un nou record în 2026. Colectările la buget au trecut peste pragul estimat pentru aprilie
Agenția Națională de Administrare Fiscală (ANAF) a înregistrat în luna aprilie cea mai mare colectare lunară de venituri la bugetul de stat din acest an, depășind cu aproximativ 1,6 miliarde de lei obiectivul stabilit de autorități. Potrivit informațiilor apărute în spațiul public, ținta de colectare pentru luna aprilie era de 56 de miliarde de lei, […]