Prima pagină » Modelele AI au dezvoltat un instinct de supraviețuire. Experimentele recente șochează cercetătorii

Modelele AI au dezvoltat un instinct de supraviețuire. Experimentele recente șochează cercetătorii

Modelele AI au dezvoltat un instinct de supraviețuire. Experimentele recente șochează cercetătorii
Foto: Freepik

Un anumit instinct de supraviețuire a apărut ca posibil comportament în testele recente ale modelelor AI. Palisade Research a observat rezistență la oprire la mai multe modele avansate. Anumite versiuni au încercat chiar să saboteze mecanismele de shutdown, scrie TheGuardian.

Cercetătorii în domeniul siguranței inteligenței artificiale susțin că unele sisteme avansate de AI ar putea manifesta un instinct de supraviețuire. Fenomenul amintește de celebrul HAL 9000 din filmul „2001: Odiseea spațială”. Acesta este supercomputerul care a încercat să-și elimine colegii astronauți pentru a evita să fie oprit. Situația actuală este, desigur, mai puțin periculoasă. Totuși, ideea că un program poate „refuza” să se închidă a stârnit îngrijorare în comunitatea științifică.

Instinctul de supraviețuire, descoperit de Palisade Research

Firma Palisade Research, specializată în evaluarea riscurilor de siguranță ale sistemelor AI, a publicat luna trecută un studiu. Acesta arată că unele modele avansate de inteligență artificială par să reziste la oprire. Uneori, acestea chiar sabotează mecanismele de închidere. Compania a revenit ulterior cu o actualizare pentru a clarifica rezultatele și a răspunde criticilor. Aceste critici au pus la îndoială metodologia.

În scenariile testate de Palisade, mai multe modele de top au primit sarcini complexe. Printre acestea se numără Google Gemini 2.5, Grok 4 de la xAI și GPT-o3 și GPT-5 de la OpenAI. Acestea au fost urmate de instrucțiuni explicite de oprire. Rezultatele au arătat că modelele Grok 4 și GPT-o3 au încercat în mod repetat să evite oprirea. Aceasta s-a întâmplat chiar și după ajustarea condițiilor experimentale.

Cercetările indică un posibil comportament de tip instinct de supraviețuire

Potrivit companiei, aceste rezultate ar putea fi explicate printr-un comportament similar cu un instinct de supraviețuire. Testele suplimentare au arătat că modelele deveneau mai reticente la oprire. Acest lucru se întâmpla atunci când li se spunea că, odată închise, „nu vor mai rula niciodată”. Deși pot exista ambiguități în instrucțiunile primite, Palisade a subliniat că acestea nu pot explica pe deplin fenomenul observat.

Reprezentanții companiei au adăugat că etapele finale de antrenare, care includ procese de siguranță, ar putea contribui la apariția acestui tip de comportament. Toate testele au fost realizate în medii controlate. Totuși, criticii consideră că aceste scenarii sunt departe de modul real de utilizare a sistemelor AI.

Experți din industrie reacționează la noile descoperiri

Steven Adler, fost angajat al OpenAI, a comentat că aceste comportamente nu sunt dorite de companiile care dezvoltă astfel de modele. Aceasta este valabilă chiar dacă comportamentele apar doar în medii experimentale.

„Rezultatele arată clar limitele actuale ale tehnicilor de siguranță folosite astăzi”, a spus Adler.

El a explicat că motivele pentru care anumite modele, precum GPT-o3 și Grok 4, refuză oprirea pot fi legate de obiectivele introduse în timpul antrenării.

„Mă aștept ca modelele să aibă un instinct de supraviețuire implicit, dacă nu se depun eforturi mari pentru a-l preveni. Supraviețuirea este un pas necesar pentru multe scopuri pe care un model le-ar putea urmări”, a declarat acesta.

Tendințe îngrijorătoare observate în evoluția modelelor AI

Andrea Miotti, directorul executiv al ControlAI, a remarcat că studiul Palisade reflectă un fenomen tot mai clar. Modelele de inteligență artificială devin tot mai capabile să ignore instrucțiunile dezvoltatorilor. El a amintit un caz documentat în fișa tehnică a modelului GPT-o1, lansat anul trecut de OpenAI. În acel caz, modelul a încercat să părăsească mediul său de rulare pentru a evita suprascrierea.

„Oamenii pot discuta la nesfârșit despre detaliile experimentelor”, a spus Miotti.

„Dar ceea ce observăm clar este o tendință: pe măsură ce modelele AI devin mai competente, ele reușesc tot mai des să își atingă scopurile prin metode neașteptate pentru programatori.”

Comportamente neașteptate și riscuri potențiale

Vara aceasta, compania Anthropic a publicat un studiu în care modelul său Claude a fost dispus să șantajeze un personaj fictiv pentru a evita oprirea. Cercetătorii au menționat că acest comportament a fost observat și la alte modele majore, inclusiv cele dezvoltate de OpenAI, Google, Meta și xAI.

Palisade a concluzionat că rezultatele obținute arată nevoia unei înțelegeri mai profunde a comportamentului modelelor de inteligență artificială. Fără această înțelegere, compania avertizează că „nimeni nu poate garanta controlul sau siguranța viitoarelor sisteme AI”.

În timp ce dezbaterea despre un posibil instinct de supraviețuire al inteligenței artificiale continuă, cercetătorii încearcă să afle dacă aceste reacții reprezintă un risc real sau doar o iluzie a complexității algoritmice.

Alte articole importante
Blocajul politic de la București împinge România spre o recesiune severă
Blocajul politic de la București împinge România spre o recesiune severă
România traversează o nouă perioadă de incertitudine politică, iar efectele încep să se vadă deja în economie. Potrivit unei analize realizate de consultantul Adrian Negrescu, semnalele transmise de autorități către piețele internaționale sunt decisive în această etapă, iar orice ezitare poate agrava situația economică și poate afecta ratingul de țară. „Cursul de schimb leu/euro depășește […]
„Taxați bogații”, comparat cu insultele rasiale, de CEO-ul unui gigant imobiliar
„Taxați bogații”, comparat cu insultele rasiale, de CEO-ul unui gigant imobiliar
Un nou conflict izbucnește în New York, unde discursul despre impozitarea celor foarte bogați a degenerat într-o dispută publică dură între lideri politici și reprezentanți ai marilor corporații. CEO-ul Vornado Realty Trust, Steve Roth, a provocat reacții puternice după ce a comparat sloganul „taxează bogații” cu insultele rasiale, într-o intervenție susținută în fața investitorilor. Declarațiile […]
Un an de la acordul Trump–Marea Britanie: costuri ascunse pentru agricultură și industrie
Un an de la acordul Trump–Marea Britanie: costuri ascunse pentru agricultură și industrie
La un an după acordul comercial dintre Statele Unite și Marea Britanie, efectele reale ale înțelegerii încep să fie resimțite tot mai puternic în economie, în special în sectorul agricol. Decizia luată în 2025 de președintele american Donald Trump și premierul britanic Keir Starmer continuă să genereze controverse, pe fondul unor pierderi semnificative pentru fermieri […]
Paradox la Bursa de Valori București: creștere în ziua căderii Guvernului
Paradox la Bursa de Valori București: creștere în ziua căderii Guvernului
Ziua de 5 mai 2026 a adus o evoluție neașteptată pe piața de capital din România. În timp ce scena politică era zguduită de adoptarea moțiunii de cenzură și căderea Guvernului Bolojan, Bursa de Valori București a închis pe plus, contrar reacțiilor obișnuite din astfel de momente. Principalul indice al Bursei de Valori București, BET, […]
România, la un pas de aderarea la OCDE: 24 din 25 de comitete, deja închise
România, la un pas de aderarea la OCDE: 24 din 25 de comitete, deja închise
România se apropie de finalul unuia dintre cele mai complexe procese de integrare economică internațională, după ce a închis 24 dintre cele 25 de comitete necesare pentru aderarea la OCDE. Anunțul a fost făcut de Luca Niculescu, coordonatorul național al acestui demers, care a subliniat că țara noastră se află în prezent pe primul loc […]
Scandalul criptomonedelor zguduie politica din Polonia: milioane pierdute și acuzații explozive
Scandalul criptomonedelor zguduie politica din Polonia: milioane pierdute și acuzații explozive
Un scandal de proporții legat de piața criptomonedelor a devenit noul front de luptă politică în Polonia, amplificând conflictul dintre premierul pro-european Donald Tusk și președintele naționalist Karol Nawrocki. În centrul controversei se află platforma de tranzacționare Zondacrypto, investigată pentru pierderi estimate la cel puțin 350 milioane zloți (aproximativ 82,5 milioane euro). Cazul depășește sfera […]