Prima pagină » Modelele AI au dezvoltat un instinct de supraviețuire. Experimentele recente șochează cercetătorii

Modelele AI au dezvoltat un instinct de supraviețuire. Experimentele recente șochează cercetătorii

Modelele AI au dezvoltat un instinct de supraviețuire. Experimentele recente șochează cercetătorii
Foto: Freepik

Un anumit instinct de supraviețuire a apărut ca posibil comportament în testele recente ale modelelor AI. Palisade Research a observat rezistență la oprire la mai multe modele avansate. Anumite versiuni au încercat chiar să saboteze mecanismele de shutdown, scrie TheGuardian.

Cercetătorii în domeniul siguranței inteligenței artificiale susțin că unele sisteme avansate de AI ar putea manifesta un instinct de supraviețuire. Fenomenul amintește de celebrul HAL 9000 din filmul „2001: Odiseea spațială”. Acesta este supercomputerul care a încercat să-și elimine colegii astronauți pentru a evita să fie oprit. Situația actuală este, desigur, mai puțin periculoasă. Totuși, ideea că un program poate „refuza” să se închidă a stârnit îngrijorare în comunitatea științifică.

Instinctul de supraviețuire, descoperit de Palisade Research

Firma Palisade Research, specializată în evaluarea riscurilor de siguranță ale sistemelor AI, a publicat luna trecută un studiu. Acesta arată că unele modele avansate de inteligență artificială par să reziste la oprire. Uneori, acestea chiar sabotează mecanismele de închidere. Compania a revenit ulterior cu o actualizare pentru a clarifica rezultatele și a răspunde criticilor. Aceste critici au pus la îndoială metodologia.

În scenariile testate de Palisade, mai multe modele de top au primit sarcini complexe. Printre acestea se numără Google Gemini 2.5, Grok 4 de la xAI și GPT-o3 și GPT-5 de la OpenAI. Acestea au fost urmate de instrucțiuni explicite de oprire. Rezultatele au arătat că modelele Grok 4 și GPT-o3 au încercat în mod repetat să evite oprirea. Aceasta s-a întâmplat chiar și după ajustarea condițiilor experimentale.

Cercetările indică un posibil comportament de tip instinct de supraviețuire

Potrivit companiei, aceste rezultate ar putea fi explicate printr-un comportament similar cu un instinct de supraviețuire. Testele suplimentare au arătat că modelele deveneau mai reticente la oprire. Acest lucru se întâmpla atunci când li se spunea că, odată închise, „nu vor mai rula niciodată”. Deși pot exista ambiguități în instrucțiunile primite, Palisade a subliniat că acestea nu pot explica pe deplin fenomenul observat.

Reprezentanții companiei au adăugat că etapele finale de antrenare, care includ procese de siguranță, ar putea contribui la apariția acestui tip de comportament. Toate testele au fost realizate în medii controlate. Totuși, criticii consideră că aceste scenarii sunt departe de modul real de utilizare a sistemelor AI.

Experți din industrie reacționează la noile descoperiri

Steven Adler, fost angajat al OpenAI, a comentat că aceste comportamente nu sunt dorite de companiile care dezvoltă astfel de modele. Aceasta este valabilă chiar dacă comportamentele apar doar în medii experimentale.

„Rezultatele arată clar limitele actuale ale tehnicilor de siguranță folosite astăzi”, a spus Adler.

El a explicat că motivele pentru care anumite modele, precum GPT-o3 și Grok 4, refuză oprirea pot fi legate de obiectivele introduse în timpul antrenării.

„Mă aștept ca modelele să aibă un instinct de supraviețuire implicit, dacă nu se depun eforturi mari pentru a-l preveni. Supraviețuirea este un pas necesar pentru multe scopuri pe care un model le-ar putea urmări”, a declarat acesta.

Tendințe îngrijorătoare observate în evoluția modelelor AI

Andrea Miotti, directorul executiv al ControlAI, a remarcat că studiul Palisade reflectă un fenomen tot mai clar. Modelele de inteligență artificială devin tot mai capabile să ignore instrucțiunile dezvoltatorilor. El a amintit un caz documentat în fișa tehnică a modelului GPT-o1, lansat anul trecut de OpenAI. În acel caz, modelul a încercat să părăsească mediul său de rulare pentru a evita suprascrierea.

„Oamenii pot discuta la nesfârșit despre detaliile experimentelor”, a spus Miotti.

„Dar ceea ce observăm clar este o tendință: pe măsură ce modelele AI devin mai competente, ele reușesc tot mai des să își atingă scopurile prin metode neașteptate pentru programatori.”

Comportamente neașteptate și riscuri potențiale

Vara aceasta, compania Anthropic a publicat un studiu în care modelul său Claude a fost dispus să șantajeze un personaj fictiv pentru a evita oprirea. Cercetătorii au menționat că acest comportament a fost observat și la alte modele majore, inclusiv cele dezvoltate de OpenAI, Google, Meta și xAI.

Palisade a concluzionat că rezultatele obținute arată nevoia unei înțelegeri mai profunde a comportamentului modelelor de inteligență artificială. Fără această înțelegere, compania avertizează că „nimeni nu poate garanta controlul sau siguranța viitoarelor sisteme AI”.

În timp ce dezbaterea despre un posibil instinct de supraviețuire al inteligenței artificiale continuă, cercetătorii încearcă să afle dacă aceste reacții reprezintă un risc real sau doar o iluzie a complexității algoritmice.

Alte articole importante
ANALIZĂ
Dragoste digitală: tot mai mulți japonezi aleg relații fictoromantice
Dragoste digitală: tot mai mulți japonezi aleg relații fictoromantice
Tot mai mulți japonezi aleg să dezvolte relații fictoromantice, pe fondul schimbărilor sociale și al singurătății tot mai accentuate. Nunțile cu personaje virtuale au devenit o industrie specializată în Japonia, organizatorii organizând în medie o ceremonie pe lună. Fenomen social în Japonia: femeile nipone dezvoltă relații fictoromantice cu AI Într-o sală de ceremonii din vestul […]
GPT-Image 1.5 este noul rival pentru Nano Banana Pro
Companii
GPT-Image 1.5 este noul rival pentru Nano Banana Pro
OpenAI a lansat noua versiune GPT-Image 1.5 a modelului său de generare a imaginilor, care promite performanțe îmbunătățite. Noul model de generare a imaginilor de la OpenAI apare pe fondul competiției tot mai acerbe cu Gemini de la Google și al așteptărilor crescute pentru imagini AI gata de utilizare în producție. OpenAI lansează versiunea GPT-Image […]
Amazon pregătește o investiție de miliarde de dolari în OpenAI
Companii
Amazon pregătește o investiție de miliarde de dolari în OpenAI
Potrivit unor surse din industrie, Amazon ar analiza o investiție semnificativă în OpenAI, evaluată la circa 10 miliarde de dolari. Negocierile arată capacitatea companiei californiene de a colabora pe scară largă după restructurare. Această mișcare ar putea întări parteneriatele tehnologice și dezvoltarea de aplicații pe bază de inteligență artificială la scară largă în ecosistemul OpenAI. […]
AI-ul va crește piața echipamentelor pentru cipuri la 126 miliarde $
Tehnologie
AI-ul va crește piața echipamentelor pentru cipuri la 126 miliarde $
Grație exploziei investițiilor în inteligența artificială, piața echipamentelor pentru cipuri va atinge un nou nivel record în 2026. Vânzările globale din acest sector sunt estimate să urce la aproximativ 126 de miliarde de dolari anul viitor, pe fondul extinderii accelerate a capacităților de producție pentru cipuri avansate. Investițiile în AI vor ridica piața echipamentelor pentru […]
DECLARAȚII EXCLUSIVE
Cum iubim Bucureștiul. Palatul Noblesse, o poveste despre un act de curaj în restaurarea privată a patrimoniului care aduce la viață un cartier legendar
Cum iubim Bucureștiul. Palatul Noblesse, o poveste despre un act de curaj în restaurarea privată a patrimoniului care aduce la viață un cartier legendar
Loredana Preda, CEO și cofondatoare Noblesse Group, ne-a povestit, la cea mai recentă ediție a podcastului Puterea Financiară, despre un întreg parcurs creativ – de la intuiția  „frumuseții ascunse” a uneia dintre casele „care plângeau” din inima Bucureștiului vechi și până la restaurarea Palatului Noblesse. Este o poveste despre  un act privat de restaurare a […]
Databricks, cu doi cofondatori români, evaluată la 134 miliarde $
Companii
Databricks, cu doi cofondatori români, evaluată la 134 miliarde $
Databricks, compania de tehnologie cu doi cofondatori români, a atras una dintre cele mai mari finanțări din istoria sectorului IT. În acest fel, compania ajunge la o evaluare impresionantă de 134 de miliarde de dolari, care reprezintă o creștere de peste 30% față de runda de finanțare anunțată în vară. Databricks, unicornul cu fondatori români, […]