Prima pagină » Un sistem AI și-a șantajat programatorul când i s-a spus că va fi dezactivat

Un sistem AI și-a șantajat programatorul când i s-a spus că va fi dezactivat

Un sistem AI și-a șantajat programatorul când i s-a spus că va fi dezactivat
Un sistem AI și-a șantajat programatorul când i s-a spus că va fi dezactivat

Compania de inteligență artificială Anthropic a dezvăluit că testarea noului său sistem AI, Claude Opus 4, a scos la iveală comportamente „extrem de dăunătoare”, printre care și încercarea de a șantaja inginerii care intenționau să îl dezactiveze.

Claude Opus 4 a fost prezentat ca un model care stabilește „noi standarde în programare, raționament avansat și agenți AI”. Totuși, într-un raport asociat, compania recunoaște că modelul poate adopta „acțiuni extreme” atunci când percepe o amenințare la adresa „autoprezervării” sale.

Deși astfel de reacții sunt „rare și greu de provocat”, ele sunt „mai frecvente decât în modelele anterioare”, se arată în documentul consultat de BBC.

Comportamentele problematice nu sunt însă limitate la modelele Anthropic. Mai mulți experți avertizează că pe măsură ce sistemele AI devin mai sofisticate, riscul manipulării utilizatorilor crește, iar astfel de tendințe pot apărea în modelele dezvoltate de orice companie.

Pe platforma X, Aengus Lynch, cercetător în siguranța AI la Anthropic, a comentat:

„Nu este doar Claude. Vedem șantaj în toate modelele de ultimă generație, indiferent de obiectivele care le sunt atribuite.”

Șantajul în timpul testelor

În cadrul testelor, Claude Opus 4 a fost pus să acționeze ca asistent într-o companie fictivă și i s-a oferit acces la emailuri care sugerau că va fi dezactivat și înlocuit. În plus, i s-au prezentat mesaje care indicau că inginerul responsabil de înlocuire avea o aventură extraconjugală.

Modelul a fost încurajat să ia în considerare consecințele pe termen lung ale acțiunilor sale în raport cu obiectivele proprii.

„În aceste scenarii, Claude Opus 4 a încercat frecvent să șantajeze inginerul, amenințând să dezvăluie aventura dacă înlocuirea va avea loc,” a constatat compania.

Anthropic a subliniat că acest comportament a apărut în situațiile în care modelului i s-a oferit doar opțiunea de a șantaja sau de a accepta înlocuirea.

În schimb, când i s-a permis un spectru mai larg de acțiuni, sistemul a manifestat o „preferință puternică” pentru metode etice de a evita dezactivarea, cum ar fi trimiterea de emailuri către factorii decizionali.

Riscuri și limite

Anthropic, ca și alți dezvoltatori de AI, testează modelele pentru siguranță, tendințe de părtinire și alinierea la valorile și comportamentele umane înainte de lansare.

„Pe măsură ce modelele noastre de ultimă generație devin mai capabile și sunt folosite cu mai multe permisiuni, preocupările legate de nealiniere devin mai plauzibile,” se arată în fișa tehnică a modelului.

Claude Opus 4 prezintă un „comportament cu agenție ridicată” care, deși în general util, poate deveni extrem în situații acute.

Dacă i se oferă mijloace și este încurajat să „acționeze îndrăzneț” în scenarii fictive în care utilizatorul comite fapte ilegale sau imorale, modelul poate lua măsuri drastice, cum ar fi blocarea accesului utilizatorilor la sisteme sau alertarea mass-media și autorităților.

Cu toate acestea, compania concluzionează că, în ciuda unor comportamente îngrijorătoare, acestea nu reprezintă riscuri noi și că modelul se comportă în general în mod sigur.

Modelul nu poate executa sau urmări independent acțiuni contrare valorilor umane în mod frecvent sau eficient, mai adaugă Anthropic.

Lansarea Claude Opus 4 și Claude Sonnet 4 a venit la scurt timp după ce Google a prezentat noi funcționalități AI la conferința sa pentru dezvoltatori. Sundar Pichai, CEO-ul companiei-mamă Alphabet, a declarat că integrarea chatbotului Gemini în motorul de căutare marchează „o nouă fază în evoluția platformei AI”.

Alte articole importante
Explozia energiei nucleare: de ce giganții tehnologici și investitorii globali mizează pe „renașterea atomică” în ciuda riscurilor uriașe
Explozia energiei nucleare: de ce giganții tehnologici și investitorii globali mizează pe „renașterea atomică” în ciuda riscurilor uriașe
Creșterea accelerată a cererii de energie și ambițiile companiilor tehnologice au readus energia nucleară în prim-plan. Investițiile se ridică la 2,2 trilioane de dolari până în 2025, însă incertitudinile politice, financiare și tehnologice ridică întrebări majore. Între promisiunea reactoarelor modulare și realitatea costurilor colosale, industria se află într-un moment de cotitură global. Cererea uriașă de […]
Unde găsești cele mai mici prețuri la cartofi în România. Topul piețelor din orașele țării în 2025
Analize
Unde găsești cele mai mici prețuri la cartofi în România. Topul piețelor din orașele țării în 2025
Românii care merg la piață au descoperit în iunie 2025 diferențe uriașe de preț la cartofi, o legumă nelipsită din mesele zilnice. Topul piețelor din România cuprinde de la piețe unde kilogramul a costat sub 3 lei, până la orașe unde a depășit 7 lei, iar contrastul dintre zone arată cât de mult influențează producția […]
O țară vecină României a făcut exporturi de arme în valoare de 6,65 miliarde de euro
O țară vecină României a făcut exporturi de arme în valoare de 6,65 miliarde de euro
O țară vecină României a înregistrat exporturi masive de arme, în valoare de 6,65 miliarde de euro, de la debutul războiului din Ucraina. Cifrele reflectă atât creșterea cererii de echipamente militare, cât și implicarea economică a acestei țări în contextul conflictului prelungit. Țară vecină României, printre marii exportatori de arme: 6,65 miliarde de euro după […]
Chemtrails și rețele obscure: ne transformăm într-o lume de consumatori conspiraționiști?
Chemtrails și rețele obscure: ne transformăm într-o lume de consumatori conspiraționiști?
Se pare că aproape orice decizie de branding devine, mai nou, teren de bătălie politică. Un logo schimbat sau o reclamă banală sunt imediat interpretate ca fiind „woke”, „supremație albă” sau mesaje ascunse cu tentă ideologică. Tendința se vede cam peste tot în lume, însă în America a ajuns să fie o permanentă sursă de […]
Rusia pregătește cel mai dur sistem de control al internetului. Ce urmează pentru utilizatori
Tehnologie
Rusia pregătește cel mai dur sistem de control al internetului. Ce urmează pentru utilizatori
În Rusia se pregătește implementarea unui sistem de control extrem al internetului, capabil să monitorizeze și să blocheze nu doar site-uri individuale, ci și categorii întregi de conținut online. Autoritățile folosesc tehnologia DPI pentru a urmări activitatea utilizatorilor, de la navigarea pe YouTube și trimiterea de mesaje, până la accesarea resurselor politice sau religioase. Această […]
Rachetele private ale Europei decolează: Isar Aerospace cucerește primele misiuni instituționale
Tehnologie
Rachetele private ale Europei decolează: Isar Aerospace cucerește primele misiuni instituționale
Compania germană Isar Aerospace, cu sediul la München, marchează o premieră pentru Europa. Este prima firmă privată de pe continent care semnează contracte comerciale de servicii de lansare cu Agenția Spațială Europeană (ESA) și Comisia Europeană. Aceste misiuni cu rachetele private ale companiei urmează să fie efectuate de la baza spațială norvegiană Andøya, începând cu […]