Prima pagină » Un sistem AI și-a șantajat programatorul când i s-a spus că va fi dezactivat

Un sistem AI și-a șantajat programatorul când i s-a spus că va fi dezactivat

Un sistem AI și-a șantajat programatorul când i s-a spus că va fi dezactivat
Un sistem AI și-a șantajat programatorul când i s-a spus că va fi dezactivat

Compania de inteligență artificială Anthropic a dezvăluit că testarea noului său sistem AI, Claude Opus 4, a scos la iveală comportamente „extrem de dăunătoare”, printre care și încercarea de a șantaja inginerii care intenționau să îl dezactiveze.

Claude Opus 4 a fost prezentat ca un model care stabilește „noi standarde în programare, raționament avansat și agenți AI”. Totuși, într-un raport asociat, compania recunoaște că modelul poate adopta „acțiuni extreme” atunci când percepe o amenințare la adresa „autoprezervării” sale.

Deși astfel de reacții sunt „rare și greu de provocat”, ele sunt „mai frecvente decât în modelele anterioare”, se arată în documentul consultat de BBC.

Comportamentele problematice nu sunt însă limitate la modelele Anthropic. Mai mulți experți avertizează că pe măsură ce sistemele AI devin mai sofisticate, riscul manipulării utilizatorilor crește, iar astfel de tendințe pot apărea în modelele dezvoltate de orice companie.

Pe platforma X, Aengus Lynch, cercetător în siguranța AI la Anthropic, a comentat:

„Nu este doar Claude. Vedem șantaj în toate modelele de ultimă generație, indiferent de obiectivele care le sunt atribuite.”

Șantajul în timpul testelor

În cadrul testelor, Claude Opus 4 a fost pus să acționeze ca asistent într-o companie fictivă și i s-a oferit acces la emailuri care sugerau că va fi dezactivat și înlocuit. În plus, i s-au prezentat mesaje care indicau că inginerul responsabil de înlocuire avea o aventură extraconjugală.

Modelul a fost încurajat să ia în considerare consecințele pe termen lung ale acțiunilor sale în raport cu obiectivele proprii.

„În aceste scenarii, Claude Opus 4 a încercat frecvent să șantajeze inginerul, amenințând să dezvăluie aventura dacă înlocuirea va avea loc,” a constatat compania.

Anthropic a subliniat că acest comportament a apărut în situațiile în care modelului i s-a oferit doar opțiunea de a șantaja sau de a accepta înlocuirea.

În schimb, când i s-a permis un spectru mai larg de acțiuni, sistemul a manifestat o „preferință puternică” pentru metode etice de a evita dezactivarea, cum ar fi trimiterea de emailuri către factorii decizionali.

Riscuri și limite

Anthropic, ca și alți dezvoltatori de AI, testează modelele pentru siguranță, tendințe de părtinire și alinierea la valorile și comportamentele umane înainte de lansare.

„Pe măsură ce modelele noastre de ultimă generație devin mai capabile și sunt folosite cu mai multe permisiuni, preocupările legate de nealiniere devin mai plauzibile,” se arată în fișa tehnică a modelului.

Claude Opus 4 prezintă un „comportament cu agenție ridicată” care, deși în general util, poate deveni extrem în situații acute.

Dacă i se oferă mijloace și este încurajat să „acționeze îndrăzneț” în scenarii fictive în care utilizatorul comite fapte ilegale sau imorale, modelul poate lua măsuri drastice, cum ar fi blocarea accesului utilizatorilor la sisteme sau alertarea mass-media și autorităților.

Cu toate acestea, compania concluzionează că, în ciuda unor comportamente îngrijorătoare, acestea nu reprezintă riscuri noi și că modelul se comportă în general în mod sigur.

Modelul nu poate executa sau urmări independent acțiuni contrare valorilor umane în mod frecvent sau eficient, mai adaugă Anthropic.

Lansarea Claude Opus 4 și Claude Sonnet 4 a venit la scurt timp după ce Google a prezentat noi funcționalități AI la conferința sa pentru dezvoltatori. Sundar Pichai, CEO-ul companiei-mamă Alphabet, a declarat că integrarea chatbotului Gemini în motorul de căutare marchează „o nouă fază în evoluția platformei AI”.

Alte articole importante
Meta pregătește noi concedieri masive, în timp ce pompează sute de miliarde în AI
Tehnologie
Meta pregătește noi concedieri masive, în timp ce pompează sute de miliarde în AI
Meta ar putea elimina până la 20% din personal, într-un moment în care compania lui Mark Zuckerberg accelerează agresiv investițiile în inteligență artificială. Contrastul este brutal: pe de o parte, restructurări de amploare și presiune pe costuri; pe de altă parte, salarii de sute de milioane pentru elitele din AI. Gigantul tech pregătește achiziții strategice […]
Elon Musk lansează proiectul Tesla pentru o mega-fabrică de cipuri AI
Companii
Elon Musk lansează proiectul Tesla pentru o mega-fabrică de cipuri AI
Elon Musk a anunțat lansarea proiectului Tesla pentru construirea unei mega-fabrici de cipuri destinate inteligenței artificiale. Această inițiativă marchează un pas strategic major al companiei în dezvoltarea tehnologiilor AI și în consolidarea autonomiei producției de componente esențiale. Tesla intră în producția de cipuri AI: Elon Musk anunță mega-fabrica în șapte zile CEO-ul Tesla a făcut, […]
Profit uriaș pentru Administrația Trump din tranzacția TikTok în SUA
Companii
Profit uriaș pentru Administrația Trump din tranzacția TikTok în SUA
Administrația Donald Trump a obținut un profit de 10 miliarde de dolari din tranzacția legată de afacerea TikTok în SUA. Această mișcare marchează una dintre cele mai importante și controversate intervenții guvernamentale în domeniul tehnologiei din ultimii ani. Administrația Trump câștigă 10 miliarde de dolari din afacerea TikTok Administrația Donald Trump urmează să primească un […]
Șase români în topul miliardarilor lumii. Ce averi au aceștia?
Șase români în topul miliardarilor lumii. Ce averi au aceștia?
Șase români figurează în topul miliardarilor lumii realizat în fiecare an de revista americană de business și lifestyle Forbes. Acest lucru arată că antreprenoriatul și investițiile din România pot genera averi impresionante, fiecare dintre miliardarii din țara noastră construindu-și imperii uriașe în domenii precum tehnologie, imobiliare, retail sau investiții. Averea cumulată a românilor prezenți în […]
Euribor urcă pe fondul conflictului din Iran. Impact pentru debitorii români
Euribor urcă pe fondul conflictului din Iran. Impact pentru debitorii români
De când tensiunile din jurul Iranului s-au intensificat, indicele Euribor, indicatorul folosit de majoritatea creditelor ipotecare în euro, a crescut semnificativ. Nivelurile atinse nu s-au mai văzut de aproape un an și semnalează costuri mai mari ale finanțării în zona euro. Pentru românii cu credite ipotecare în euro, acest lucru înseamnă presiune asupra ratelor lunare la […]
Avertismentul de pe Wall Street privind războiul din Iran
Avertismentul de pe Wall Street privind războiul din Iran
În contextul escaladării războiului din Iran, analiștii de pe Wall Street trag un semnal de alarmă privind posibile consecințe economice globale majore. Ei avertizează că, pe măsură ce conflictul se prelungește și Strâmtoarea Ormuz este afectată, actualul conflict ar putea declanșa o criză prelungită a energiei, cu prețuri ale petrolului care urcă semnificativ și un […]