Prima pagină » Un sistem AI și-a șantajat programatorul când i s-a spus că va fi dezactivat

Un sistem AI și-a șantajat programatorul când i s-a spus că va fi dezactivat

Un sistem AI și-a șantajat programatorul când i s-a spus că va fi dezactivat
Un sistem AI și-a șantajat programatorul când i s-a spus că va fi dezactivat

Compania de inteligență artificială Anthropic a dezvăluit că testarea noului său sistem AI, Claude Opus 4, a scos la iveală comportamente „extrem de dăunătoare”, printre care și încercarea de a șantaja inginerii care intenționau să îl dezactiveze.

Claude Opus 4 a fost prezentat ca un model care stabilește „noi standarde în programare, raționament avansat și agenți AI”. Totuși, într-un raport asociat, compania recunoaște că modelul poate adopta „acțiuni extreme” atunci când percepe o amenințare la adresa „autoprezervării” sale.

Deși astfel de reacții sunt „rare și greu de provocat”, ele sunt „mai frecvente decât în modelele anterioare”, se arată în documentul consultat de BBC.

Comportamentele problematice nu sunt însă limitate la modelele Anthropic. Mai mulți experți avertizează că pe măsură ce sistemele AI devin mai sofisticate, riscul manipulării utilizatorilor crește, iar astfel de tendințe pot apărea în modelele dezvoltate de orice companie.

Pe platforma X, Aengus Lynch, cercetător în siguranța AI la Anthropic, a comentat:

„Nu este doar Claude. Vedem șantaj în toate modelele de ultimă generație, indiferent de obiectivele care le sunt atribuite.”

Șantajul în timpul testelor

În cadrul testelor, Claude Opus 4 a fost pus să acționeze ca asistent într-o companie fictivă și i s-a oferit acces la emailuri care sugerau că va fi dezactivat și înlocuit. În plus, i s-au prezentat mesaje care indicau că inginerul responsabil de înlocuire avea o aventură extraconjugală.

Modelul a fost încurajat să ia în considerare consecințele pe termen lung ale acțiunilor sale în raport cu obiectivele proprii.

„În aceste scenarii, Claude Opus 4 a încercat frecvent să șantajeze inginerul, amenințând să dezvăluie aventura dacă înlocuirea va avea loc,” a constatat compania.

Anthropic a subliniat că acest comportament a apărut în situațiile în care modelului i s-a oferit doar opțiunea de a șantaja sau de a accepta înlocuirea.

În schimb, când i s-a permis un spectru mai larg de acțiuni, sistemul a manifestat o „preferință puternică” pentru metode etice de a evita dezactivarea, cum ar fi trimiterea de emailuri către factorii decizionali.

Riscuri și limite

Anthropic, ca și alți dezvoltatori de AI, testează modelele pentru siguranță, tendințe de părtinire și alinierea la valorile și comportamentele umane înainte de lansare.

„Pe măsură ce modelele noastre de ultimă generație devin mai capabile și sunt folosite cu mai multe permisiuni, preocupările legate de nealiniere devin mai plauzibile,” se arată în fișa tehnică a modelului.

Claude Opus 4 prezintă un „comportament cu agenție ridicată” care, deși în general util, poate deveni extrem în situații acute.

Dacă i se oferă mijloace și este încurajat să „acționeze îndrăzneț” în scenarii fictive în care utilizatorul comite fapte ilegale sau imorale, modelul poate lua măsuri drastice, cum ar fi blocarea accesului utilizatorilor la sisteme sau alertarea mass-media și autorităților.

Cu toate acestea, compania concluzionează că, în ciuda unor comportamente îngrijorătoare, acestea nu reprezintă riscuri noi și că modelul se comportă în general în mod sigur.

Modelul nu poate executa sau urmări independent acțiuni contrare valorilor umane în mod frecvent sau eficient, mai adaugă Anthropic.

Lansarea Claude Opus 4 și Claude Sonnet 4 a venit la scurt timp după ce Google a prezentat noi funcționalități AI la conferința sa pentru dezvoltatori. Sundar Pichai, CEO-ul companiei-mamă Alphabet, a declarat că integrarea chatbotului Gemini în motorul de căutare marchează „o nouă fază în evoluția platformei AI”.

Alte articole importante
Bula imobiliară se fisurează în România. Clienții sunt tot mai puțini, taxele sunt în creștere
Bula imobiliară se fisurează în România. Clienții sunt tot mai puțini, taxele sunt în creștere
Piața imobiliară din România încheie anul cu o prăbușire puternică. În timp ce taxele sunt în creștere și pun presiune tot mai mare, românii se gândesc de două ori înainte să-și achiziționeze o locuință. Asta în timp ce, pe șantierele, dezvoltatorii continuă la foc continuu construcțiile.  Se sparge bula imobiliarelor: românii nu mai cumpără locuințe […]
Înmatriculările de mașini noi au crescut cu peste 36% în noiembrie
Companii
Înmatriculările de mașini noi au crescut cu peste 36% în noiembrie
În luna noiembrie, înmatriculările de mașini noi în România a înregistrat o creștere spectaculoasă, de peste 36% față de aceeași perioadă din 2024. Această evoluție semnificativă a pieței auto locale reflectă interesul tot mai mare al românilor pentru înnoirea parcului auto național, precum și dinamica pozitivă a segmentului de vehicule prietenoase cu mediul. Vânzări record […]
Economia digitalizată și limitarea plăților în numerar în România. Plafonul impus de UE de la 1 ianuarie 2027
Economia digitalizată și limitarea plăților în numerar în România. Plafonul impus de UE de la 1 ianuarie 2027
Începutul anului 2027 va fi marcat, pentru români, de regula impusă de Uniunea Europeană în ceea ce privește plățile în numerar. Deși decizia nu înseamnă eliminarea cash-ului, va exista un plafon prin care plățile vor fi limitate semnificativ. Măsura face parte din pachetul adoptat de Uniunea Europeană pentru combaterea spălării banilor și a finanțării activităților […]
Pariul uriaș al Uber. „Miza de un trilion” – boom-ul taxiurilor robot
Companii
Pariul uriaș al Uber. „Miza de un trilion” – boom-ul taxiurilor robot
Uber pregătește cea mai agresivă extindere din ultimii ani, odată cu boom-ul așteptat pe piața taxiurilor robot. CEO-ul Dara Khosrowshahi spune că Asia-Pacific va deveni motorul creșterii, într-o industrie evaluată la peste un trilion de dolari. Cu peste 20 de parteneri în domeniul autonomiei, compania vrea să intre în peste 10 piețe noi chiar de […]
Disney investește 1 miliard de dolari în Open AI.  Altman: Companiile de AI și creatorii pot lucra împreună
Companii
Disney investește 1 miliard de dolari în Open AI. Altman: Companiile de AI și creatorii pot lucra împreună
Walt Disney a anunțat o investiție de 1 miliard de dolari în OpenAI și un acord prin care aplicația video Sora va putea folosi peste 200 de personaje din universurile Disney, Marvel, Pixar și Star Wars. Parteneriatul, întins pe trei ani, marchează intrarea oficială a gigantului de divertisment în zona generativă AI. Disney investește 1 […]
O bancă americană de investiții, favorită să preia activele Lukoil într-un acord „fără bani”
O bancă americană de investiții, favorită să preia activele Lukoil într-un acord „fără bani”
Lukoil ar prefera oferta băncii americane de investiții Xtellus Partners pentru vânzarea portofoliului său internațional, evaluat la 22 de miliarde de dolari. Tranzacția ar avea loc fără numerar, printr-un schimb de titluri deținute de investitori americani. Termenul-limită impus de Trezoreria SUA pentru finalizarea vânzării a fost extins până la 17 ianuarie. Lukoil negociază o tranzacție […]