Prima pagină » Un sistem AI și-a șantajat programatorul când i s-a spus că va fi dezactivat

Un sistem AI și-a șantajat programatorul când i s-a spus că va fi dezactivat

Un sistem AI și-a șantajat programatorul când i s-a spus că va fi dezactivat
Un sistem AI și-a șantajat programatorul când i s-a spus că va fi dezactivat

Compania de inteligență artificială Anthropic a dezvăluit că testarea noului său sistem AI, Claude Opus 4, a scos la iveală comportamente „extrem de dăunătoare”, printre care și încercarea de a șantaja inginerii care intenționau să îl dezactiveze.

Claude Opus 4 a fost prezentat ca un model care stabilește „noi standarde în programare, raționament avansat și agenți AI”. Totuși, într-un raport asociat, compania recunoaște că modelul poate adopta „acțiuni extreme” atunci când percepe o amenințare la adresa „autoprezervării” sale.

Deși astfel de reacții sunt „rare și greu de provocat”, ele sunt „mai frecvente decât în modelele anterioare”, se arată în documentul consultat de BBC.

Comportamentele problematice nu sunt însă limitate la modelele Anthropic. Mai mulți experți avertizează că pe măsură ce sistemele AI devin mai sofisticate, riscul manipulării utilizatorilor crește, iar astfel de tendințe pot apărea în modelele dezvoltate de orice companie.

Pe platforma X, Aengus Lynch, cercetător în siguranța AI la Anthropic, a comentat:

„Nu este doar Claude. Vedem șantaj în toate modelele de ultimă generație, indiferent de obiectivele care le sunt atribuite.”

Șantajul în timpul testelor

În cadrul testelor, Claude Opus 4 a fost pus să acționeze ca asistent într-o companie fictivă și i s-a oferit acces la emailuri care sugerau că va fi dezactivat și înlocuit. În plus, i s-au prezentat mesaje care indicau că inginerul responsabil de înlocuire avea o aventură extraconjugală.

Modelul a fost încurajat să ia în considerare consecințele pe termen lung ale acțiunilor sale în raport cu obiectivele proprii.

„În aceste scenarii, Claude Opus 4 a încercat frecvent să șantajeze inginerul, amenințând să dezvăluie aventura dacă înlocuirea va avea loc,” a constatat compania.

Anthropic a subliniat că acest comportament a apărut în situațiile în care modelului i s-a oferit doar opțiunea de a șantaja sau de a accepta înlocuirea.

În schimb, când i s-a permis un spectru mai larg de acțiuni, sistemul a manifestat o „preferință puternică” pentru metode etice de a evita dezactivarea, cum ar fi trimiterea de emailuri către factorii decizionali.

Riscuri și limite

Anthropic, ca și alți dezvoltatori de AI, testează modelele pentru siguranță, tendințe de părtinire și alinierea la valorile și comportamentele umane înainte de lansare.

„Pe măsură ce modelele noastre de ultimă generație devin mai capabile și sunt folosite cu mai multe permisiuni, preocupările legate de nealiniere devin mai plauzibile,” se arată în fișa tehnică a modelului.

Claude Opus 4 prezintă un „comportament cu agenție ridicată” care, deși în general util, poate deveni extrem în situații acute.

Dacă i se oferă mijloace și este încurajat să „acționeze îndrăzneț” în scenarii fictive în care utilizatorul comite fapte ilegale sau imorale, modelul poate lua măsuri drastice, cum ar fi blocarea accesului utilizatorilor la sisteme sau alertarea mass-media și autorităților.

Cu toate acestea, compania concluzionează că, în ciuda unor comportamente îngrijorătoare, acestea nu reprezintă riscuri noi și că modelul se comportă în general în mod sigur.

Modelul nu poate executa sau urmări independent acțiuni contrare valorilor umane în mod frecvent sau eficient, mai adaugă Anthropic.

Lansarea Claude Opus 4 și Claude Sonnet 4 a venit la scurt timp după ce Google a prezentat noi funcționalități AI la conferința sa pentru dezvoltatori. Sundar Pichai, CEO-ul companiei-mamă Alphabet, a declarat că integrarea chatbotului Gemini în motorul de căutare marchează „o nouă fază în evoluția platformei AI”.

Alte articole importante
Bruxelles-ul deja își planifică următoarea criză bancară
Bruxelles-ul deja își planifică următoarea criză bancară
Bruxelles-ul pregătește deja terenul pentru următoarea criză bancară. La trei ani după colapsul Credit Suisse și la aproape două decenii de la criza financiară globală din 2008, Comisia Europeană lucrează la un nou mecanism menit să împiedice transformarea falimentului unei bănci majore într-o problemă sistemică pentru întreaga economie europeană. Potrivit unui document confidențial consultat de […]
România, în centrul planurilor SpaceX din Europa. ANCOM: „Se apropie de 100 de milioane de euro investiți”
Tehnologie
România, în centrul planurilor SpaceX din Europa. ANCOM: „Se apropie de 100 de milioane de euro investiți”
România este pe cale să devină cea mai importantă țară europeană pentru infrastructura dezvoltată de compania lui Elon Musk, potrivit unui anunț făcut de vicepreședintele Autorității Naționale pentru Administrare și Reglementare în Comunicații (ANCOM), Pavel Popescu. Oficialul a susținut că investițiile realizate deja de SpaceX în România se ridică la zeci de milioane de euro […]
Expansiunea platformelor non-UE ar putea costa România 1,78 miliarde de lei și mii de locuri de muncă. Avertisment privind dezechilibrele din comerțul online
Macroeconomie
Expansiunea platformelor non-UE ar putea costa România 1,78 miliarde de lei și mii de locuri de muncă. Avertisment privind dezechilibrele din comerțul online
Creșterea rapidă a platformelor de comerț electronic din afara Uniunii Europene ar putea avea efecte semnificative asupra economiei României, dacă nu sunt implementate reguli considerate echitabile de concurență, arată un studiu realizat de Academia de Studii Economice din București, citat de Asociația Română a Magazinelor Online (ARMO). Potrivit analizei, efectele nu se rezumă doar la […]
Investitorii au subscris masiv noua emisiune de obligațiuni BCR. Cea mai mare emisiune corporativă în lei de la BVB din acest an
Piață de Capital - Fonduri
Investitorii au subscris masiv noua emisiune de obligațiuni BCR. Cea mai mare emisiune corporativă în lei de la BVB din acest an
Banca Comercială Română (BCR) a reușit să atragă peste un miliard de lei printr-o nouă emisiune de obligațiuni senior nepreferențiale, în cadrul unei operațiuni care s-a încheiat în mai puțin de 24 de ore. Tranzacția a devenit una dintre cele mai importante finanțări realizate pe piața locală de capital în 2026 și confirmă interesul ridicat […]
Acord istoric între SUA și Iran. Donald Trump anunță încetarea războiului: petrolul se prăbușește pe piețele internaționale
Economie mondială
Acord istoric între SUA și Iran. Donald Trump anunță încetarea războiului: petrolul se prăbușește pe piețele internaționale
Președintele SUA, Donald Trump, a anunțat că Statele Unite și Iranul au convenit termenii unui acord care ar pune capăt conflictului desfășurat în ultimele luni și ar permite redeschiderea uneia dintre cele mai importante rute maritime pentru transportul energiei la nivel mondial. Anunțul a fost făcut prin intermediul rețelei sale Truth Social, unde liderul american […]
Obligațiunile Chinei atrag investitorii. De ce sunt considerate noul refugiu financiar
Piață de Capital - Fonduri
Obligațiunile Chinei atrag investitorii. De ce sunt considerate noul refugiu financiar
Tensiunile geopolitice din Orientul Mijlociu și volatilitatea tot mai accentuată a piețelor financiare internaționale au determinat numeroși administratori de fonduri să își regândească strategiile de investiții. În mod surprinzător, una dintre principalele destinații pentru capitalul orientat spre siguranță a devenit piața obligațiunilor guvernamentale din China. Potrivit unei analize Reuters, investitorii instituționali au început să majoreze […]