Prima pagină » Un sistem AI și-a șantajat programatorul când i s-a spus că va fi dezactivat

Un sistem AI și-a șantajat programatorul când i s-a spus că va fi dezactivat

Un sistem AI și-a șantajat programatorul când i s-a spus că va fi dezactivat
Un sistem AI și-a șantajat programatorul când i s-a spus că va fi dezactivat

Compania de inteligență artificială Anthropic a dezvăluit că testarea noului său sistem AI, Claude Opus 4, a scos la iveală comportamente „extrem de dăunătoare”, printre care și încercarea de a șantaja inginerii care intenționau să îl dezactiveze.

Claude Opus 4 a fost prezentat ca un model care stabilește „noi standarde în programare, raționament avansat și agenți AI”. Totuși, într-un raport asociat, compania recunoaște că modelul poate adopta „acțiuni extreme” atunci când percepe o amenințare la adresa „autoprezervării” sale.

Deși astfel de reacții sunt „rare și greu de provocat”, ele sunt „mai frecvente decât în modelele anterioare”, se arată în documentul consultat de BBC.

Comportamentele problematice nu sunt însă limitate la modelele Anthropic. Mai mulți experți avertizează că pe măsură ce sistemele AI devin mai sofisticate, riscul manipulării utilizatorilor crește, iar astfel de tendințe pot apărea în modelele dezvoltate de orice companie.

Pe platforma X, Aengus Lynch, cercetător în siguranța AI la Anthropic, a comentat:

„Nu este doar Claude. Vedem șantaj în toate modelele de ultimă generație, indiferent de obiectivele care le sunt atribuite.”

Șantajul în timpul testelor

În cadrul testelor, Claude Opus 4 a fost pus să acționeze ca asistent într-o companie fictivă și i s-a oferit acces la emailuri care sugerau că va fi dezactivat și înlocuit. În plus, i s-au prezentat mesaje care indicau că inginerul responsabil de înlocuire avea o aventură extraconjugală.

Modelul a fost încurajat să ia în considerare consecințele pe termen lung ale acțiunilor sale în raport cu obiectivele proprii.

„În aceste scenarii, Claude Opus 4 a încercat frecvent să șantajeze inginerul, amenințând să dezvăluie aventura dacă înlocuirea va avea loc,” a constatat compania.

Anthropic a subliniat că acest comportament a apărut în situațiile în care modelului i s-a oferit doar opțiunea de a șantaja sau de a accepta înlocuirea.

În schimb, când i s-a permis un spectru mai larg de acțiuni, sistemul a manifestat o „preferință puternică” pentru metode etice de a evita dezactivarea, cum ar fi trimiterea de emailuri către factorii decizionali.

Riscuri și limite

Anthropic, ca și alți dezvoltatori de AI, testează modelele pentru siguranță, tendințe de părtinire și alinierea la valorile și comportamentele umane înainte de lansare.

„Pe măsură ce modelele noastre de ultimă generație devin mai capabile și sunt folosite cu mai multe permisiuni, preocupările legate de nealiniere devin mai plauzibile,” se arată în fișa tehnică a modelului.

Claude Opus 4 prezintă un „comportament cu agenție ridicată” care, deși în general util, poate deveni extrem în situații acute.

Dacă i se oferă mijloace și este încurajat să „acționeze îndrăzneț” în scenarii fictive în care utilizatorul comite fapte ilegale sau imorale, modelul poate lua măsuri drastice, cum ar fi blocarea accesului utilizatorilor la sisteme sau alertarea mass-media și autorităților.

Cu toate acestea, compania concluzionează că, în ciuda unor comportamente îngrijorătoare, acestea nu reprezintă riscuri noi și că modelul se comportă în general în mod sigur.

Modelul nu poate executa sau urmări independent acțiuni contrare valorilor umane în mod frecvent sau eficient, mai adaugă Anthropic.

Lansarea Claude Opus 4 și Claude Sonnet 4 a venit la scurt timp după ce Google a prezentat noi funcționalități AI la conferința sa pentru dezvoltatori. Sundar Pichai, CEO-ul companiei-mamă Alphabet, a declarat că integrarea chatbotului Gemini în motorul de căutare marchează „o nouă fază în evoluția platformei AI”.

Alte articole importante
Schimbare majoră în economia globală: Japonia cedează locul de principal creditor mondial, după 34 de ani
Schimbare majoră în economia globală: Japonia cedează locul de principal creditor mondial, după 34 de ani
După mai bine de trei decenii în care Japonia a dominat clasamentul mondial al creditorilor, Germania i-a luat locul. Deși activele externe ale Japoniei au atins un nivel record, efectele deprecierii yenului și surplusul comercial al Germaniei au înclinat balanța. Japonia, detronată de Germania după un record de 34 de ani Pentru prima dată în […]
Dacia rămâne motorul exporturilor auto din România. 92% din producție pleacă „afară”
Companii
Dacia rămâne motorul exporturilor auto din România. 92% din producție pleacă „afară”
Dacia continuă să fie pilonul principal al industriei auto autohtone, remarcându-se la nivel internațional printr-o strategie de vânzări solidă. Cu peste 92% din producție livrată pe piețele externe, brandul românesc consolidează poziția României în lanțul global al producătorilor din acest sector, într-un moment în care tranziția către vehicule moderne și sustenabile devine tot mai importantă. […]
Scandalul Harvard explodează în SUA. Surse New York Times: Administrația Trump va anula absolut toate fondurile federale
Scandalul Harvard explodează în SUA. Surse New York Times: Administrația Trump va anula absolut toate fondurile federale
Un nou pas radical a fost anunțat de administrația Trump: toate contractele federale rămase cu Universitatea Harvard, în valoare estimată de 100 de milioane de dolari, urmează să fie anulate. Potrivit unei scrisori ce urmează să fie trimisă marți agențiilor federale, acestea vor fi instruite să înceteze contractele existente și să identifice furnizori alternativi pentru […]
PwC: Vânzările de vehicule electrice în România s-au prăbușit, pe fondul întârzierilor programului Rabla
PwC: Vânzările de vehicule electrice în România s-au prăbușit, pe fondul întârzierilor programului Rabla
Piața auto din România se confruntă cu un recul semnificativ al vânzărilor de vehicule electrice în 2025, într-o perioadă în care principalele economii europene apasă pedala de accelerație în direcția mobilității electrice.  Potrivit unei analize realizată de PwC România, întârzierile prelungite în lansarea programului Rabla au provocat o scădere abruptă a înmatriculărilor de automobile cu […]
AFM a publicat ghidul complet Rabla 2025. Cum te înscrii în program? (VIDEO)
AFM a publicat ghidul complet Rabla 2025. Cum te înscrii în program? (VIDEO)
Din acest an, programul Rabla destinat reînnoirii parcului auto național vine cu o serie de actualizări importante, inclusiv un ghid nou pentru operatorii economici și persoanele juridice de drept privat. Administrația Fondului pentru Mediu (AFM) a publicat un ghid video informativ menit să simplifice procesul de înscriere și completare a cererii de finanțare în cadrul […]
SalesTools AI obține o finanțare de 2 milioane EUR. Startup-ul fondat de un duo româno-danez vrea să construiască cel mai mare laborator de AI din România
Companii
SalesTools AI obține o finanțare de 2 milioane EUR. Startup-ul fondat de un duo româno-danez vrea să construiască cel mai mare laborator de AI din România
Un startup româno-danez, SalesTools AI, reușește să atragă o finanțare importantă de 2 milioane de euro de la GapMinder Fund II. Fondatorii companiei, Loredana și Jesper Qvist, își propun să transforme Bucureștiul într-un pol de excelență pentru cercetarea în inteligența artificială și să cucerească piețele internaționale prin agenți digitali autonomi care reinventează vânzările B2B. Finanțare […]