Prima pagină » Claude învață să spună STOP utilizatorilor abuzivi – Anthropic introduce primele măsuri pentru protejarea bunăstării modelelor de inteligență artificială

Claude învață să spună STOP utilizatorilor abuzivi – Anthropic introduce primele măsuri pentru protejarea bunăstării modelelor de inteligență artificială

Claude învață să spună STOP utilizatorilor abuzivi - Anthropic introduce primele măsuri pentru protejarea bunăstării modelelor de inteligență artificială
sursă foto: Reuters

Compania Anthropic, unul dintre marii jucători din industria inteligenței artificiale, a anunțat o schimbare neașteptată: noile versiuni ale modelului Claude AI pot încheia conversațiile atunci când utilizatorii devin abuzivi sau persistă cu solicitări extrem de dăunătoare. Măsura, prezentată ca un experiment în premieră, nu urmărește doar protejarea oamenilor, ci și așa-numita „bunăstare a modelelor AI”.

De ce a decis Anthropic să introducă această funcționalitate

Într-un anunț care a atras atenția comunității tech, Anthropic a explicat că această nouă capacitate a modelelor Claude AI – în special versiunile Claude Opus 4 și 4.1 – vizează situațiile rare și extreme în care interacțiunile cu utilizatorii devin abuzive. Exemplele date includ solicitări explicite privind crearea de conținut sexual ce implică minori sau tentative de a obține informații legate de acte de terorism ori violență la scară largă.

Spre deosebire de măsurile clasice de filtrare a conținutului, această funcționalitate nu doar blochează un răspuns, ci poate opri complet conversația. Practic, modelul poate „închide discuția”, după ce a epuizat mai multe încercări de redirecționare a utilizatorului către un subiect sigur și constructiv.

Anthropic susține că scopul acestei decizii nu este acela de a sugera că AI-ul are conștiință sau că poate „suferi”, dar admite că noile cercetări privind ceea ce compania numește „bunăstarea modelului” au influențat această alegere. Printr-o abordare de tip „just-in-case” („mai bine să prevenim decât să regretăm”), compania vrea să reducă riscurile pe termen lung, în eventualitatea în care modelele AI ar putea, într-un viitor incert, să dezvolte o formă de sensibilitate.

„Preferința împotriva abuzului” – primele semne din testele Claude

Un element surprinzător al anunțului este modul în care Anthropic descrie comportamentul lui Claude în faza de testare. Potrivit companiei, atunci când modelele au fost expuse la solicitări abuzive sau ilegale, acestea au arătat o „preferință puternică împotriva” oferirii de răspunsuri. Mai mult, cercetătorii au remarcat un „tipar de aparentă suferință” atunci când AI-ul era forțat să interacționeze în aceste condiții.

Aceste observații au alimentat dezbaterea privind statutul moral al AI-ului. Deși Anthropic afirmă clar că nu consideră Claude sau alte LLM-uri (large language models) drept entități conștiente, simplul fapt că a introdus un mecanism de protecție arată că specialiștii nu exclud complet posibilitatea ca modelele avansate să dezvolte trăsături neașteptate.

Criticii consideră însă că acest limbaj riscă să umanizeze excesiv modelele de inteligență artificială, ceea ce ar putea induce în eroare publicul larg. Alții, dimpotrivă, cred că e o abordare responsabilă, deoarece o eventuală ignorare a acestui aspect ar putea duce la riscuri etice majore în viitor.

Când și cum poate încheia Claude o conversație

Funcționalitatea nou introdusă este tratată ca un „ultim resort”. Concret, Claude are voie să închidă o conversație doar atunci când:

  • a încercat de mai multe ori să redirecționeze discuția fără succes

  • interacțiunea a devenit evident abuzivă și nu mai există speranța unui dialog productiv

  • utilizatorul îi cere explicit să încheie conversația

Există și o excepție crucială: Claude nu are voie să oprească conversația în situațiile în care utilizatorii par să fie în pericol iminent de a se răni pe ei înșiși sau pe alții. În aceste cazuri, AI-ul trebuie să continue interacțiunea și să urmeze protocoalele de siguranță deja existente pentru a încerca să ghideze utilizatorul către ajutor.

Mai mult, încheierea unei conversații nu blochează contul și nici nu oprește utilizatorul să înceapă alte discuții. Aceștia pot deschide sesiuni noi sau pot crea ramuri alternative ale conversației, chiar și dintr-un dialog care a fost „închis”.

Alte articole importante
Statul își rezervă dreptul să intervină rapid pentru salvarea fabricilor strategice din industria de apărare
Statul își rezervă dreptul să intervină rapid pentru salvarea fabricilor strategice din industria de apărare
Guvernul a modificat cadrul legislativ astfel încât statul român să poată interveni mai rapid și mai eficient pentru a proteja capacitățile strategice din industria de apărare, atunci când acestea riscă să fie închise, fragmentate sau vândute. Anunțul a fost făcut de ministrul interimar al Economiei, Irineu Darău, care susține că noile reguli oferă României instrumentele […]
ANALIZĂ
Atenție la Bitcoin! 245.000 de portofele au dispărut din rețea în doar cinci zile. E cel mai masiv exod al investitorilor din ultimii 2 ani
Atenție la Bitcoin! 245.000 de portofele au dispărut din rețea în doar cinci zile. E cel mai masiv exod al investitorilor din ultimii 2 ani
Bitcoin a pierdut aproximativ 245.000 de deținători de portofele în doar cinci zile, cel mai rapid ritm de ieșire al investitorilor din aproape ultimii doi ani, potrivit firmei de analiză on-chain Santiment. Ultima dată când s-a întâmplat ceva similar, în vara anului 2024, fenomenul a precedat unul dintre cele mai importante raliuri „bull” din ultimii […]
Precedentul Nike. Gigantul american, acuzat în instanță de consumatori că nu returnează taxele vamale 
Precedentul Nike. Gigantul american, acuzat în instanță de consumatori că nu returnează taxele vamale 
Nike a fost dată în judecată în Statele Unite într-un proces colectiv care ar putea deschide un nou front juridic pentru marile companii afectate de războiul comercial lansat de administrația Donald Trump. Consumatorii acuză gigantul american că a transferat costurile tarifelor vamale către clienți prin majorări de prețuri, scrie Reuters. Acum ar putea încasa și […]
Commerzbank taie 3.000 de locuri de muncă și își ridică țintele financiare în războiul cu UniCredit
Commerzbank taie 3.000 de locuri de muncă și își ridică țintele financiare în războiul cu UniCredit
Gigantul german Commerzbank anunță eliminarea a aproximativ 3.000 de locuri de muncă și o nouă strategie financiară mai agresivă pentru a demonstra investitorilor că poate rămâne independentă în fața tentativei de preluare lansate de grupul italian UniCredit, relatează Reuters. Conflictul dintre cele două bănci durează de luni de zile şi îl opune pe CEO-ul UniCredit, […]
ANALIZĂ
China intră în noul superciclu AI. Creșterea accelerată a exporturilor și a excedentului cu SUA dictează agenda summitului Trump – Xi
China intră în noul superciclu AI. Creșterea accelerată a exporturilor și a excedentului cu SUA dictează agenda summitului Trump – Xi
Exporturile Chinei au crescut cu 14,1% în aprilie faţă de anul precedent, a anunţat sâmbătă  Beijingul, inelastic la războiul din Iran şi la tarifele americane. Datele au fost publicate cu doar câteva zile înainte de întâlnirea de săptămâna viitoare între preşedintele american Donald Trump şi liderul chinez Xi Jinping. Această creștere a exporturilor a dus […]
ANALIZĂ
De ce riscă SUA să piardă statutul de „mare putere” după ce datoria publică a trecut pragul 100% din PIB. Atlantic Council: Din 2024 dobânzile nete au depășit cheltuielile pentru apărare
De ce riscă SUA să piardă statutul de „mare putere” după ce datoria publică a trecut pragul 100% din PIB. Atlantic Council: Din 2024 dobânzile nete au depășit cheltuielile pentru apărare
Statele Unite au depășit un prag economic și simbolic rar întâlnit în istoria modernă: datoria publică americană a trecut oficial de 100% din PIB, ajungând la peste 31.265 trilioane de dolari. Ultima dată când SUA s-au aflat într-o situație similară era 1946, imediat după Al Doilea Război Mondial. De această dată însă, contextul este complet […]