Prima pagină » Claude învață să spună STOP utilizatorilor abuzivi – Anthropic introduce primele măsuri pentru protejarea bunăstării modelelor de inteligență artificială

Claude învață să spună STOP utilizatorilor abuzivi – Anthropic introduce primele măsuri pentru protejarea bunăstării modelelor de inteligență artificială

Claude învață să spună STOP utilizatorilor abuzivi - Anthropic introduce primele măsuri pentru protejarea bunăstării modelelor de inteligență artificială
sursă foto: Reuters

Compania Anthropic, unul dintre marii jucători din industria inteligenței artificiale, a anunțat o schimbare neașteptată: noile versiuni ale modelului Claude AI pot încheia conversațiile atunci când utilizatorii devin abuzivi sau persistă cu solicitări extrem de dăunătoare. Măsura, prezentată ca un experiment în premieră, nu urmărește doar protejarea oamenilor, ci și așa-numita „bunăstare a modelelor AI”.

De ce a decis Anthropic să introducă această funcționalitate

Într-un anunț care a atras atenția comunității tech, Anthropic a explicat că această nouă capacitate a modelelor Claude AI – în special versiunile Claude Opus 4 și 4.1 – vizează situațiile rare și extreme în care interacțiunile cu utilizatorii devin abuzive. Exemplele date includ solicitări explicite privind crearea de conținut sexual ce implică minori sau tentative de a obține informații legate de acte de terorism ori violență la scară largă.

Spre deosebire de măsurile clasice de filtrare a conținutului, această funcționalitate nu doar blochează un răspuns, ci poate opri complet conversația. Practic, modelul poate „închide discuția”, după ce a epuizat mai multe încercări de redirecționare a utilizatorului către un subiect sigur și constructiv.

Anthropic susține că scopul acestei decizii nu este acela de a sugera că AI-ul are conștiință sau că poate „suferi”, dar admite că noile cercetări privind ceea ce compania numește „bunăstarea modelului” au influențat această alegere. Printr-o abordare de tip „just-in-case” („mai bine să prevenim decât să regretăm”), compania vrea să reducă riscurile pe termen lung, în eventualitatea în care modelele AI ar putea, într-un viitor incert, să dezvolte o formă de sensibilitate.

„Preferința împotriva abuzului” – primele semne din testele Claude

Un element surprinzător al anunțului este modul în care Anthropic descrie comportamentul lui Claude în faza de testare. Potrivit companiei, atunci când modelele au fost expuse la solicitări abuzive sau ilegale, acestea au arătat o „preferință puternică împotriva” oferirii de răspunsuri. Mai mult, cercetătorii au remarcat un „tipar de aparentă suferință” atunci când AI-ul era forțat să interacționeze în aceste condiții.

Aceste observații au alimentat dezbaterea privind statutul moral al AI-ului. Deși Anthropic afirmă clar că nu consideră Claude sau alte LLM-uri (large language models) drept entități conștiente, simplul fapt că a introdus un mecanism de protecție arată că specialiștii nu exclud complet posibilitatea ca modelele avansate să dezvolte trăsături neașteptate.

Criticii consideră însă că acest limbaj riscă să umanizeze excesiv modelele de inteligență artificială, ceea ce ar putea induce în eroare publicul larg. Alții, dimpotrivă, cred că e o abordare responsabilă, deoarece o eventuală ignorare a acestui aspect ar putea duce la riscuri etice majore în viitor.

Când și cum poate încheia Claude o conversație

Funcționalitatea nou introdusă este tratată ca un „ultim resort”. Concret, Claude are voie să închidă o conversație doar atunci când:

  • a încercat de mai multe ori să redirecționeze discuția fără succes

  • interacțiunea a devenit evident abuzivă și nu mai există speranța unui dialog productiv

  • utilizatorul îi cere explicit să încheie conversația

Există și o excepție crucială: Claude nu are voie să oprească conversația în situațiile în care utilizatorii par să fie în pericol iminent de a se răni pe ei înșiși sau pe alții. În aceste cazuri, AI-ul trebuie să continue interacțiunea și să urmeze protocoalele de siguranță deja existente pentru a încerca să ghideze utilizatorul către ajutor.

Mai mult, încheierea unei conversații nu blochează contul și nici nu oprește utilizatorul să înceapă alte discuții. Aceștia pot deschide sesiuni noi sau pot crea ramuri alternative ale conversației, chiar și dintr-un dialog care a fost „închis”.

Alte articole importante
Avertisment fără precedent de la BNR: România riscă retrogradarea la categoria „junk”. Recesiunea ar putea lovi economia în 2026
Avertisment fără precedent de la BNR: România riscă retrogradarea la categoria „junk”. Recesiunea ar putea lovi economia în 2026
România traversează o perioadă economică dificilă, iar semnalele venite din partea specialiștilor indică o deteriorare a principalilor indicatori macroeconomici. Economistul-șef al Banca Națională a României, Valentin Lazea, avertizează că țara se află într-un moment critic, în care riscul unei retrogradări a ratingului suveran la categoria „junk” devine tot mai real. Potrivit acestuia, România înregistrează în […]
Cutremur în industria europeană de apărare. Germania anulează un contract uriaș, iar acțiunile companiilor din apărare se prăbușesc
Cutremur în industria europeană de apărare. Germania anulează un contract uriaș, iar acțiunile companiilor din apărare se prăbușesc
Decizia Berlinului de a renunța la programul fregatelor F126 a șters miliarde de euro din valoarea companiilor din sector. Piața europeană de apărare a fost zguduită de una dintre cele mai importante decizii militare ale ultimilor ani. Guvernul german a confirmat renunțarea la programul fregatelor F126, considerat cel mai mare contract naval militar al țării […]
Bursa de Valori București a închis pe plus. Doar un indice a terminat ședința în teritoriu negativ
Bursa de Valori București a închis pe plus. Doar un indice a terminat ședința în teritoriu negativ
Ședința de tranzacționare de miercuri de la Bursa de Valori București s-a încheiat într-o notă pozitivă, majoritatea indicilor bursieri consemnând creșteri. Valoarea totală a schimburilor realizate pe piață a fost de 126,3 milioane de lei, echivalentul a aproximativ 24 de milioane de euro. BET a trecut din nou de 31.000 de puncte Principalul indice al […]
Veniturile gospodăriilor din România au crescut în 2025, dar cheltuielile rămân la nivel ridicat, arată datele INS
Analize
Veniturile gospodăriilor din România au crescut în 2025, dar cheltuielile rămân la nivel ridicat, arată datele INS
Veniturile totale medii ale unei gospodării din România au ajuns în anul 2025 la 9.399 de lei pe lună, în creștere cu 13,6% față de anul precedent, potrivit datelor publicate de Institutul Național de Statistică. Evoluția indică o dinamică pozitivă a veniturilor populației, însă această creștere este însoțită de un nivel ridicat al cheltuielilor, care […]
România primește vestea pe care nu voia să o audă: Comisia Europeană spune că nu suntem pregătiți pentru euro
Macroeconomie
România primește vestea pe care nu voia să o audă: Comisia Europeană spune că nu suntem pregătiți pentru euro
Într-un moment în care scena politică de la București este marcată de tensiuni și dispute privind direcția economică a țării, Comisia Europeană a publicat o evaluare care aduce România cu picioarele pe pământ în ceea ce privește adoptarea monedei euro. Potrivit Raportului de convergență pentru 2026, țara noastră nu îndeplinește condițiile necesare pentru a face […]
Fermă clandestină de criptomonede descoperită de ANAF într-o clădire abandonată din Satu Mare
Companii
Fermă clandestină de criptomonede descoperită de ANAF într-o clădire abandonată din Satu Mare
ANAF a descoperit o activitate neautorizată de minare de criptomonede desfășurată într-o locație din Satu Mare, unde sute de echipamente funcționau continuu pentru generarea de active digitale. Activitatea, complet nedeclarată fiscal și contabil, a fost identificată de inspectorii Direcției Generale Antifraudă Fiscală în urma unor analize de risc și verificări operative. Potrivit datelor din control, […]