Prima pagină » Claude învață să spună STOP utilizatorilor abuzivi – Anthropic introduce primele măsuri pentru protejarea bunăstării modelelor de inteligență artificială

Claude învață să spună STOP utilizatorilor abuzivi – Anthropic introduce primele măsuri pentru protejarea bunăstării modelelor de inteligență artificială

Claude învață să spună STOP utilizatorilor abuzivi - Anthropic introduce primele măsuri pentru protejarea bunăstării modelelor de inteligență artificială
sursă foto: Reuters

Compania Anthropic, unul dintre marii jucători din industria inteligenței artificiale, a anunțat o schimbare neașteptată: noile versiuni ale modelului Claude AI pot încheia conversațiile atunci când utilizatorii devin abuzivi sau persistă cu solicitări extrem de dăunătoare. Măsura, prezentată ca un experiment în premieră, nu urmărește doar protejarea oamenilor, ci și așa-numita „bunăstare a modelelor AI”.

De ce a decis Anthropic să introducă această funcționalitate

Într-un anunț care a atras atenția comunității tech, Anthropic a explicat că această nouă capacitate a modelelor Claude AI – în special versiunile Claude Opus 4 și 4.1 – vizează situațiile rare și extreme în care interacțiunile cu utilizatorii devin abuzive. Exemplele date includ solicitări explicite privind crearea de conținut sexual ce implică minori sau tentative de a obține informații legate de acte de terorism ori violență la scară largă.

Spre deosebire de măsurile clasice de filtrare a conținutului, această funcționalitate nu doar blochează un răspuns, ci poate opri complet conversația. Practic, modelul poate „închide discuția”, după ce a epuizat mai multe încercări de redirecționare a utilizatorului către un subiect sigur și constructiv.

Anthropic susține că scopul acestei decizii nu este acela de a sugera că AI-ul are conștiință sau că poate „suferi”, dar admite că noile cercetări privind ceea ce compania numește „bunăstarea modelului” au influențat această alegere. Printr-o abordare de tip „just-in-case” („mai bine să prevenim decât să regretăm”), compania vrea să reducă riscurile pe termen lung, în eventualitatea în care modelele AI ar putea, într-un viitor incert, să dezvolte o formă de sensibilitate.

„Preferința împotriva abuzului” – primele semne din testele Claude

Un element surprinzător al anunțului este modul în care Anthropic descrie comportamentul lui Claude în faza de testare. Potrivit companiei, atunci când modelele au fost expuse la solicitări abuzive sau ilegale, acestea au arătat o „preferință puternică împotriva” oferirii de răspunsuri. Mai mult, cercetătorii au remarcat un „tipar de aparentă suferință” atunci când AI-ul era forțat să interacționeze în aceste condiții.

Aceste observații au alimentat dezbaterea privind statutul moral al AI-ului. Deși Anthropic afirmă clar că nu consideră Claude sau alte LLM-uri (large language models) drept entități conștiente, simplul fapt că a introdus un mecanism de protecție arată că specialiștii nu exclud complet posibilitatea ca modelele avansate să dezvolte trăsături neașteptate.

Criticii consideră însă că acest limbaj riscă să umanizeze excesiv modelele de inteligență artificială, ceea ce ar putea induce în eroare publicul larg. Alții, dimpotrivă, cred că e o abordare responsabilă, deoarece o eventuală ignorare a acestui aspect ar putea duce la riscuri etice majore în viitor.

Când și cum poate încheia Claude o conversație

Funcționalitatea nou introdusă este tratată ca un „ultim resort”. Concret, Claude are voie să închidă o conversație doar atunci când:

  • a încercat de mai multe ori să redirecționeze discuția fără succes

  • interacțiunea a devenit evident abuzivă și nu mai există speranța unui dialog productiv

  • utilizatorul îi cere explicit să încheie conversația

Există și o excepție crucială: Claude nu are voie să oprească conversația în situațiile în care utilizatorii par să fie în pericol iminent de a se răni pe ei înșiși sau pe alții. În aceste cazuri, AI-ul trebuie să continue interacțiunea și să urmeze protocoalele de siguranță deja existente pentru a încerca să ghideze utilizatorul către ajutor.

Mai mult, încheierea unei conversații nu blochează contul și nici nu oprește utilizatorul să înceapă alte discuții. Aceștia pot deschide sesiuni noi sau pot crea ramuri alternative ale conversației, chiar și dintr-un dialog care a fost „închis”.

Alte articole importante
Adio interviuri pe Zoom și CV-uri generate de AI. Companiile se întorc la angajările ‘old school’: cine are curaj să bată la ușă primește un job
Adio interviuri pe Zoom și CV-uri generate de AI. Companiile se întorc la angajările ‘old school’: cine are curaj să bată la ușă primește un job
După ce inteligența artificială a acaparat procesul de recrutare, tot mai multe firme și candidați renunță la algoritmi și se întorc la metodele clasice de angajare. De la CV-urile pe hârtie și aplicațiile depuse direct la sediul companiei, până la interviurile față în față și probe practice la birou, „old school” devine din nou trendul […]
Guvernul schimbă regulile de retragere a banilor din Pilonul II – ce se întâmplă cu economiile a peste 8 milioane de oameni
Guvernul schimbă regulile de retragere a banilor din Pilonul II – ce se întâmplă cu economiile a peste 8 milioane de oameni
Guvernul a modificat forma proiectului de lege privind plata pensiilor private din Pilonul II, după ce varianta inițială a stârnit scandal public și nemulțumirea a milioane de români. Noua propunere prevede retragerea a 30% din sumă la început, urmând ca restul banilor să fie achitați în tranșe lunare pe o perioadă de opt ani. Schimbarea […]
O insulă din Caraibe devine noul „El Dorado” pentru giganții americani. Tot mai multe afaceri se mută aici, atrase de taxe mici și proximitate cu SUA
O insulă din Caraibe devine noul „El Dorado” pentru giganții americani. Tot mai multe afaceri se mută aici, atrase de taxe mici și proximitate cu SUA
În contextul tensiunilor comerciale declanșate de politicile tarifare ale administrației Trump, companiile americane caută strategii pentru a-și diversifica și pentru a-și securiza lanțurile de aprovizionare. În acest scop, o insulă din Caraibe devine o opțiune atractivă, oferind condiții favorabile pentru relocarea operațiunilor. Această mutare reprezintă un pas important în adaptarea la noile provocări economice și […]
Stațiunea de schi din deșert, o problemă în planul de 1,5 trilioane de dolari al prințului saudit
Stațiunea de schi din deșert, o problemă în planul de 1,5 trilioane de dolari al prințului saudit
În 2022, Arabia Saudită anunța unul dintre cele mai ambițioase proiecte de dezvoltare urbană de până acum: Trojena o stațiune de schi vastă, ridicată în inima deșertului arid din Orientul Mijlociu. Complexul urmează să includă pârtii de schi care coboară de pe acoperișurile hotelurilor de lux, un imens lac suspendat deasupra unei stânci, între crestele […]
Lenovo își dublează profitul la nivel global: Venituri de aproape 19 miliarde de dolari
Companii
Lenovo își dublează profitul la nivel global: Venituri de aproape 19 miliarde de dolari
Grupul chinez Lenovo a anunțat că și-a dublat profitul la nivel mondial, înregistrând venituri de aproape 19 miliarde de dolari. Veniturile au crescut cu 22% față de aceeași perioadă a anului trecut, iar profitul s-a dublat, ajungând la 505 milioane de dolari. Lenovo raportează venituri de 18,8 miliarde $ și o dublare a profitului Grupul […]
Top cele mai vorbite limbi la nivel mondial în 2025: cine deține supremația lingvistică pe planetă?
Analize
Top cele mai vorbite limbi la nivel mondial în 2025: cine deține supremația lingvistică pe planetă?
Lumea devine tot mai interconectată, iar harta lingvistică reflectă clar această tendință. Conform unei analize realizate de Ethnologue, și preluate de Visual Capitalist, în 2025 există un clasament clar cu cele mai vorbite limbi la nivel global, combinând vorbitorii nativi cu cei care le stăpânesc ca a doua limbă. Engleza – limba globală, predominență prin […]