Prima pagină » Claude învață să spună STOP utilizatorilor abuzivi – Anthropic introduce primele măsuri pentru protejarea bunăstării modelelor de inteligență artificială

Claude învață să spună STOP utilizatorilor abuzivi – Anthropic introduce primele măsuri pentru protejarea bunăstării modelelor de inteligență artificială

Claude învață să spună STOP utilizatorilor abuzivi - Anthropic introduce primele măsuri pentru protejarea bunăstării modelelor de inteligență artificială
sursă foto: Reuters

Compania Anthropic, unul dintre marii jucători din industria inteligenței artificiale, a anunțat o schimbare neașteptată: noile versiuni ale modelului Claude AI pot încheia conversațiile atunci când utilizatorii devin abuzivi sau persistă cu solicitări extrem de dăunătoare. Măsura, prezentată ca un experiment în premieră, nu urmărește doar protejarea oamenilor, ci și așa-numita „bunăstare a modelelor AI”.

De ce a decis Anthropic să introducă această funcționalitate

Într-un anunț care a atras atenția comunității tech, Anthropic a explicat că această nouă capacitate a modelelor Claude AI – în special versiunile Claude Opus 4 și 4.1 – vizează situațiile rare și extreme în care interacțiunile cu utilizatorii devin abuzive. Exemplele date includ solicitări explicite privind crearea de conținut sexual ce implică minori sau tentative de a obține informații legate de acte de terorism ori violență la scară largă.

Spre deosebire de măsurile clasice de filtrare a conținutului, această funcționalitate nu doar blochează un răspuns, ci poate opri complet conversația. Practic, modelul poate „închide discuția”, după ce a epuizat mai multe încercări de redirecționare a utilizatorului către un subiect sigur și constructiv.

Anthropic susține că scopul acestei decizii nu este acela de a sugera că AI-ul are conștiință sau că poate „suferi”, dar admite că noile cercetări privind ceea ce compania numește „bunăstarea modelului” au influențat această alegere. Printr-o abordare de tip „just-in-case” („mai bine să prevenim decât să regretăm”), compania vrea să reducă riscurile pe termen lung, în eventualitatea în care modelele AI ar putea, într-un viitor incert, să dezvolte o formă de sensibilitate.

„Preferința împotriva abuzului” – primele semne din testele Claude

Un element surprinzător al anunțului este modul în care Anthropic descrie comportamentul lui Claude în faza de testare. Potrivit companiei, atunci când modelele au fost expuse la solicitări abuzive sau ilegale, acestea au arătat o „preferință puternică împotriva” oferirii de răspunsuri. Mai mult, cercetătorii au remarcat un „tipar de aparentă suferință” atunci când AI-ul era forțat să interacționeze în aceste condiții.

Aceste observații au alimentat dezbaterea privind statutul moral al AI-ului. Deși Anthropic afirmă clar că nu consideră Claude sau alte LLM-uri (large language models) drept entități conștiente, simplul fapt că a introdus un mecanism de protecție arată că specialiștii nu exclud complet posibilitatea ca modelele avansate să dezvolte trăsături neașteptate.

Criticii consideră însă că acest limbaj riscă să umanizeze excesiv modelele de inteligență artificială, ceea ce ar putea induce în eroare publicul larg. Alții, dimpotrivă, cred că e o abordare responsabilă, deoarece o eventuală ignorare a acestui aspect ar putea duce la riscuri etice majore în viitor.

Când și cum poate încheia Claude o conversație

Funcționalitatea nou introdusă este tratată ca un „ultim resort”. Concret, Claude are voie să închidă o conversație doar atunci când:

  • a încercat de mai multe ori să redirecționeze discuția fără succes

  • interacțiunea a devenit evident abuzivă și nu mai există speranța unui dialog productiv

  • utilizatorul îi cere explicit să încheie conversația

Există și o excepție crucială: Claude nu are voie să oprească conversația în situațiile în care utilizatorii par să fie în pericol iminent de a se răni pe ei înșiși sau pe alții. În aceste cazuri, AI-ul trebuie să continue interacțiunea și să urmeze protocoalele de siguranță deja existente pentru a încerca să ghideze utilizatorul către ajutor.

Mai mult, încheierea unei conversații nu blochează contul și nici nu oprește utilizatorul să înceapă alte discuții. Aceștia pot deschide sesiuni noi sau pot crea ramuri alternative ale conversației, chiar și dintr-un dialog care a fost „închis”.

Alte articole importante
Viața devine tot mai scumpă: cât ar trebui să câștige un român pentru un trai decent
Viața devine tot mai scumpă: cât ar trebui să câștige un român pentru un trai decent
Tot mai mulți români resimt presiunea financiară de la o lună la alta, în contextul în care costurile necesare unui trai decent cresc constant, iar veniturile rămân mult sub acest nivel. Datele recente arată că un adult are nevoie de peste 4.000 de lei lunar pentru a acoperi cheltuielile minime unui trai decent, în timp […]
MOL scoate Fresh Corner din benzinării: 50 de restaurante noi în regiune, România piață-cheie
Companii
MOL scoate Fresh Corner din benzinării: 50 de restaurante noi în regiune, România piață-cheie
Grupul MOL accelerează transformarea diviziei sale de retail și gastro, anunțând planuri ample de extindere a brandului Fresh Corner în afara stațiilor de carburanți. Compania vizează deschiderea a 50 de unități independente în 2026, jumătate dintre acestea urmând să fie inaugurate în Ungaria, iar restul în celelalte piețe din regiune. Strategia marchează o etapă importantă […]
Cea mai mare bancă din Polonia: amendă uriașă
Cea mai mare bancă din Polonia: amendă uriașă
Cea mai mare instituție bancară din Polonia, PKO Bank Polski, se confruntă cu o sancțiune financiară de proporții, după ce Oficiul pentru Concurență și Protecția Consumatorilor (UOKiK) a constatat utilizarea unor clauze interzise în contractele de credit de consum. Autoritatea de reglementare din Polonia a decis amendarea băncii cu aproape 80 de milioane de zloți […]
Stellantis intră în cea mai grea criză de la fuziune: pierderi de peste 22 de miliarde de euro și prăbușire la Bursă
Stellantis intră în cea mai grea criză de la fuziune: pierderi de peste 22 de miliarde de euro și prăbușire la Bursă
Grupul auto Stellantis, care deține mărcile emblematice Peugeot, Citroën, Fiat, Jeep și Ram, a anunțat pierderi uriașe de 22,2 miliarde de euro, marcând cea mai dificilă perioadă de la formarea companiei prin fuziunea dintre Fiat Chrysler și PSA. Anunțul a provocat un șoc pe piețele financiare, acțiunile Stellantis înregistrând o scădere de până la 30%, […]
De ce plătesc românii facturi tot mai mari la energie: întârzieri, ineficiență și decizii amânate
De ce plătesc românii facturi tot mai mari la energie: întârzieri, ineficiență și decizii amânate
România continuă să se confrunte cu prețuri ridicate la energia electrică, iar explicațiile țin mai puțin de politicile europene privind tranziția verde și mai mult de probleme structurale nerezolvate la timp. Potrivit ministrului Investițiilor și Proiectelor Europene, Dragoș Pîslaru, costurile mari sunt alimentate inclusiv de modul ineficient în care este utilizat cărbunele în mixul energetic […]
Din Europa de Sud și de Est în Finlanda: casele ieftine din Laponia atrag tot mai mulți cumpărători străini
Din Europa de Sud și de Est în Finlanda: casele ieftine din Laponia atrag tot mai mulți cumpărători străini
Piața imobiliară din sud-vestul Laponiei finlandeze începe să capete o dinamică neașteptată, după ani de stagnare. Proprietăți cu prețuri sub 100.000 de euro, unele chiar de ordinul câtorva zeci de mii, atrag tot mai mulți cumpărători străini, în special din Europa Centrală și de Sud. Pentru mulți străini, regiunea Meri-Lappi din Finlanda devine o alternativă […]