Prima pagină » Claude învață să spună STOP utilizatorilor abuzivi – Anthropic introduce primele măsuri pentru protejarea bunăstării modelelor de inteligență artificială

Claude învață să spună STOP utilizatorilor abuzivi – Anthropic introduce primele măsuri pentru protejarea bunăstării modelelor de inteligență artificială

Claude învață să spună STOP utilizatorilor abuzivi - Anthropic introduce primele măsuri pentru protejarea bunăstării modelelor de inteligență artificială
sursă foto: Reuters

Compania Anthropic, unul dintre marii jucători din industria inteligenței artificiale, a anunțat o schimbare neașteptată: noile versiuni ale modelului Claude AI pot încheia conversațiile atunci când utilizatorii devin abuzivi sau persistă cu solicitări extrem de dăunătoare. Măsura, prezentată ca un experiment în premieră, nu urmărește doar protejarea oamenilor, ci și așa-numita „bunăstare a modelelor AI”.

De ce a decis Anthropic să introducă această funcționalitate

Într-un anunț care a atras atenția comunității tech, Anthropic a explicat că această nouă capacitate a modelelor Claude AI – în special versiunile Claude Opus 4 și 4.1 – vizează situațiile rare și extreme în care interacțiunile cu utilizatorii devin abuzive. Exemplele date includ solicitări explicite privind crearea de conținut sexual ce implică minori sau tentative de a obține informații legate de acte de terorism ori violență la scară largă.

Spre deosebire de măsurile clasice de filtrare a conținutului, această funcționalitate nu doar blochează un răspuns, ci poate opri complet conversația. Practic, modelul poate „închide discuția”, după ce a epuizat mai multe încercări de redirecționare a utilizatorului către un subiect sigur și constructiv.

Anthropic susține că scopul acestei decizii nu este acela de a sugera că AI-ul are conștiință sau că poate „suferi”, dar admite că noile cercetări privind ceea ce compania numește „bunăstarea modelului” au influențat această alegere. Printr-o abordare de tip „just-in-case” („mai bine să prevenim decât să regretăm”), compania vrea să reducă riscurile pe termen lung, în eventualitatea în care modelele AI ar putea, într-un viitor incert, să dezvolte o formă de sensibilitate.

„Preferința împotriva abuzului” – primele semne din testele Claude

Un element surprinzător al anunțului este modul în care Anthropic descrie comportamentul lui Claude în faza de testare. Potrivit companiei, atunci când modelele au fost expuse la solicitări abuzive sau ilegale, acestea au arătat o „preferință puternică împotriva” oferirii de răspunsuri. Mai mult, cercetătorii au remarcat un „tipar de aparentă suferință” atunci când AI-ul era forțat să interacționeze în aceste condiții.

Aceste observații au alimentat dezbaterea privind statutul moral al AI-ului. Deși Anthropic afirmă clar că nu consideră Claude sau alte LLM-uri (large language models) drept entități conștiente, simplul fapt că a introdus un mecanism de protecție arată că specialiștii nu exclud complet posibilitatea ca modelele avansate să dezvolte trăsături neașteptate.

Criticii consideră însă că acest limbaj riscă să umanizeze excesiv modelele de inteligență artificială, ceea ce ar putea induce în eroare publicul larg. Alții, dimpotrivă, cred că e o abordare responsabilă, deoarece o eventuală ignorare a acestui aspect ar putea duce la riscuri etice majore în viitor.

Când și cum poate încheia Claude o conversație

Funcționalitatea nou introdusă este tratată ca un „ultim resort”. Concret, Claude are voie să închidă o conversație doar atunci când:

  • a încercat de mai multe ori să redirecționeze discuția fără succes

  • interacțiunea a devenit evident abuzivă și nu mai există speranța unui dialog productiv

  • utilizatorul îi cere explicit să încheie conversația

Există și o excepție crucială: Claude nu are voie să oprească conversația în situațiile în care utilizatorii par să fie în pericol iminent de a se răni pe ei înșiși sau pe alții. În aceste cazuri, AI-ul trebuie să continue interacțiunea și să urmeze protocoalele de siguranță deja existente pentru a încerca să ghideze utilizatorul către ajutor.

Mai mult, încheierea unei conversații nu blochează contul și nici nu oprește utilizatorul să înceapă alte discuții. Aceștia pot deschide sesiuni noi sau pot crea ramuri alternative ale conversației, chiar și dintr-un dialog care a fost „închis”.

Alte articole importante
Ţara care cheltuie cel mai mult pentru Jocurile Olimpice de Iarnă 2026
Ţara care cheltuie cel mai mult pentru Jocurile Olimpice de Iarnă 2026
Italia se pregătește de o explozie turistică în februarie 2026, când Milano și Cortina vor găzdui Jocurile Olimpice de Iarnă. Este unul dintre cele mai așteptate evenimente sportive ale deceniului. Cu mai puțin de 100 de zile rămase până la deschidere, biletele s-au vândut deja într-o proporție impresionantă. Mii de turiști străini au început să-și […]
Companiile tehnologice mizează totul pe AI: 380 miliarde $ în 2025
Companii
Companiile tehnologice mizează totul pe AI: 380 miliarde $ în 2025
Marile companii tehnologice Alphabet, Meta, Microsoft și Amazon au transmis un mesaj comun la finalul sezonului de raportări financiare. Potrivit acestora, cheltuielile în domeniul inteligenței artificiale vor continua să crească semnificativ și anunță că, în 2025, totalul investițiilor combinate în acest sector vor depăși 380 de miliarde de dolari. Companiile tehnologice pompează peste 380 miliarde […]
Nexperia suspendă livrările de waferi esențiali în producția de cipuri
Companii
Nexperia suspendă livrările de waferi esențiali în producția de cipuri
Compania olandeză Nexperia a anunțat suspendarea livrărilor unui material esențial pentru producția de cipuri. Decizia ar putea afecta lanțurile de aprovizionare din industria semiconductorilor și ridică semne de întrebare privind stabilitatea pieței globale, deja marcată de tensiuni geopolitice și deficit de materii prime critice. Agitație pe piața cipurilor: Nexperia suspendă livrările unui material esențial pentru cipuri […]
ANALIZĂ
Capitalul universal și viitorul veniturilor într-o lume dominată de AI. O propunere îndrăzneață pe măsura dezvoltării tehnologiilor
Capitalul universal și viitorul veniturilor într-o lume dominată de AI. O propunere îndrăzneață pe măsura dezvoltării tehnologiilor
În următoarele decenii, țările europene, ca și alte state dezvoltate, vor deveni economii AI, motiv pentru care specialiștii propun noțiunea capitalului universal. Tehnologia se va răspândi în toate domeniile, de la contabilitate la supermarketuri și fabrici. Creșterea productivității și acumularea de avere vor fi rapide, însă legătura cu locurile de muncă și veniturile va slăbi. […]
Clienții First Bank primesc clarificări după fuziunea cu Intesa Sanpaolo. Ce trebuie făcut pentru reactivarea serviciilor
Clienții First Bank primesc clarificări după fuziunea cu Intesa Sanpaolo. Ce trebuie făcut pentru reactivarea serviciilor
După trei zile în care clienții First Bank nu au avut acces la fonduri, Intesa Sanpaolo Bank România a venit cu clarificări privind procesul de migrare. Banca italiană a anunțat finalizarea integrării prin absorbția completă a First Bank, consolidându-și astfel poziția pe piața financiar-bancară din România. Fuziunea s-a desfășurat conform calendarului, iar toate datele și […]
În România, puterea de cumpărare este cu 45% sub media europeană
În România, puterea de cumpărare este cu 45% sub media europeană
Liechtenstein ocupă primul loc în clasamentul puterii de cumpărare în Europa în 2025, cu un avans semnificativ față de celelalte țări analizate, potrivit noului studiu „NIQ Purchasing Power Europe 2025”, care a fost publicat, marți, în statele incluse în cercetare. Elveția și Luxemburg ocupă locurile doi și trei. 26 dintre cele 42 de țări analizate […]