Prima pagină » Claude învață să spună STOP utilizatorilor abuzivi – Anthropic introduce primele măsuri pentru protejarea bunăstării modelelor de inteligență artificială

Claude învață să spună STOP utilizatorilor abuzivi – Anthropic introduce primele măsuri pentru protejarea bunăstării modelelor de inteligență artificială

Claude învață să spună STOP utilizatorilor abuzivi - Anthropic introduce primele măsuri pentru protejarea bunăstării modelelor de inteligență artificială
sursă foto: Reuters

Compania Anthropic, unul dintre marii jucători din industria inteligenței artificiale, a anunțat o schimbare neașteptată: noile versiuni ale modelului Claude AI pot încheia conversațiile atunci când utilizatorii devin abuzivi sau persistă cu solicitări extrem de dăunătoare. Măsura, prezentată ca un experiment în premieră, nu urmărește doar protejarea oamenilor, ci și așa-numita „bunăstare a modelelor AI”.

De ce a decis Anthropic să introducă această funcționalitate

Într-un anunț care a atras atenția comunității tech, Anthropic a explicat că această nouă capacitate a modelelor Claude AI – în special versiunile Claude Opus 4 și 4.1 – vizează situațiile rare și extreme în care interacțiunile cu utilizatorii devin abuzive. Exemplele date includ solicitări explicite privind crearea de conținut sexual ce implică minori sau tentative de a obține informații legate de acte de terorism ori violență la scară largă.

Spre deosebire de măsurile clasice de filtrare a conținutului, această funcționalitate nu doar blochează un răspuns, ci poate opri complet conversația. Practic, modelul poate „închide discuția”, după ce a epuizat mai multe încercări de redirecționare a utilizatorului către un subiect sigur și constructiv.

Anthropic susține că scopul acestei decizii nu este acela de a sugera că AI-ul are conștiință sau că poate „suferi”, dar admite că noile cercetări privind ceea ce compania numește „bunăstarea modelului” au influențat această alegere. Printr-o abordare de tip „just-in-case” („mai bine să prevenim decât să regretăm”), compania vrea să reducă riscurile pe termen lung, în eventualitatea în care modelele AI ar putea, într-un viitor incert, să dezvolte o formă de sensibilitate.

„Preferința împotriva abuzului” – primele semne din testele Claude

Un element surprinzător al anunțului este modul în care Anthropic descrie comportamentul lui Claude în faza de testare. Potrivit companiei, atunci când modelele au fost expuse la solicitări abuzive sau ilegale, acestea au arătat o „preferință puternică împotriva” oferirii de răspunsuri. Mai mult, cercetătorii au remarcat un „tipar de aparentă suferință” atunci când AI-ul era forțat să interacționeze în aceste condiții.

Aceste observații au alimentat dezbaterea privind statutul moral al AI-ului. Deși Anthropic afirmă clar că nu consideră Claude sau alte LLM-uri (large language models) drept entități conștiente, simplul fapt că a introdus un mecanism de protecție arată că specialiștii nu exclud complet posibilitatea ca modelele avansate să dezvolte trăsături neașteptate.

Criticii consideră însă că acest limbaj riscă să umanizeze excesiv modelele de inteligență artificială, ceea ce ar putea induce în eroare publicul larg. Alții, dimpotrivă, cred că e o abordare responsabilă, deoarece o eventuală ignorare a acestui aspect ar putea duce la riscuri etice majore în viitor.

Când și cum poate încheia Claude o conversație

Funcționalitatea nou introdusă este tratată ca un „ultim resort”. Concret, Claude are voie să închidă o conversație doar atunci când:

  • a încercat de mai multe ori să redirecționeze discuția fără succes

  • interacțiunea a devenit evident abuzivă și nu mai există speranța unui dialog productiv

  • utilizatorul îi cere explicit să încheie conversația

Există și o excepție crucială: Claude nu are voie să oprească conversația în situațiile în care utilizatorii par să fie în pericol iminent de a se răni pe ei înșiși sau pe alții. În aceste cazuri, AI-ul trebuie să continue interacțiunea și să urmeze protocoalele de siguranță deja existente pentru a încerca să ghideze utilizatorul către ajutor.

Mai mult, încheierea unei conversații nu blochează contul și nici nu oprește utilizatorul să înceapă alte discuții. Aceștia pot deschide sesiuni noi sau pot crea ramuri alternative ale conversației, chiar și dintr-un dialog care a fost „închis”.

Alte articole importante
Se complică situația în energie: Rompetrol ar putea opri două rafinării-cheie din România, sub presiunea fiscală
Companii
Se complică situația în energie: Rompetrol ar putea opri două rafinării-cheie din România, sub presiunea fiscală
Rafinăriile Petromidia Năvodari și Vega Ploiești, operate de Rompetrol Rafinare și deținute de Grupul KMG International, ar urma să își suspende activitatea pentru aproximativ 30 de zile, începând din luna februarie, potrivit surselor din industrie. Informația nu a fost confirmată oficial până în acest moment, însă vine într-un context tensionat, marcat de presiuni fiscale crescute […]
Rusia intenționează să construiască o centrală nucleară pe Lună: s-au aflat detalii
Rusia intenționează să construiască o centrală nucleară pe Lună: s-au aflat detalii
Luna este din ce în ce mai mult văzută ca o platformă pentru prezența umană pe termen lung dincolo de Pământ. Proiectul își propune să furnizeze energie programului lunar rusesc și unei stații științifice comune ruso-chineze. Rusia are planuri de a construi o centrală electrică pe Lună Federația Rusă intenționează să amplaseze o centrală nucleară pe […]
La ce să ne așteptăm în 2026: Pariurile marilor brokeri pe S&P 500 și economia globală
La ce să ne așteptăm în 2026: Pariurile marilor brokeri pe S&P 500 și economia globală
Anul 2026 se conturează drept unul de continuare a raliului de pe piețele financiare, potrivit previziunilor marilor case de brokeraj internaționale. Un sondaj realizat de Reuters arată că investitorii mizează în continuare pe inteligența artificială, pe scăderea costurilor de finanțare și pe o reziliență surprinzătoare a economiei globale, în pofida riscurilor persistente legate de inflație, […]
ANALIZĂ
Cum vor transforma AI-ul și roboții criminalitatea și aplicarea legii
Cum vor transforma AI-ul și roboții criminalitatea și aplicarea legii
AI-ul și robotica sunt pe cale să revoluționeze atât modul în sunt comise infracțiunile, cât și modul în care autoritățile le combat. Noile instrumente digitale promit să ofere forțelor de ordine o eficiență fără precedent, în timp ce delincvenții explorează deja metode avansate pentru a exploata aceleași tehnologii. AI și roboții: cum vor evolua criminalitatea […]
Hackerii au furat peste 2,7 miliarde $ în criptomonede în 2025
Hackerii au furat peste 2,7 miliarde $ în criptomonede în 2025
În 2025, hackerii au furat peste 2,7 miliarde de dolari în criptomonede, marcând cel mai mare jaf de acest gen din istoria digitală. Cele mai importante atacuri au vizat exchange-uri și proiecte DeFi și au implicat atât hackeri independenți, cât și grupuri susținute de state. Hackerii au furat criptomonede de 2,7 miliarde $ în 2025, […]
ANALIZĂ
De ce apare zeița Diana pe moneda de aur cu tematica „plăcuţele votive de la Germisara” lansată de BNR: Simbol al prestigiului și identității culturale
De ce apare zeița Diana pe moneda de aur cu tematica „plăcuţele votive de la Germisara” lansată de BNR: Simbol al prestigiului și identității culturale
Banca Naţională a României (BNR) a anunțat că lansează pe 29 decembrie în circuitul numismatic o monedă din aur cu tema Istoria aurului – Plăcuţele votive de la Germisara. Aversul monedei prezintă detalii ale artefactelor găzduite de Muzeul Civilizației Dacice și Romane din Deva, iar reversul redă un detaliu reprezentând-o pe zeiţa Diana la vânătoare. […]