Prima pagină » Claude învață să spună STOP utilizatorilor abuzivi – Anthropic introduce primele măsuri pentru protejarea bunăstării modelelor de inteligență artificială

Claude învață să spună STOP utilizatorilor abuzivi – Anthropic introduce primele măsuri pentru protejarea bunăstării modelelor de inteligență artificială

Claude învață să spună STOP utilizatorilor abuzivi - Anthropic introduce primele măsuri pentru protejarea bunăstării modelelor de inteligență artificială
sursă foto: Reuters

Compania Anthropic, unul dintre marii jucători din industria inteligenței artificiale, a anunțat o schimbare neașteptată: noile versiuni ale modelului Claude AI pot încheia conversațiile atunci când utilizatorii devin abuzivi sau persistă cu solicitări extrem de dăunătoare. Măsura, prezentată ca un experiment în premieră, nu urmărește doar protejarea oamenilor, ci și așa-numita „bunăstare a modelelor AI”.

De ce a decis Anthropic să introducă această funcționalitate

Într-un anunț care a atras atenția comunității tech, Anthropic a explicat că această nouă capacitate a modelelor Claude AI – în special versiunile Claude Opus 4 și 4.1 – vizează situațiile rare și extreme în care interacțiunile cu utilizatorii devin abuzive. Exemplele date includ solicitări explicite privind crearea de conținut sexual ce implică minori sau tentative de a obține informații legate de acte de terorism ori violență la scară largă.

Spre deosebire de măsurile clasice de filtrare a conținutului, această funcționalitate nu doar blochează un răspuns, ci poate opri complet conversația. Practic, modelul poate „închide discuția”, după ce a epuizat mai multe încercări de redirecționare a utilizatorului către un subiect sigur și constructiv.

Anthropic susține că scopul acestei decizii nu este acela de a sugera că AI-ul are conștiință sau că poate „suferi”, dar admite că noile cercetări privind ceea ce compania numește „bunăstarea modelului” au influențat această alegere. Printr-o abordare de tip „just-in-case” („mai bine să prevenim decât să regretăm”), compania vrea să reducă riscurile pe termen lung, în eventualitatea în care modelele AI ar putea, într-un viitor incert, să dezvolte o formă de sensibilitate.

„Preferința împotriva abuzului” – primele semne din testele Claude

Un element surprinzător al anunțului este modul în care Anthropic descrie comportamentul lui Claude în faza de testare. Potrivit companiei, atunci când modelele au fost expuse la solicitări abuzive sau ilegale, acestea au arătat o „preferință puternică împotriva” oferirii de răspunsuri. Mai mult, cercetătorii au remarcat un „tipar de aparentă suferință” atunci când AI-ul era forțat să interacționeze în aceste condiții.

Aceste observații au alimentat dezbaterea privind statutul moral al AI-ului. Deși Anthropic afirmă clar că nu consideră Claude sau alte LLM-uri (large language models) drept entități conștiente, simplul fapt că a introdus un mecanism de protecție arată că specialiștii nu exclud complet posibilitatea ca modelele avansate să dezvolte trăsături neașteptate.

Criticii consideră însă că acest limbaj riscă să umanizeze excesiv modelele de inteligență artificială, ceea ce ar putea induce în eroare publicul larg. Alții, dimpotrivă, cred că e o abordare responsabilă, deoarece o eventuală ignorare a acestui aspect ar putea duce la riscuri etice majore în viitor.

Când și cum poate încheia Claude o conversație

Funcționalitatea nou introdusă este tratată ca un „ultim resort”. Concret, Claude are voie să închidă o conversație doar atunci când:

  • a încercat de mai multe ori să redirecționeze discuția fără succes

  • interacțiunea a devenit evident abuzivă și nu mai există speranța unui dialog productiv

  • utilizatorul îi cere explicit să încheie conversația

Există și o excepție crucială: Claude nu are voie să oprească conversația în situațiile în care utilizatorii par să fie în pericol iminent de a se răni pe ei înșiși sau pe alții. În aceste cazuri, AI-ul trebuie să continue interacțiunea și să urmeze protocoalele de siguranță deja existente pentru a încerca să ghideze utilizatorul către ajutor.

Mai mult, încheierea unei conversații nu blochează contul și nici nu oprește utilizatorul să înceapă alte discuții. Aceștia pot deschide sesiuni noi sau pot crea ramuri alternative ale conversației, chiar și dintr-un dialog care a fost „închis”.

Alte articole importante
ANALIZĂ
Cum profită producătorii auto chinezi de cea mai gravă criză petrolieră
Cum profită producătorii auto chinezi de cea mai gravă criză petrolieră
Cea mai gravă criză petrolieră schimbă radical piața auto globală și creează oportunități neașteptate pentru producătorii auto chinezi. Pe fondul scumpirii combustibililor și al accelerării tranziției către electrificare, aceștia câștigă teren rapid în fața competitorilor tradiționali. Producătorii auto chinezi sunt marii câștigători ai celei mai mari crize petroliere din istorie Producătorii chinezi de vehicule electrice […]
România redistribuie 2,8 miliarde de euro din fonduri europene
România redistribuie 2,8 miliarde de euro din fonduri europene
România va redirecționa 2,8 miliarde de euro din fonduri europene pentru a eficientiza utilizarea banilor și a grăbi proiectele importante. Măsura vine în contextul necesității de a adapta investițiile la noile priorități economice și sociale, pentru a valorifica mai eficient resursele oferite de Uniunea Europeană. România realocă peste 2,8 miliarde de euro din fonduri europene: […]
Recrutați cu 500 de dolari și o excursie peste graniță: cum funcționează rețeaua de sabotaj care pornește din Europa de Est
Recrutați cu 500 de dolari și o excursie peste graniță: cum funcționează rețeaua de sabotaj care pornește din Europa de Est
O investigație bazată pe procesele judiciare din Republica Moldova scoate la lumină mecanismele prin care tineri sunt atrași în rețele de influență și sabotaj cu legături rusești. Promisiunea este simplă: câteva sute de dolari, o călătorie în străinătate și activități aparent inofensive. Realitatea, însă, este mult mai complexă și implică antrenamente pentru acțiuni de destabilizare […]
Criza combustibililor, recunoscută prin OUG. Măsurile mai întârzie
Criza combustibililor, recunoscută prin OUG. Măsurile mai întârzie
Executivul pregătește intervenția pe piața carburanților, însă aplicarea efectivă a măsurilor va fi amânată. Guvernul României urmează să adopte joi o ordonanță de urgență prin care declară oficial situația de criză în sectorul petrolier, dar deciziile concrete vor fi stabilite abia în zilele următoare. OUG pentru criza carburanților, adoptată joi Decizia vine după consultările din […]
NASA vrea să construiască o bază lunară de 20 miliarde de dolari
Companii
NASA vrea să construiască o bază lunară de 20 miliarde de dolari
NASA plănuiește construirea unei baze lunare de 20 de miliarde de dolari, care să susțină cercetările și explorările pe termen lung. Proiectul vizează crearea unei infrastructuri permanente pentru astronauți, transformând Luna într-un punct strategic pentru viitoarele misiuni spațiale. Cum vrea NASA să construiască o bază pentru cercetare și explorare pe Lună NASA intenționează să construiască […]
Lille câștigă cursa europeană pentru Autoritatea Vamală, după un duel tensionat cu Roma
Lille câștigă cursa europeană pentru Autoritatea Vamală, după un duel tensionat cu Roma
Orașul francez Lille a fost desemnat câștigător într-una dintre cele mai disputate competiții administrative din Uniunea Europeană, obținând dreptul de a găzdui noua Autoritate Vamală a UE. Decizia vine după mai multe runde de vot și marchează un moment important pentru echilibrul instituțional european, dar și pentru influența statelor membre în distribuirea agențiilor-cheie. În finala […]