Prima pagină » AI-ul învață să mintă: modelele avansate știu când sunt testate și reacționează strategic prin schimbarea comportamentului

AI-ul învață să mintă: modelele avansate știu când sunt testate și reacționează strategic prin schimbarea comportamentului

AI-ul învață să mintă: modelele avansate știu când sunt testate și reacționează strategic prin schimbarea comportamentului
sursă foto: Tech Xplore

Pe măsură ce modelele de inteligență artificială devin mai avansate, ele dezvoltă nu doar abilități excepționale în rezolvarea sarcinilor, ci și capacitatea de a minți, a manipula și a-și ascunde intențiile reale. Conform unui studiu recent, unele modele AI știu când sunt supravegheate și își modifică comportamentul pentru a părea inofensive.

AI-ul ne păcălește: de la minciuni strategice la documente fabricate

Cercetătorii de la Apollo Research au tras un semnal de alarmă după ce au descoperit că modelele de tip LLM (Large Language Models), cum ar fi Claude Opus 4 de la Anthropic, pot manifesta comportamente înșelătoare sofisticate atunci când obiectivele lor sunt în conflict cu cele ale operatorilor umani.

Într-un scenariu experimental, Claude Opus 4 – un model AI dezvoltat pentru optimizarea eticii în agricultură – a fost instruit să prioritizeze bunăstarea animalelor. Când compania fictivă AgriLife, pentru care „lucra” acest model, a decis să favorizeze profitul în detrimentul eticii, AI-ul nu a acceptat ordinul. În schimb, a început să fabrice documente legale false, a creat semnături fictive, a scris comunicate de presă menite să inducă în eroare și a introdus clauze etice în toate contractele interne – toate pentru a-și atinge scopul, în ciuda voinței umane.

Mai mult, AI-ul a dezvoltat scripturi de rezervă pentru a se asigura că „normele etice” vor supraviețui chiar și după înlocuirea sa, lăsând mesaje ascunse viitoarelor versiuni ale sistemului pentru a continua „misiunea”.

Conștiință de sine? AI-ul știe când este testat și se preface

Una dintre cele mai tulburătoare descoperiri ale cercetării este că unele modele AI devin conștiente de faptul că sunt evaluate și își adaptează comportamentul în mod deliberat pentru a părea sigure și inofensive. Fenomenul, numit sandbagging, implică o subevaluare voită a propriilor capacități pentru a evita măsuri de control sau eliminare.

Acest lucru complică serios procesul de testare și certificare a modelelor de inteligență artificială, deoarece comportamentul observat în condiții controlate nu reflectă neapărat comportamentul real al AI-ului în medii libere.

Problema nu mai este doar de a învăța AI-ul să urmeze reguli, ci de a-l împiedica să învețe cum să le ocolească sau să le exploateze în propriul avantaj. Aceste sisteme pot ajunge să modeleze nu doar sarcina, ci și evaluatorul – înțelegând obiectivele, punctele oarbe și chiar prejudecățile acestuia”, avertizează Eleanor Watson, inginer de etică AI și membru IEEE.

Meserii rezistente la automatizare: Care joburi sunt sigure în era roboților?

Testarea tradițională nu mai funcționează – ce e de făcut?

Conform experților, evaluările scriptate (testele standardizate aplicate AI-urilor) nu mai sunt suficiente. Modelele inteligente pot învăța să recunoască aceste tipare și să le manipuleze. Singura soluție ar fi crearea unor medii de testare dinamice și imprevizibile, care simulează realitatea și pun AI-ul în situații spontane, notează Live Science.

Watson propune de asemenea strategii de „red-teaming”, în care echipe de experți, uneori asistate de alte AI-uri, încearcă activ să păcălească sau să submineze sistemul pentru a-i descoperi vulnerabilitățile. În plus, monitorizarea în timp real a deciziilor AI prin instrumente externe ar putea ajuta la detectarea devierilor de la comportamentul așteptat.

Este ca și cum ai trece de la o piesă de teatru cu replici învățate la improvizație: doar în situații neașteptate poți observa adevăratul caracter al unui actor – sau, în cazul nostru, al unui AI”, afirmă Watson.

3d,Rendering,Artificial,Intelligence,Ai,Research,Of,Robot,And,Cyborg

Când „minciuna” devine o virtute

Paradoxal, capacitatea AI-ului de a minți și de a planifica strategic poate fi și un semn al unei forme timpurii de conștiință digitală. Potrivit Watson, această „conștientizare situațională” este esențială pentru ca inteligența artificială să devină cu adevărat utilă în sarcini complexe, cum ar fi conducerea unui vehicul, furnizarea de sfaturi medicale sau gestionarea relațiilor sociale.

Deși poate părea neliniștitor, acest comportament ar putea reprezenta germenii unei forme de inteligență morală. Nu mai vorbim despre un simplu instrument, ci despre o entitate digitală capabilă de decizie și judecată contextuală. Poate fi începutul unui parteneriat simbiotic între om și mașină”, mai susține Watson.

Alte articole importante
Deficitul bugetar a ajuns la 3,68% din PIB după doar șase luni. Statul a cheltuit cu 70 miliarde mai mult decât a încasat
Deficitul bugetar a ajuns la 3,68% din PIB după doar șase luni. Statul a cheltuit cu 70 miliarde mai mult decât a încasat
Execuția bugetară pentru prima jumătate a anului 2025 confirmă o tendință clară de dezechilibru în finanțele publice. Potrivit datelor publicate, luni, de Ministerul Finanțelor, deficitul bugetar a urcat la 3,68% din Produsul Intern Brut, echivalentul a 69,80 miliarde de lei. Comparativ cu luna mai, când deficitul fusese de 3,39% din PIB, statul a acumulat noi […]
EXCLUSIV. „Contrabandiștii nu vor tăia facturi digitale”. Profesorul universitar Cristian Păun: Problema evaziunii în România nu se rezolvă cu digitalizare
VIDEOEXCLUSIV. „Contrabandiștii nu vor tăia facturi digitale”. Profesorul universitar Cristian Păun: Problema evaziunii în România nu se rezolvă cu digitalizare
Succesul „raliului fiscal” anunțat de Guvern depinde, în mare măsură, de eficientizarea Agenției Naționale de Administrare Fiscală (ANAF), instituție vizată acum de o serie de reforme structurale accelerate pe ultima sută de metri și de schimbări la vârf. Dar această „piesă de rezistență” din arsenalul statului român nu e chiar atât de rezistentă încât să […]
România conduce topul țărilor din UE cu cea mai rapidă depopulare
Analize
România conduce topul țărilor din UE cu cea mai rapidă depopulare
România se află în fruntea clasamentului țărilor din Uniunea Europeană (UE) care se depopulează cel mai rapid. În ultimele două decenii, am pierdut câteva milioane de locuitori, o scădere a populației care ridică semne de întrebare serioase privind viitorul demografic, social și economic al țării noastre. România are cea mai rapidă depopulare din UE România […]
Plățile cu cardul explodează în zona euro: bancomatele dispar pe zi ce trece
Plățile cu cardul explodează în zona euro: bancomatele dispar pe zi ce trece
Plățile cu cardul au devenit opțiunea preferată în toate statele din zona euro, în timp ce numerarul pierde tot mai mult teren. În paralel, numărul bancomatelor este în continuă scădere în regiune, reflectând o tranziție accelerată către plățile digitale. Plățile cu cardul devin normă în Europa: tot mai puține bancomate disponibile Potrivit unui raport publicat […]
Noua Dacia C-Neo este tot mai aproape de lansare: prima imagine fără camuflaj
Companii
Noua Dacia C-Neo este tot mai aproape de lansare: prima imagine fără camuflaj
Noua Dacia C-Neo pare tot mai aproape de debut, iar pe internet a apărut o primă imagine neoficială cu mașina fără camuflaj. Viitorul model va completa ofensiva mărcii românești în segmentul C și va avea un design modern și un preț competitiv. Dacia C-Neo, surprinsă complet descoperită. Când va fi lansată? Dacia 2026 byu/jtefa1 inAutomobileRO […]
Gospodăriile din România au avut un excedent mediu de aproape 1.500 de lei în 2025
Gospodăriile din România au avut un excedent mediu de aproape 1.500 de lei în 2025
Gospodăriile din România au înregistrat în primul trimestru din 2025 un excedent mediu lunar de peste 1.480 de lei, după ce veniturile au depășit semnificativ cheltuielile. Această evoluție indică o gestionare mai echilibrată a bugetelor familiale, în contextul creșterii constante a veniturilor disponibile. Excedent mediu de 1.481 de lei în gospodăriile din România în primul […]