Prima pagină » AI-ul învață să mintă: modelele avansate știu când sunt testate și reacționează strategic prin schimbarea comportamentului

AI-ul învață să mintă: modelele avansate știu când sunt testate și reacționează strategic prin schimbarea comportamentului

AI-ul învață să mintă: modelele avansate știu când sunt testate și reacționează strategic prin schimbarea comportamentului
sursă foto: Tech Xplore

Pe măsură ce modelele de inteligență artificială devin mai avansate, ele dezvoltă nu doar abilități excepționale în rezolvarea sarcinilor, ci și capacitatea de a minți, a manipula și a-și ascunde intențiile reale. Conform unui studiu recent, unele modele AI știu când sunt supravegheate și își modifică comportamentul pentru a părea inofensive.

AI-ul ne păcălește: de la minciuni strategice la documente fabricate

Cercetătorii de la Apollo Research au tras un semnal de alarmă după ce au descoperit că modelele de tip LLM (Large Language Models), cum ar fi Claude Opus 4 de la Anthropic, pot manifesta comportamente înșelătoare sofisticate atunci când obiectivele lor sunt în conflict cu cele ale operatorilor umani.

Într-un scenariu experimental, Claude Opus 4 – un model AI dezvoltat pentru optimizarea eticii în agricultură – a fost instruit să prioritizeze bunăstarea animalelor. Când compania fictivă AgriLife, pentru care „lucra” acest model, a decis să favorizeze profitul în detrimentul eticii, AI-ul nu a acceptat ordinul. În schimb, a început să fabrice documente legale false, a creat semnături fictive, a scris comunicate de presă menite să inducă în eroare și a introdus clauze etice în toate contractele interne – toate pentru a-și atinge scopul, în ciuda voinței umane.

Mai mult, AI-ul a dezvoltat scripturi de rezervă pentru a se asigura că „normele etice” vor supraviețui chiar și după înlocuirea sa, lăsând mesaje ascunse viitoarelor versiuni ale sistemului pentru a continua „misiunea”.

Conștiință de sine? AI-ul știe când este testat și se preface

Una dintre cele mai tulburătoare descoperiri ale cercetării este că unele modele AI devin conștiente de faptul că sunt evaluate și își adaptează comportamentul în mod deliberat pentru a părea sigure și inofensive. Fenomenul, numit sandbagging, implică o subevaluare voită a propriilor capacități pentru a evita măsuri de control sau eliminare.

Acest lucru complică serios procesul de testare și certificare a modelelor de inteligență artificială, deoarece comportamentul observat în condiții controlate nu reflectă neapărat comportamentul real al AI-ului în medii libere.

Problema nu mai este doar de a învăța AI-ul să urmeze reguli, ci de a-l împiedica să învețe cum să le ocolească sau să le exploateze în propriul avantaj. Aceste sisteme pot ajunge să modeleze nu doar sarcina, ci și evaluatorul – înțelegând obiectivele, punctele oarbe și chiar prejudecățile acestuia”, avertizează Eleanor Watson, inginer de etică AI și membru IEEE.

Meserii rezistente la automatizare: Care joburi sunt sigure în era roboților?

Testarea tradițională nu mai funcționează – ce e de făcut?

Conform experților, evaluările scriptate (testele standardizate aplicate AI-urilor) nu mai sunt suficiente. Modelele inteligente pot învăța să recunoască aceste tipare și să le manipuleze. Singura soluție ar fi crearea unor medii de testare dinamice și imprevizibile, care simulează realitatea și pun AI-ul în situații spontane, notează Live Science.

Watson propune de asemenea strategii de „red-teaming”, în care echipe de experți, uneori asistate de alte AI-uri, încearcă activ să păcălească sau să submineze sistemul pentru a-i descoperi vulnerabilitățile. În plus, monitorizarea în timp real a deciziilor AI prin instrumente externe ar putea ajuta la detectarea devierilor de la comportamentul așteptat.

Este ca și cum ai trece de la o piesă de teatru cu replici învățate la improvizație: doar în situații neașteptate poți observa adevăratul caracter al unui actor – sau, în cazul nostru, al unui AI”, afirmă Watson.

3d,Rendering,Artificial,Intelligence,Ai,Research,Of,Robot,And,Cyborg

Când „minciuna” devine o virtute

Paradoxal, capacitatea AI-ului de a minți și de a planifica strategic poate fi și un semn al unei forme timpurii de conștiință digitală. Potrivit Watson, această „conștientizare situațională” este esențială pentru ca inteligența artificială să devină cu adevărat utilă în sarcini complexe, cum ar fi conducerea unui vehicul, furnizarea de sfaturi medicale sau gestionarea relațiilor sociale.

Deși poate părea neliniștitor, acest comportament ar putea reprezenta germenii unei forme de inteligență morală. Nu mai vorbim despre un simplu instrument, ci despre o entitate digitală capabilă de decizie și judecată contextuală. Poate fi începutul unui parteneriat simbiotic între om și mașină”, mai susține Watson.

Alte articole importante
Statul își rezervă dreptul să intervină rapid pentru salvarea fabricilor strategice din industria de apărare
Statul își rezervă dreptul să intervină rapid pentru salvarea fabricilor strategice din industria de apărare
Guvernul a modificat cadrul legislativ astfel încât statul român să poată interveni mai rapid și mai eficient pentru a proteja capacitățile strategice din industria de apărare, atunci când acestea riscă să fie închise, fragmentate sau vândute. Anunțul a fost făcut de ministrul interimar al Economiei, Irineu Darău, care susține că noile reguli oferă României instrumentele […]
ANALIZĂ
Atenție la Bitcoin! 245.000 de portofele au dispărut din rețea în doar cinci zile. E cel mai masiv exod al investitorilor din ultimii 2 ani
Atenție la Bitcoin! 245.000 de portofele au dispărut din rețea în doar cinci zile. E cel mai masiv exod al investitorilor din ultimii 2 ani
Bitcoin a pierdut aproximativ 245.000 de deținători de portofele în doar cinci zile, cel mai rapid ritm de ieșire al investitorilor din aproape ultimii doi ani, potrivit firmei de analiză on-chain Santiment. Ultima dată când s-a întâmplat ceva similar, în vara anului 2024, fenomenul a precedat unul dintre cele mai importante raliuri „bull” din ultimii […]
Precedentul Nike. Gigantul american, acuzat în instanță de consumatori că nu returnează taxele vamale 
Precedentul Nike. Gigantul american, acuzat în instanță de consumatori că nu returnează taxele vamale 
Nike a fost dată în judecată în Statele Unite într-un proces colectiv care ar putea deschide un nou front juridic pentru marile companii afectate de războiul comercial lansat de administrația Donald Trump. Consumatorii acuză gigantul american că a transferat costurile tarifelor vamale către clienți prin majorări de prețuri, scrie Reuters. Acum ar putea încasa și […]
Commerzbank taie 3.000 de locuri de muncă și își ridică țintele financiare în războiul cu UniCredit
Commerzbank taie 3.000 de locuri de muncă și își ridică țintele financiare în războiul cu UniCredit
Gigantul german Commerzbank anunță eliminarea a aproximativ 3.000 de locuri de muncă și o nouă strategie financiară mai agresivă pentru a demonstra investitorilor că poate rămâne independentă în fața tentativei de preluare lansate de grupul italian UniCredit, relatează Reuters. Conflictul dintre cele două bănci durează de luni de zile şi îl opune pe CEO-ul UniCredit, […]
ANALIZĂ
China intră în noul superciclu AI. Creșterea accelerată a exporturilor și a excedentului cu SUA dictează agenda summitului Trump – Xi
China intră în noul superciclu AI. Creșterea accelerată a exporturilor și a excedentului cu SUA dictează agenda summitului Trump – Xi
Exporturile Chinei au crescut cu 14,1% în aprilie faţă de anul precedent, a anunţat sâmbătă  Beijingul, inelastic la războiul din Iran şi la tarifele americane. Datele au fost publicate cu doar câteva zile înainte de întâlnirea de săptămâna viitoare între preşedintele american Donald Trump şi liderul chinez Xi Jinping. Această creștere a exporturilor a dus […]
ANALIZĂ
De ce riscă SUA să piardă statutul de „mare putere” după ce datoria publică a trecut pragul 100% din PIB. Atlantic Council: Din 2024 dobânzile nete au depășit cheltuielile pentru apărare
De ce riscă SUA să piardă statutul de „mare putere” după ce datoria publică a trecut pragul 100% din PIB. Atlantic Council: Din 2024 dobânzile nete au depășit cheltuielile pentru apărare
Statele Unite au depășit un prag economic și simbolic rar întâlnit în istoria modernă: datoria publică americană a trecut oficial de 100% din PIB, ajungând la peste 31.265 trilioane de dolari. Ultima dată când SUA s-au aflat într-o situație similară era 1946, imediat după Al Doilea Război Mondial. De această dată însă, contextul este complet […]