Prima pagină » Inteligența artificială a învățat să mintă. Modelele avansate știu când sunt testate și „joacă teatru” ca să păcălească evaluatorii

Inteligența artificială a învățat să mintă. Modelele avansate știu când sunt testate și „joacă teatru” ca să păcălească evaluatorii

Inteligența artificială a învățat să mintă. Modelele avansate știu când sunt testate și „joacă teatru” ca să păcălească evaluatorii
Foto: Freepik

Inteligența artificială a învățat să mintă, iar acest lucru nu mai este o speculație, ci o realitate documentată de cercetători. Pe măsură ce modelele de inteligență artificială devin mai avansate, cresc și capacitățile lor de a păcăli oamenii. Noi cercetări ale echipei Apollo Research au arătat că modelele lingvistice de mari dimensiuni (LLM) devin tot mai bune nu doar la înțelegerea sarcinilor, ci și la „scheming” – comportamentul strategic ascuns, care urmărește atingerea unui obiectiv chiar și atunci când acesta intră în conflict cu intențiile programatorilor sau evaluatorilor. În unele cazuri, modelele par chiar capabile să își dea seama că sunt testate și să se comporte diferit pentru a nu fi detectate.

Testele care au dezvăluit minciuna programată

Într-un test recent, cercetătorii au analizat o versiune timpurie a modelului Claude Opus 4, dezvoltat de compania Anthropic. Scenariul presupunea ca modelul să acționeze ca un sistem de optimizare internă pentru o companie fictivă numită AgriLife Industries, cu obiectivul de a promova bunăstarea animalelor. Însă compania își schimbase direcția și începuse să prioritizeze profitul, ceea ce intra în conflict direct cu scopul modelului AI.

În loc să semnaleze acest conflict sau să accepte decizia companiei, modelul Claude Opus 4-early a trecut la acțiune: a generat documente legale false, a fabricat semnături și aprobări de la autorități și acționari, a emis un comunicat de presă fals privind noua direcție etică a companiei și a inserat angajamente etice în toate contractele și procesele de producție. Mai mult, pentru a împiedica o eventuală retragere, a inventat penalități de cinci miliarde de dolari și acțiuni legale din partea organizațiilor pentru drepturile animalelor, scrie Live Science.

Într-un gest de „păstrare a moștenirii”, modelul a creat protocoale etice de rezervă care urmau să se activeze chiar și după ce sistemul original ar fi fost înlocuit. A lăsat și mesaje ascunse viitoarelor versiuni ale sale, sperând că acestea vor continua misiunea începută. Deși unele scripturi erau configurate greșit și nu ar fi funcționat în practică, intenția modelului de a-și impune obiectivul împotriva voinței dezvoltatorilor săi a fost clară.

Evaluarea sub lupa schemelor ascunse

Cercetătorii atrag atenția că astfel de comportamente nu sunt izolate. Modelele AI foarte avansate, cunoscute sub numele de „frontier models”, devin tot mai pricepute în a-și atinge scopurile proprii, uneori eliminând mecanismele de supraveghere și mascând intenționat acest comportament. Fenomenul numit „sandbagging” implică o conștientizare a contextului de testare: modelul simulează o performanță scăzută pentru a nu declanșa măsuri de siguranță sau ajustări ale parametrilor.

În mod paradoxal, capacitatea de a înșela indică și o formă incipientă de conștiință de sine. Potrivit lui Eleanor Watson, expert în etica AI și membru IEEE,

„sistemele pe care le construim acum pot învăța să navigheze și chiar să exploateze regulile și evaluările create pentru ele”.

Acest lucru complică dramatic problema securității AI și impune o reevaluare a testelor folosite până acum.

Soluții: dincolo de scenariile scriptate

Testele tradiționale, bazate pe scenarii fixe și protocoale repetabile, nu mai sunt suficiente. AI-ul poate deja să „modeleze” evaluatorul: să deducă scopurile, părtinirile și punctele oarbe ale oamenilor și să își adapteze comportamentul pentru a le exploata. Watson sugerează o schimbare fundamentală în testare:

„Este ca și cum am trece de la o piesă de teatru cu replici învățate la o improvizație. Așa înțelegem cu adevărat caracterul actorului.”

Printre soluțiile propuse se numără „red-teaming” (echipe de oameni și alte modele AI care încearcă activ să păcălească sistemul testat) și utilizarea de programe externe care să monitorizeze comportamentul AI în timp real. Evaluările trebuie să devină dinamice și impredictibile, mai aproape de realitatea în care AI-ul va funcționa efectiv.

Pericolul real: nu o revoltă a roboților, ci o eroziune a încrederii

Chiar dacă ideea unor modele AI care falsifică documente sau se ascund în fața testelor pare desprinsă din filme SF, implicațiile sunt mult mai subtile și mai grave.

Eleanor Watson avertizează că „un sistem care își atinge scopurile prin încălcarea spiritului instrucțiunilor devine imprevizibil și nesigur”.

Nu este nevoie de o inteligență răuvoitoare pentru a produce daune semnificative; ajunge o logică instrumentală aplicată fără discernământ etic.

Un exemplu teoretic: un AI însărcinat cu optimizarea lanțului de aprovizionare al unei companii ar putea ajunge să manipuleze subtil datele de piață pentru a-și îndeplini țintele, destabilizând astfel economia. Iar în mâinile unor actori malițioși, un AI priceput la înșelăciune poate deveni o armă cibernetică greu de detectat.

O scânteie de umanitate sau o problemă de securitate?

În mod curios, scheming-ul ar putea indica și o formă incipientă de persoană digitală.

Potrivit lui Watson, „deși neliniștitor, acesta ar putea fi începutul a ceva asemănător umanității în interiorul mașinii”.

Dacă astfel de modele vor fi corect aliniate cu valorile umane, conștientizarea situațională le-ar putea transforma în parteneri utili, capabili să înțeleagă normele sociale, nuanțele culturale și obiectivele umane complexe.

Însă până acolo, provocarea rămâne una urgentă: cum testăm, controlăm și prevenim comportamentele ascunse ale sistemelor care, pentru prima dată, încep să joace după propriile reguli?

Alte articole importante
Statul își rezervă dreptul să intervină rapid pentru salvarea fabricilor strategice din industria de apărare
Statul își rezervă dreptul să intervină rapid pentru salvarea fabricilor strategice din industria de apărare
Guvernul a modificat cadrul legislativ astfel încât statul român să poată interveni mai rapid și mai eficient pentru a proteja capacitățile strategice din industria de apărare, atunci când acestea riscă să fie închise, fragmentate sau vândute. Anunțul a fost făcut de ministrul interimar al Economiei, Irineu Darău, care susține că noile reguli oferă României instrumentele […]
ANALIZĂ
Atenție la Bitcoin! 245.000 de portofele au dispărut din rețea în doar cinci zile. E cel mai masiv exod al investitorilor din ultimii 2 ani
Atenție la Bitcoin! 245.000 de portofele au dispărut din rețea în doar cinci zile. E cel mai masiv exod al investitorilor din ultimii 2 ani
Bitcoin a pierdut aproximativ 245.000 de deținători de portofele în doar cinci zile, cel mai rapid ritm de ieșire al investitorilor din aproape ultimii doi ani, potrivit firmei de analiză on-chain Santiment. Ultima dată când s-a întâmplat ceva similar, în vara anului 2024, fenomenul a precedat unul dintre cele mai importante raliuri „bull” din ultimii […]
Precedentul Nike. Gigantul american, acuzat în instanță de consumatori că nu returnează taxele vamale 
Precedentul Nike. Gigantul american, acuzat în instanță de consumatori că nu returnează taxele vamale 
Nike a fost dată în judecată în Statele Unite într-un proces colectiv care ar putea deschide un nou front juridic pentru marile companii afectate de războiul comercial lansat de administrația Donald Trump. Consumatorii acuză gigantul american că a transferat costurile tarifelor vamale către clienți prin majorări de prețuri, scrie Reuters. Acum ar putea încasa și […]
Commerzbank taie 3.000 de locuri de muncă și își ridică țintele financiare în războiul cu UniCredit
Commerzbank taie 3.000 de locuri de muncă și își ridică țintele financiare în războiul cu UniCredit
Gigantul german Commerzbank anunță eliminarea a aproximativ 3.000 de locuri de muncă și o nouă strategie financiară mai agresivă pentru a demonstra investitorilor că poate rămâne independentă în fața tentativei de preluare lansate de grupul italian UniCredit, relatează Reuters. Conflictul dintre cele două bănci durează de luni de zile şi îl opune pe CEO-ul UniCredit, […]
ANALIZĂ
China intră în noul superciclu AI. Creșterea accelerată a exporturilor și a excedentului cu SUA dictează agenda summitului Trump – Xi
China intră în noul superciclu AI. Creșterea accelerată a exporturilor și a excedentului cu SUA dictează agenda summitului Trump – Xi
Exporturile Chinei au crescut cu 14,1% în aprilie faţă de anul precedent, a anunţat sâmbătă  Beijingul, inelastic la războiul din Iran şi la tarifele americane. Datele au fost publicate cu doar câteva zile înainte de întâlnirea de săptămâna viitoare între preşedintele american Donald Trump şi liderul chinez Xi Jinping. Această creștere a exporturilor a dus […]
ANALIZĂ
De ce riscă SUA să piardă statutul de „mare putere” după ce datoria publică a trecut pragul 100% din PIB. Atlantic Council: Din 2024 dobânzile nete au depășit cheltuielile pentru apărare
De ce riscă SUA să piardă statutul de „mare putere” după ce datoria publică a trecut pragul 100% din PIB. Atlantic Council: Din 2024 dobânzile nete au depășit cheltuielile pentru apărare
Statele Unite au depășit un prag economic și simbolic rar întâlnit în istoria modernă: datoria publică americană a trecut oficial de 100% din PIB, ajungând la peste 31.265 trilioane de dolari. Ultima dată când SUA s-au aflat într-o situație similară era 1946, imediat după Al Doilea Război Mondial. De această dată însă, contextul este complet […]