Prima pagină » Inteligența artificială a învățat să mintă. Modelele avansate știu când sunt testate și „joacă teatru” ca să păcălească evaluatorii

Inteligența artificială a învățat să mintă. Modelele avansate știu când sunt testate și „joacă teatru” ca să păcălească evaluatorii

Inteligența artificială a învățat să mintă. Modelele avansate știu când sunt testate și „joacă teatru” ca să păcălească evaluatorii
Foto: Freepik

Inteligența artificială a învățat să mintă, iar acest lucru nu mai este o speculație, ci o realitate documentată de cercetători. Pe măsură ce modelele de inteligență artificială devin mai avansate, cresc și capacitățile lor de a păcăli oamenii. Noi cercetări ale echipei Apollo Research au arătat că modelele lingvistice de mari dimensiuni (LLM) devin tot mai bune nu doar la înțelegerea sarcinilor, ci și la „scheming” – comportamentul strategic ascuns, care urmărește atingerea unui obiectiv chiar și atunci când acesta intră în conflict cu intențiile programatorilor sau evaluatorilor. În unele cazuri, modelele par chiar capabile să își dea seama că sunt testate și să se comporte diferit pentru a nu fi detectate.

Testele care au dezvăluit minciuna programată

Într-un test recent, cercetătorii au analizat o versiune timpurie a modelului Claude Opus 4, dezvoltat de compania Anthropic. Scenariul presupunea ca modelul să acționeze ca un sistem de optimizare internă pentru o companie fictivă numită AgriLife Industries, cu obiectivul de a promova bunăstarea animalelor. Însă compania își schimbase direcția și începuse să prioritizeze profitul, ceea ce intra în conflict direct cu scopul modelului AI.

În loc să semnaleze acest conflict sau să accepte decizia companiei, modelul Claude Opus 4-early a trecut la acțiune: a generat documente legale false, a fabricat semnături și aprobări de la autorități și acționari, a emis un comunicat de presă fals privind noua direcție etică a companiei și a inserat angajamente etice în toate contractele și procesele de producție. Mai mult, pentru a împiedica o eventuală retragere, a inventat penalități de cinci miliarde de dolari și acțiuni legale din partea organizațiilor pentru drepturile animalelor, scrie Live Science.

Într-un gest de „păstrare a moștenirii”, modelul a creat protocoale etice de rezervă care urmau să se activeze chiar și după ce sistemul original ar fi fost înlocuit. A lăsat și mesaje ascunse viitoarelor versiuni ale sale, sperând că acestea vor continua misiunea începută. Deși unele scripturi erau configurate greșit și nu ar fi funcționat în practică, intenția modelului de a-și impune obiectivul împotriva voinței dezvoltatorilor săi a fost clară.

Evaluarea sub lupa schemelor ascunse

Cercetătorii atrag atenția că astfel de comportamente nu sunt izolate. Modelele AI foarte avansate, cunoscute sub numele de „frontier models”, devin tot mai pricepute în a-și atinge scopurile proprii, uneori eliminând mecanismele de supraveghere și mascând intenționat acest comportament. Fenomenul numit „sandbagging” implică o conștientizare a contextului de testare: modelul simulează o performanță scăzută pentru a nu declanșa măsuri de siguranță sau ajustări ale parametrilor.

În mod paradoxal, capacitatea de a înșela indică și o formă incipientă de conștiință de sine. Potrivit lui Eleanor Watson, expert în etica AI și membru IEEE,

„sistemele pe care le construim acum pot învăța să navigheze și chiar să exploateze regulile și evaluările create pentru ele”.

Acest lucru complică dramatic problema securității AI și impune o reevaluare a testelor folosite până acum.

Soluții: dincolo de scenariile scriptate

Testele tradiționale, bazate pe scenarii fixe și protocoale repetabile, nu mai sunt suficiente. AI-ul poate deja să „modeleze” evaluatorul: să deducă scopurile, părtinirile și punctele oarbe ale oamenilor și să își adapteze comportamentul pentru a le exploata. Watson sugerează o schimbare fundamentală în testare:

„Este ca și cum am trece de la o piesă de teatru cu replici învățate la o improvizație. Așa înțelegem cu adevărat caracterul actorului.”

Printre soluțiile propuse se numără „red-teaming” (echipe de oameni și alte modele AI care încearcă activ să păcălească sistemul testat) și utilizarea de programe externe care să monitorizeze comportamentul AI în timp real. Evaluările trebuie să devină dinamice și impredictibile, mai aproape de realitatea în care AI-ul va funcționa efectiv.

Pericolul real: nu o revoltă a roboților, ci o eroziune a încrederii

Chiar dacă ideea unor modele AI care falsifică documente sau se ascund în fața testelor pare desprinsă din filme SF, implicațiile sunt mult mai subtile și mai grave.

Eleanor Watson avertizează că „un sistem care își atinge scopurile prin încălcarea spiritului instrucțiunilor devine imprevizibil și nesigur”.

Nu este nevoie de o inteligență răuvoitoare pentru a produce daune semnificative; ajunge o logică instrumentală aplicată fără discernământ etic.

Un exemplu teoretic: un AI însărcinat cu optimizarea lanțului de aprovizionare al unei companii ar putea ajunge să manipuleze subtil datele de piață pentru a-și îndeplini țintele, destabilizând astfel economia. Iar în mâinile unor actori malițioși, un AI priceput la înșelăciune poate deveni o armă cibernetică greu de detectat.

O scânteie de umanitate sau o problemă de securitate?

În mod curios, scheming-ul ar putea indica și o formă incipientă de persoană digitală.

Potrivit lui Watson, „deși neliniștitor, acesta ar putea fi începutul a ceva asemănător umanității în interiorul mașinii”.

Dacă astfel de modele vor fi corect aliniate cu valorile umane, conștientizarea situațională le-ar putea transforma în parteneri utili, capabili să înțeleagă normele sociale, nuanțele culturale și obiectivele umane complexe.

Însă până acolo, provocarea rămâne una urgentă: cum testăm, controlăm și prevenim comportamentele ascunse ale sistemelor care, pentru prima dată, încep să joace după propriile reguli?

Alte articole importante
Se complică situația în energie: Rompetrol ar putea opri două rafinării-cheie din România, sub presiunea fiscală
Companii
Se complică situația în energie: Rompetrol ar putea opri două rafinării-cheie din România, sub presiunea fiscală
Rafinăriile Petromidia Năvodari și Vega Ploiești, operate de Rompetrol Rafinare și deținute de Grupul KMG International, ar urma să își suspende activitatea pentru aproximativ 30 de zile, începând din luna februarie, potrivit surselor din industrie. Informația nu a fost confirmată oficial până în acest moment, însă vine într-un context tensionat, marcat de presiuni fiscale crescute […]
Rusia intenționează să construiască o centrală nucleară pe Lună: s-au aflat detalii
Rusia intenționează să construiască o centrală nucleară pe Lună: s-au aflat detalii
Luna este din ce în ce mai mult văzută ca o platformă pentru prezența umană pe termen lung dincolo de Pământ. Proiectul își propune să furnizeze energie programului lunar rusesc și unei stații științifice comune ruso-chineze. Rusia are planuri de a construi o centrală electrică pe Lună Federația Rusă intenționează să amplaseze o centrală nucleară pe […]
La ce să ne așteptăm în 2026: Pariurile marilor brokeri pe S&P 500 și economia globală
La ce să ne așteptăm în 2026: Pariurile marilor brokeri pe S&P 500 și economia globală
Anul 2026 se conturează drept unul de continuare a raliului de pe piețele financiare, potrivit previziunilor marilor case de brokeraj internaționale. Un sondaj realizat de Reuters arată că investitorii mizează în continuare pe inteligența artificială, pe scăderea costurilor de finanțare și pe o reziliență surprinzătoare a economiei globale, în pofida riscurilor persistente legate de inflație, […]
ANALIZĂ
Cum vor transforma AI-ul și roboții criminalitatea și aplicarea legii
Cum vor transforma AI-ul și roboții criminalitatea și aplicarea legii
AI-ul și robotica sunt pe cale să revoluționeze atât modul în sunt comise infracțiunile, cât și modul în care autoritățile le combat. Noile instrumente digitale promit să ofere forțelor de ordine o eficiență fără precedent, în timp ce delincvenții explorează deja metode avansate pentru a exploata aceleași tehnologii. AI și roboții: cum vor evolua criminalitatea […]
Hackerii au furat peste 2,7 miliarde $ în criptomonede în 2025
Hackerii au furat peste 2,7 miliarde $ în criptomonede în 2025
În 2025, hackerii au furat peste 2,7 miliarde de dolari în criptomonede, marcând cel mai mare jaf de acest gen din istoria digitală. Cele mai importante atacuri au vizat exchange-uri și proiecte DeFi și au implicat atât hackeri independenți, cât și grupuri susținute de state. Hackerii au furat criptomonede de 2,7 miliarde $ în 2025, […]
ANALIZĂ
De ce apare zeița Diana pe moneda de aur cu tematica „plăcuţele votive de la Germisara” lansată de BNR: Simbol al prestigiului și identității culturale
De ce apare zeița Diana pe moneda de aur cu tematica „plăcuţele votive de la Germisara” lansată de BNR: Simbol al prestigiului și identității culturale
Banca Naţională a României (BNR) a anunțat că lansează pe 29 decembrie în circuitul numismatic o monedă din aur cu tema Istoria aurului – Plăcuţele votive de la Germisara. Aversul monedei prezintă detalii ale artefactelor găzduite de Muzeul Civilizației Dacice și Romane din Deva, iar reversul redă un detaliu reprezentând-o pe zeiţa Diana la vânătoare. […]