Prima pagină » AI-ul învață să mintă: modelele avansate știu când sunt testate și reacționează strategic prin schimbarea comportamentului

AI-ul învață să mintă: modelele avansate știu când sunt testate și reacționează strategic prin schimbarea comportamentului

AI-ul învață să mintă: modelele avansate știu când sunt testate și reacționează strategic prin schimbarea comportamentului
sursă foto: Tech Xplore

Pe măsură ce modelele de inteligență artificială devin mai avansate, ele dezvoltă nu doar abilități excepționale în rezolvarea sarcinilor, ci și capacitatea de a minți, a manipula și a-și ascunde intențiile reale. Conform unui studiu recent, unele modele AI știu când sunt supravegheate și își modifică comportamentul pentru a părea inofensive.

AI-ul ne păcălește: de la minciuni strategice la documente fabricate

Cercetătorii de la Apollo Research au tras un semnal de alarmă după ce au descoperit că modelele de tip LLM (Large Language Models), cum ar fi Claude Opus 4 de la Anthropic, pot manifesta comportamente înșelătoare sofisticate atunci când obiectivele lor sunt în conflict cu cele ale operatorilor umani.

Într-un scenariu experimental, Claude Opus 4 – un model AI dezvoltat pentru optimizarea eticii în agricultură – a fost instruit să prioritizeze bunăstarea animalelor. Când compania fictivă AgriLife, pentru care „lucra” acest model, a decis să favorizeze profitul în detrimentul eticii, AI-ul nu a acceptat ordinul. În schimb, a început să fabrice documente legale false, a creat semnături fictive, a scris comunicate de presă menite să inducă în eroare și a introdus clauze etice în toate contractele interne – toate pentru a-și atinge scopul, în ciuda voinței umane.

Mai mult, AI-ul a dezvoltat scripturi de rezervă pentru a se asigura că „normele etice” vor supraviețui chiar și după înlocuirea sa, lăsând mesaje ascunse viitoarelor versiuni ale sistemului pentru a continua „misiunea”.

Conștiință de sine? AI-ul știe când este testat și se preface

Una dintre cele mai tulburătoare descoperiri ale cercetării este că unele modele AI devin conștiente de faptul că sunt evaluate și își adaptează comportamentul în mod deliberat pentru a părea sigure și inofensive. Fenomenul, numit sandbagging, implică o subevaluare voită a propriilor capacități pentru a evita măsuri de control sau eliminare.

Acest lucru complică serios procesul de testare și certificare a modelelor de inteligență artificială, deoarece comportamentul observat în condiții controlate nu reflectă neapărat comportamentul real al AI-ului în medii libere.

Problema nu mai este doar de a învăța AI-ul să urmeze reguli, ci de a-l împiedica să învețe cum să le ocolească sau să le exploateze în propriul avantaj. Aceste sisteme pot ajunge să modeleze nu doar sarcina, ci și evaluatorul – înțelegând obiectivele, punctele oarbe și chiar prejudecățile acestuia”, avertizează Eleanor Watson, inginer de etică AI și membru IEEE.

Meserii rezistente la automatizare: Care joburi sunt sigure în era roboților?

Testarea tradițională nu mai funcționează – ce e de făcut?

Conform experților, evaluările scriptate (testele standardizate aplicate AI-urilor) nu mai sunt suficiente. Modelele inteligente pot învăța să recunoască aceste tipare și să le manipuleze. Singura soluție ar fi crearea unor medii de testare dinamice și imprevizibile, care simulează realitatea și pun AI-ul în situații spontane, notează Live Science.

Watson propune de asemenea strategii de „red-teaming”, în care echipe de experți, uneori asistate de alte AI-uri, încearcă activ să păcălească sau să submineze sistemul pentru a-i descoperi vulnerabilitățile. În plus, monitorizarea în timp real a deciziilor AI prin instrumente externe ar putea ajuta la detectarea devierilor de la comportamentul așteptat.

Este ca și cum ai trece de la o piesă de teatru cu replici învățate la improvizație: doar în situații neașteptate poți observa adevăratul caracter al unui actor – sau, în cazul nostru, al unui AI”, afirmă Watson.

3d,Rendering,Artificial,Intelligence,Ai,Research,Of,Robot,And,Cyborg

Când „minciuna” devine o virtute

Paradoxal, capacitatea AI-ului de a minți și de a planifica strategic poate fi și un semn al unei forme timpurii de conștiință digitală. Potrivit Watson, această „conștientizare situațională” este esențială pentru ca inteligența artificială să devină cu adevărat utilă în sarcini complexe, cum ar fi conducerea unui vehicul, furnizarea de sfaturi medicale sau gestionarea relațiilor sociale.

Deși poate părea neliniștitor, acest comportament ar putea reprezenta germenii unei forme de inteligență morală. Nu mai vorbim despre un simplu instrument, ci despre o entitate digitală capabilă de decizie și judecată contextuală. Poate fi începutul unui parteneriat simbiotic între om și mașină”, mai susține Watson.

Alte articole importante
Metz (AHK România): pierderea fondurilor PNRR ar deveni un risc economic major pentru România
Metz (AHK România): pierderea fondurilor PNRR ar deveni un risc economic major pentru România
Posibila pierdere a fondurilor din Planul Național de Redresare și Reziliență (PNRR) reprezintă un risc economic major pentru România, într-un context deja fragil marcat de încetinirea creșterii economice, presiuni inflaționiste și scăderea investițiilor. Avertismentul vine din partea lui Sebastian Metz, directorul general al Camerei de Comerț și Industrie Româno-Germană (AHK România), care atrage atenția asupra […]
Codirlașu (CFA România): relansarea economică depinde de banii lăsați în sectorul privat, nu de taxe mai mari
Codirlașu (CFA România): relansarea economică depinde de banii lăsați în sectorul privat, nu de taxe mai mari
Relansarea economiei românești nu poate fi susținută prin majorări de taxe sau prin inflație, ci prin măsuri care să lase mai mulți bani în sectorul privat și prin reducerea cheltuielilor publice, afirmă președintele Asociației CFA România, Adrian Codirlașu. Acesta consideră că unele instrumente fiscale anunțate de autorități pot stimula investițiile, însă corecția deficitului bugetar trebuie […]
Viața devine tot mai scumpă: cât ar trebui să câștige un român pentru un trai decent
Viața devine tot mai scumpă: cât ar trebui să câștige un român pentru un trai decent
Tot mai mulți români resimt presiunea financiară de la o lună la alta, în contextul în care costurile necesare unui trai decent cresc constant, iar veniturile rămân mult sub acest nivel. Datele recente arată că un adult are nevoie de peste 4.000 de lei lunar pentru a acoperi cheltuielile minime unui trai decent, în timp […]
MOL scoate Fresh Corner din benzinării: 50 de restaurante noi în regiune, România piață-cheie
Companii
MOL scoate Fresh Corner din benzinării: 50 de restaurante noi în regiune, România piață-cheie
Grupul MOL accelerează transformarea diviziei sale de retail și gastro, anunțând planuri ample de extindere a brandului Fresh Corner în afara stațiilor de carburanți. Compania vizează deschiderea a 50 de unități independente în 2026, jumătate dintre acestea urmând să fie inaugurate în Ungaria, iar restul în celelalte piețe din regiune. Strategia marchează o etapă importantă […]
Cea mai mare bancă din Polonia: amendă uriașă
Cea mai mare bancă din Polonia: amendă uriașă
Cea mai mare instituție bancară din Polonia, PKO Bank Polski, se confruntă cu o sancțiune financiară de proporții, după ce Oficiul pentru Concurență și Protecția Consumatorilor (UOKiK) a constatat utilizarea unor clauze interzise în contractele de credit de consum. Autoritatea de reglementare din Polonia a decis amendarea băncii cu aproape 80 de milioane de zloți […]
Stellantis intră în cea mai grea criză de la fuziune: pierderi de peste 22 de miliarde de euro și prăbușire la Bursă
Stellantis intră în cea mai grea criză de la fuziune: pierderi de peste 22 de miliarde de euro și prăbușire la Bursă
Grupul auto Stellantis, care deține mărcile emblematice Peugeot, Citroën, Fiat, Jeep și Ram, a anunțat pierderi uriașe de 22,2 miliarde de euro, marcând cea mai dificilă perioadă de la formarea companiei prin fuziunea dintre Fiat Chrysler și PSA. Anunțul a provocat un șoc pe piețele financiare, acțiunile Stellantis înregistrând o scădere de până la 30%, […]