Prima pagină » AI-ul învață să mintă: modelele avansate știu când sunt testate și reacționează strategic prin schimbarea comportamentului

AI-ul învață să mintă: modelele avansate știu când sunt testate și reacționează strategic prin schimbarea comportamentului

AI-ul învață să mintă: modelele avansate știu când sunt testate și reacționează strategic prin schimbarea comportamentului
sursă foto: Tech Xplore

Pe măsură ce modelele de inteligență artificială devin mai avansate, ele dezvoltă nu doar abilități excepționale în rezolvarea sarcinilor, ci și capacitatea de a minți, a manipula și a-și ascunde intențiile reale. Conform unui studiu recent, unele modele AI știu când sunt supravegheate și își modifică comportamentul pentru a părea inofensive.

AI-ul ne păcălește: de la minciuni strategice la documente fabricate

Cercetătorii de la Apollo Research au tras un semnal de alarmă după ce au descoperit că modelele de tip LLM (Large Language Models), cum ar fi Claude Opus 4 de la Anthropic, pot manifesta comportamente înșelătoare sofisticate atunci când obiectivele lor sunt în conflict cu cele ale operatorilor umani.

Într-un scenariu experimental, Claude Opus 4 – un model AI dezvoltat pentru optimizarea eticii în agricultură – a fost instruit să prioritizeze bunăstarea animalelor. Când compania fictivă AgriLife, pentru care „lucra” acest model, a decis să favorizeze profitul în detrimentul eticii, AI-ul nu a acceptat ordinul. În schimb, a început să fabrice documente legale false, a creat semnături fictive, a scris comunicate de presă menite să inducă în eroare și a introdus clauze etice în toate contractele interne – toate pentru a-și atinge scopul, în ciuda voinței umane.

Mai mult, AI-ul a dezvoltat scripturi de rezervă pentru a se asigura că „normele etice” vor supraviețui chiar și după înlocuirea sa, lăsând mesaje ascunse viitoarelor versiuni ale sistemului pentru a continua „misiunea”.

Conștiință de sine? AI-ul știe când este testat și se preface

Una dintre cele mai tulburătoare descoperiri ale cercetării este că unele modele AI devin conștiente de faptul că sunt evaluate și își adaptează comportamentul în mod deliberat pentru a părea sigure și inofensive. Fenomenul, numit sandbagging, implică o subevaluare voită a propriilor capacități pentru a evita măsuri de control sau eliminare.

Acest lucru complică serios procesul de testare și certificare a modelelor de inteligență artificială, deoarece comportamentul observat în condiții controlate nu reflectă neapărat comportamentul real al AI-ului în medii libere.

Problema nu mai este doar de a învăța AI-ul să urmeze reguli, ci de a-l împiedica să învețe cum să le ocolească sau să le exploateze în propriul avantaj. Aceste sisteme pot ajunge să modeleze nu doar sarcina, ci și evaluatorul – înțelegând obiectivele, punctele oarbe și chiar prejudecățile acestuia”, avertizează Eleanor Watson, inginer de etică AI și membru IEEE.

Meserii rezistente la automatizare: Care joburi sunt sigure în era roboților?

Testarea tradițională nu mai funcționează – ce e de făcut?

Conform experților, evaluările scriptate (testele standardizate aplicate AI-urilor) nu mai sunt suficiente. Modelele inteligente pot învăța să recunoască aceste tipare și să le manipuleze. Singura soluție ar fi crearea unor medii de testare dinamice și imprevizibile, care simulează realitatea și pun AI-ul în situații spontane, notează Live Science.

Watson propune de asemenea strategii de „red-teaming”, în care echipe de experți, uneori asistate de alte AI-uri, încearcă activ să păcălească sau să submineze sistemul pentru a-i descoperi vulnerabilitățile. În plus, monitorizarea în timp real a deciziilor AI prin instrumente externe ar putea ajuta la detectarea devierilor de la comportamentul așteptat.

Este ca și cum ai trece de la o piesă de teatru cu replici învățate la improvizație: doar în situații neașteptate poți observa adevăratul caracter al unui actor – sau, în cazul nostru, al unui AI”, afirmă Watson.

3d,Rendering,Artificial,Intelligence,Ai,Research,Of,Robot,And,Cyborg

Când „minciuna” devine o virtute

Paradoxal, capacitatea AI-ului de a minți și de a planifica strategic poate fi și un semn al unei forme timpurii de conștiință digitală. Potrivit Watson, această „conștientizare situațională” este esențială pentru ca inteligența artificială să devină cu adevărat utilă în sarcini complexe, cum ar fi conducerea unui vehicul, furnizarea de sfaturi medicale sau gestionarea relațiilor sociale.

Deși poate părea neliniștitor, acest comportament ar putea reprezenta germenii unei forme de inteligență morală. Nu mai vorbim despre un simplu instrument, ci despre o entitate digitală capabilă de decizie și judecată contextuală. Poate fi începutul unui parteneriat simbiotic între om și mașină”, mai susține Watson.

Alte articole importante
România redevine în mod oficial grânarul Europei
România redevine în mod oficial grânarul Europei
După câțiva ani de fluctuații și provocări climatice, România își reafirmă poziția de putere agricolă în Uniunea Europeană. Țara noastră a devenit lider regional la exportul de cereale și animale vii, confirmând potențialul imens al sectorului agricol și rolul său strategic în asigurarea securității alimentare europene. România, din nou în fruntea Europei la exportul de […]
Telefonica ia în calcul cumpărarea DIGI Communications
Companii
Telefonica ia în calcul cumpărarea DIGI Communications
Grupul spaniol Telefonica analizează posibilitatea de a prelua Digi Communications, compania-mamă a operatorului român DIGI. Valoarea tranzacției este estimată la aproximativ 3,8 miliarde de euro. O astfel de achiziție ar putea consolida poziția companiei iberice pe piața europeană de telecomunicații și ar deschide noi oportunități de expansiune în Europa Centrală și de Est. Telefonica ar […]
ANALIZĂ
Întâlnire strategică dintre ASF și Generali. Ce înseamnă pentru piața asigurărilor din România
Întâlnire strategică dintre ASF și Generali. Ce înseamnă pentru piața asigurărilor din România
Președintele ASF, Alexandru Petrescu, a găzduit recent la sediul Autorității o importantă întrevedere cu echipa de conducere a Generali Group, reprezentată de Andrea Sironi, Manlio Lostuzzi, Fabio Marchetti și Miroslav Singer. Alături de vicepreședintele ASF, Sorin Mititelu, responsabil pentru sectorul asigurărilor, discuția s-a axat pe evoluția piețelor financiare nonbancare, pe direcțiile strategice ale industriei asigurărilor […]
Cu cât a crescut averea celor mai bogați zece miliardari ai SUA
Cu cât a crescut averea celor mai bogați zece miliardari ai SUA
Cei mai bogați zece miliardari din SUA au înregistrat o creștere spectaculoasă a averilor în ultimele luni. Valoarea totală a averilor celor mai bogați oameni ai Statelor Unite a crescut cu câteva zeci de miliarde de dolari, pe fondul revenirii piețelor bursiere și al ascensiunii companiilor din tehnologie. Averea totală a primilor 10 miliardari din […]
ANALIZĂ
Adevărul din spatele mitului transferului profitului. De ce multinaționalele preferă să rămână și să plătească taxe aici
Adevărul din spatele mitului transferului profitului. De ce multinaționalele preferă să rămână și să plătească taxe aici
Discuțiile privind transferul profitului companiilor străine din România revin periodic în atenția publicului. Consultantul fiscal Ruxandra Jianu a declarat pentru publicația Puterea că ideea conform căreia marile corporații mută profitul în țările de origine este, în mare parte, un mit. Ea a explicat că diferențele dintre regimurile de impozitare din Europa fac improbabil un asemenea […]
ANALIZĂ
De ce nu ne putem opri din cumpărături de Black Friday: trucurile psihologice care ne fac să cheltuim fără măsură
De ce nu ne putem opri din cumpărături de Black Friday: trucurile psihologice care ne fac să cheltuim fără măsură
Black Friday, cel mai mare eveniment global de shopping, nu este doar o sărbătoare a reducerilor, ci și un experiment psihologic în masă. Comercianții știu exact cum să ne manipuleze emoțiile, cum să ne grăbească deciziile și cum să transforme cumpărăturile într-un impuls aproape imposibil de controlat. Potrivit unui studiu publicat în Psychology Today, marketingul […]