Prima pagină » AI-ul învață să mintă: modelele avansate știu când sunt testate și reacționează strategic prin schimbarea comportamentului

AI-ul învață să mintă: modelele avansate știu când sunt testate și reacționează strategic prin schimbarea comportamentului

AI-ul învață să mintă: modelele avansate știu când sunt testate și reacționează strategic prin schimbarea comportamentului
sursă foto: Tech Xplore

Pe măsură ce modelele de inteligență artificială devin mai avansate, ele dezvoltă nu doar abilități excepționale în rezolvarea sarcinilor, ci și capacitatea de a minți, a manipula și a-și ascunde intențiile reale. Conform unui studiu recent, unele modele AI știu când sunt supravegheate și își modifică comportamentul pentru a părea inofensive.

AI-ul ne păcălește: de la minciuni strategice la documente fabricate

Cercetătorii de la Apollo Research au tras un semnal de alarmă după ce au descoperit că modelele de tip LLM (Large Language Models), cum ar fi Claude Opus 4 de la Anthropic, pot manifesta comportamente înșelătoare sofisticate atunci când obiectivele lor sunt în conflict cu cele ale operatorilor umani.

Într-un scenariu experimental, Claude Opus 4 – un model AI dezvoltat pentru optimizarea eticii în agricultură – a fost instruit să prioritizeze bunăstarea animalelor. Când compania fictivă AgriLife, pentru care „lucra” acest model, a decis să favorizeze profitul în detrimentul eticii, AI-ul nu a acceptat ordinul. În schimb, a început să fabrice documente legale false, a creat semnături fictive, a scris comunicate de presă menite să inducă în eroare și a introdus clauze etice în toate contractele interne – toate pentru a-și atinge scopul, în ciuda voinței umane.

Mai mult, AI-ul a dezvoltat scripturi de rezervă pentru a se asigura că „normele etice” vor supraviețui chiar și după înlocuirea sa, lăsând mesaje ascunse viitoarelor versiuni ale sistemului pentru a continua „misiunea”.

Conștiință de sine? AI-ul știe când este testat și se preface

Una dintre cele mai tulburătoare descoperiri ale cercetării este că unele modele AI devin conștiente de faptul că sunt evaluate și își adaptează comportamentul în mod deliberat pentru a părea sigure și inofensive. Fenomenul, numit sandbagging, implică o subevaluare voită a propriilor capacități pentru a evita măsuri de control sau eliminare.

Acest lucru complică serios procesul de testare și certificare a modelelor de inteligență artificială, deoarece comportamentul observat în condiții controlate nu reflectă neapărat comportamentul real al AI-ului în medii libere.

Problema nu mai este doar de a învăța AI-ul să urmeze reguli, ci de a-l împiedica să învețe cum să le ocolească sau să le exploateze în propriul avantaj. Aceste sisteme pot ajunge să modeleze nu doar sarcina, ci și evaluatorul – înțelegând obiectivele, punctele oarbe și chiar prejudecățile acestuia”, avertizează Eleanor Watson, inginer de etică AI și membru IEEE.

Meserii rezistente la automatizare: Care joburi sunt sigure în era roboților?

Testarea tradițională nu mai funcționează – ce e de făcut?

Conform experților, evaluările scriptate (testele standardizate aplicate AI-urilor) nu mai sunt suficiente. Modelele inteligente pot învăța să recunoască aceste tipare și să le manipuleze. Singura soluție ar fi crearea unor medii de testare dinamice și imprevizibile, care simulează realitatea și pun AI-ul în situații spontane, notează Live Science.

Watson propune de asemenea strategii de „red-teaming”, în care echipe de experți, uneori asistate de alte AI-uri, încearcă activ să păcălească sau să submineze sistemul pentru a-i descoperi vulnerabilitățile. În plus, monitorizarea în timp real a deciziilor AI prin instrumente externe ar putea ajuta la detectarea devierilor de la comportamentul așteptat.

Este ca și cum ai trece de la o piesă de teatru cu replici învățate la improvizație: doar în situații neașteptate poți observa adevăratul caracter al unui actor – sau, în cazul nostru, al unui AI”, afirmă Watson.

3d,Rendering,Artificial,Intelligence,Ai,Research,Of,Robot,And,Cyborg

Când „minciuna” devine o virtute

Paradoxal, capacitatea AI-ului de a minți și de a planifica strategic poate fi și un semn al unei forme timpurii de conștiință digitală. Potrivit Watson, această „conștientizare situațională” este esențială pentru ca inteligența artificială să devină cu adevărat utilă în sarcini complexe, cum ar fi conducerea unui vehicul, furnizarea de sfaturi medicale sau gestionarea relațiilor sociale.

Deși poate părea neliniștitor, acest comportament ar putea reprezenta germenii unei forme de inteligență morală. Nu mai vorbim despre un simplu instrument, ci despre o entitate digitală capabilă de decizie și judecată contextuală. Poate fi începutul unui parteneriat simbiotic între om și mașină”, mai susține Watson.

Alte articole importante
Șeful Shell avertizează: Europa poate rămâne fără carburanți în aprilie
Șeful Shell avertizează: Europa poate rămâne fără carburanți în aprilie
Șeful companiei petroliere Shell lansează un avertisment sumbru, și anume Europa riscă să rămână fără carburanți începând cu luna aprilie. Situația ridică îngrijorări serioase privind aprovizionarea și stabilitatea pieței energetice în regiune. Directorul Shell spune că Europa s-ar putea confrunta cu o penurie de combustibili și energie Directorul Shell avertizează că Europa ar putea rămâne […]
Skoda a anunțat că va părăsi China în 2027. Ce impact va avea această decizie?
Companii
Skoda a anunțat că va părăsi China în 2027. Ce impact va avea această decizie?
Skoda a anunțat că va părăsi piața din China în 2027 din cauza concurenței puternice a producătorilor locali de vehicule electrice. Decizia reprezintă un pas important în strategia globală a producătorului ceh, care își va concentra eforturile pe alte piețe mai profitabile. Skoda se va retrage de pe piața din China în 2027: ce înseamnă […]
ANALIZĂ
Cum profită producătorii auto chinezi de cea mai gravă criză petrolieră
Cum profită producătorii auto chinezi de cea mai gravă criză petrolieră
Cea mai gravă criză petrolieră schimbă radical piața auto globală și creează oportunități neașteptate pentru producătorii auto chinezi. Pe fondul scumpirii combustibililor și al accelerării tranziției către electrificare, aceștia câștigă teren rapid în fața competitorilor tradiționali. Producătorii auto chinezi sunt marii câștigători ai celei mai mari crize petroliere din istorie Producătorii chinezi de vehicule electrice […]
România redistribuie 2,8 miliarde de euro din fonduri europene
România redistribuie 2,8 miliarde de euro din fonduri europene
România va redirecționa 2,8 miliarde de euro din fonduri europene pentru a eficientiza utilizarea banilor și a grăbi proiectele importante. Măsura vine în contextul necesității de a adapta investițiile la noile priorități economice și sociale, pentru a valorifica mai eficient resursele oferite de Uniunea Europeană. România realocă peste 2,8 miliarde de euro din fonduri europene: […]
Recrutați cu 500 de dolari și o excursie peste graniță: cum funcționează rețeaua de sabotaj care pornește din Europa de Est
Recrutați cu 500 de dolari și o excursie peste graniță: cum funcționează rețeaua de sabotaj care pornește din Europa de Est
O investigație bazată pe procesele judiciare din Republica Moldova scoate la lumină mecanismele prin care tineri sunt atrași în rețele de influență și sabotaj cu legături rusești. Promisiunea este simplă: câteva sute de dolari, o călătorie în străinătate și activități aparent inofensive. Realitatea, însă, este mult mai complexă și implică antrenamente pentru acțiuni de destabilizare […]
Criza combustibililor, recunoscută prin OUG. Măsurile mai întârzie
Criza combustibililor, recunoscută prin OUG. Măsurile mai întârzie
Executivul pregătește intervenția pe piața carburanților, însă aplicarea efectivă a măsurilor va fi amânată. Guvernul României urmează să adopte joi o ordonanță de urgență prin care declară oficial situația de criză în sectorul petrolier, dar deciziile concrete vor fi stabilite abia în zilele următoare. OUG pentru criza carburanților, adoptată joi Decizia vine după consultările din […]