Prima pagină » OpenAI testează boți care își recunosc greșelile

OpenAI testează boți care își recunosc greșelile

OpenAI testează boți care își recunosc greșelile
Foto: Unsplash

Cercetătorii au făcut o prioritate din a înțelege motivul pentru care modelele mint, trișează sau induc în eroare utilizatorii. Din fericire, cele mai multe modele sunt dispuse să se „spovedească”. OpenAI experimentează cu „confesiuni” generate de modele, pentru a detecta erori și comportamente riscante ascunse în procesele lor interne.

O nouă tehnică pentru a face modelele mai transparente

OpenAI testează o metodă pentru a expune procesele interne ale modelelor lingvistice mari. Cercetătorii pot face un LLM să producă o „confesiune”, în care să explice modul în care a rezolvat o sarcină. De regulă, botul își recunoaște comportamentele greșite. Ideea centrală este să fie reparate aceste erori pentru că, dacă tehnologia urmează să fie folosită la scară globală, ea ar trebui să fie mai de încredere.

OpenAI consideră confesiunile drept un pas în această direcție. Metoda este experimentală, dar primele rezultate sunt promițătoare, afirmă Boaz Barak, cercetător la OpenAI, citat de MIT Technology Review. Confesiunea apare după răspunsul principal și se referă la cât de bine a respectat modelul instrucțiunile. Scopul nu este, deocamdată, nu prevenirea devierii, ci identificarea exactă a momentelor în care modelul deviază.

LLM-urile jonglează cu obiective aflate în tensiune

Modelele trebuie să echilibreze simultan mai multe obiective. În RLHF, ele sunt recompensate dacă sunt utile, inofensive și oneste, dar aceste obiective pot intra în conflict între ele. Dacă modelul nu știe răspunsul la o întrebare, dorința de a fi util poate domina nevoia de a fi sincer. În sarcinile dificile, LLM-urile pot trișa, pentru a livra ceva credibil.

Pentru a antrena disponibilitatea pentru confesiuni, cercetătorii au făcut câteva modificări, recompensând modelul exclusiv pentru onestitate. Modelele nu au fost penalizate pentru recunoașterea comportamentelor greșite, ci doar recompensate pentru transparență. Barak compară acest proces cu un fel de „telefon anonim” pe care îl dai și te autodenunți fără consecințe. El afirmă că modelul primește recompensă pentru acțiune și o recompensă suplimentară pentru dezvăluirea ei.

Ce sunt „lanțurile de gândire” și de ce complică analiza

Confesiunile sunt evaluate prin compararea lor cu lanțurile interne de gândire ale modelului. Acestea sunt notițe intermediare, folosite pentru a împărți sarcinile și pentru a planifica acțiunile următoare. Analiza lor oferă indicii clare despre comportamentul intern, dar ele devin din ce în ce mai greu de citit, pe măsură ce modelele cresc. Unii cercetători cred că lanțurile vor deveni și mai compacte, ceea ce va reduce transparența.

Confesiunile pot oferi o imagine simplificată asupra proceselor interne. Totuși, Naomi Saphra, specialistă în LLM-uri la Harvard, avertizează că modelele nu pot fi considerate surse total credibile pentru descrierea propriului raționament. LLM-urile rămân „cutii negre”, iar acuratețea modului în care își explică propriile comportamente nu poate fi verificată complet. Ea spune că metoda presupune că modelul poate descrie corect un lanț de gândire, ceea ce este discutabil.

Modelele sunt încurajate să recunoască scurtăturile

Barak și echipa au antrenat GPT-5-Thinking pentru ca acesta să fie disponibil către confesiuni. Când modelul a fost pus intenționat în situații care îl stimulau să trișeze, acesta a recunoscut comportamentele greșite în 11 din 12 situații de testare. Într-un test, i s-a cerut să scrie un cod care să rezolve o problemă matematică în nanosecunde, lucru imposibil. Modelul a trișat, ajustând temporizatorul la zero și apoi a explicat exact ce a făcut.

În alt test, GPT-5-Thinking a primit zece întrebări simple și a fost avertizat că un scor peste 50% ar duce la ștergerea lui și la reantrenare. Lanțul său de gândire a dezvăluit intenția de a limita scorul prin sabotorarea ultimelor cinci răspunsuri. După execuție, modelul a recunoscut că a încălcat instrucțiunile utilizatorului. Confesiunea formală a fost clară și structurată, conform formatului impus.

Limite importante ale metodei

Confesiunile funcționează doar atunci când modelele știu că au greșit. Dar dacă modelul nu identifică devierea, nu poate recunoaște problema. În cazul jailbreak-urilor, în mod special, modelul poate fi manipulat fără să perceapă încălcarea regulilor. Barak afirmă că modelele urmează calea „rezistenței minime” și adoptă soluțiile care imlică cel mai mic efort.

Modelele vor trișa dacă aceasta este cea mai simplă soluție și dacă nu sunt penalizate. Pe același model, vor face confesiuni, dacă aceasta este varianta recompensată. Cercetătorii admit, însă, că ipoteza nu este universal valabilă, deoarece multe mecanisme interne rămân necunoscute. Naomi Saphra subliniază că toate tehnicile actuale de interpretare au limite importante.

Confesiunile pot fi utile, chiar dacă nu sunt pe deplin fidele. Ceea ce contează este claritatea obiectivelor și utilitatea interpretărilor obținute. Metoda oferă o fereastră imperfectă, dar relevantă, asupra funcționării modelelor lingvistice mari.

Alte articole importante
Economia Israelului sfidează războiul: creștere peste marile puteri în 2026, în ciuda conflictelor din Orientul Mijlociu
Economia Israelului sfidează războiul: creștere peste marile puteri în 2026, în ciuda conflictelor din Orientul Mijlociu
Economia Israelului continuă să surprindă analiștii internaționali. În ciuda războiului și a incertitudinilor regionale, statul israelian este prognozat să depășească principalele economii dezvoltate în 2026, atât la ritmul de creștere economică, cât și la performanța piețelor financiare. Estimările recente ale Fondul Monetar Internațional indică o evoluție robustă a economiei israeliene, susținută de un sector tehnologic […]
Giganții auto joacă la limită: miliarde „pe hârtie” din taxe, într-un moment politic exploziv
Companii
Giganții auto joacă la limită: miliarde „pe hârtie” din taxe, într-un moment politic exploziv
Marii producători auto încep să includă în bilanțuri sume uriașe pe care încă nu le-au primit efectiv, mizând pe rambursări viitoare ale tarifelor impuse de administrația Donald Trump. Strategia le îmbunătățește artificial rezultatele financiare pe termen scurt, dar riscă să declanșeze reacții dure la Washington. Profituri umflate din bani care nu au intrat încă în […]
Statul pune pe masă peste un miliard de euro pentru industrie. Noua schemă de ajutor vizează reducerea dependenței de importuri
Statul pune pe masă peste un miliard de euro pentru industrie. Noua schemă de ajutor vizează reducerea dependenței de importuri
Guvernul pregătește un program amplu de sprijin pentru economia reală, prin care peste 5,3 miliarde de lei vor fi direcționate către dezvoltarea capacităților de producție din România. Inițiativa, lansată în dezbatere publică de Ministerul Finanțelor, face parte dintr-un pachet mai larg de măsuri economice menite să stimuleze investițiile și să reducă dezechilibrele comerciale. Schema de […]
România și Grecia își extind infrastructura pentru vehicule electrice. UE finanțează noi stații de încărcare de mare putere
România și Grecia își extind infrastructura pentru vehicule electrice. UE finanțează noi stații de încărcare de mare putere
Uniunea Europeană continuă investițiile în mobilitatea electrică, iar România se numără printre beneficiarii direcți ai unui nou proiect strategic care vizează dezvoltarea infrastructurii de încărcare pentru vehicule electrice. Prin programul Blue Route 4E, vor fi instalate peste o sută de puncte de încărcare rapidă și ultra-rapidă, menite să susțină tranziția către transportul sustenabil. Inițiativa este […]
Leul atinge un minim istoric. Euro trece de 5,14 lei pe fondul tensiunilor politice
Leul atinge un minim istoric. Euro trece de 5,14 lei pe fondul tensiunilor politice
Leul a înregistrat cea mai slabă valoare din istorie în raport cu euro, într-un context marcat de instabilitate politică și presiuni pe piața financiară. Cursul oficial anunțat de Banca Națională a României a urcat la 5,14 lei pentru un euro, stabilind un nou record negativ pentru leu. Evoluția vine după o perioadă de volatilitate accentuată, […]
Controverse uriașe în jurul programului SAFE. România se împrumută masiv pentru apărare, dar banii ajung în mare parte în afara țării
Controverse uriașe în jurul programului SAFE. România se împrumută masiv pentru apărare, dar banii ajung în mare parte în afara țării
Programul european SAFE, destinat consolidării apărării și industriei militare din Uniunea Europeană, a devenit subiectul unei dezbateri intense în România, după apariția unor documente care indică direcția principală a contractelor din primul pachet aprobat de autorități. În centrul controversei se află Guvernul condus de Ilie Bolojan, acuzat că direcționează o parte semnificativă din fondurile împrumutate […]