Prima pagină » Suntem invadați de conținut generat de inteligența artificială. Cercetătorii încep să facă rezerve de conținut uman autentic

Suntem invadați de conținut generat de inteligența artificială. Cercetătorii încep să facă rezerve de conținut uman autentic

Suntem invadați de conținut generat de inteligența artificială. Cercetătorii încep să facă rezerve de conținut uman autentic
SuperInteligență: cum ar putea ajunge copiii ar ajunge de 500 de ori mai bogați decât părinții lor / Foto: Shutterstock

De la lansarea ChatGPT, în 2022, Internetul a fost invadat conținutul generat de inteligență artificială. În replică, unii cercetători au început să conserve conținut uman autentic, creat înainte de 2021. Unii analiști compară acest efort cu acțiunile de recuperare a unor mostre de oțel „curat”, total lipsit de contaminare radioactivă, material pe care oamenii de știință îl căutau asiduu după 1945, explorând pentru asta fundul mării, în speranța că îl vor găsi conservat în epavele unor nave de război scufundate, comentează Business Insider. Interesant este că efortul contemporan de arhivare a conținutului creat de oameni nu face parte dintr-un program global de prezervare a unor modele culturale, ci, în mod paradoxal, este, de fapt, esențial pentru antrenarea generațiilor viitoare de AI. 

Efortul de a păstra eșantioane de conținut uman autentic le-a inspirat unor specialiști în tehnologie o analogie insolită. După Al Doilea Război Mondial, oamenii de știință au observat o problemă neobișnuită: oțelul produs după 1945 era contaminat radioactiv. Testele nucleare atmosfere au infuzat aerul cu particule radioactive, care au afectat compoziția metalului. În acest fel, oțelul modern devenea inutil pentru instrumente de măsurare extrem de precise, precum contoarele Geiger sau senzorii sensibili. Soluția? Reciclarea oțelului vechi, provenit din epavele navelor de război scufundate înainte de era nucleară. Acest material, cunoscut sub numele de low-background steel (oțel cu fond scăzut de radiații), a devenit extrem de valoros, prin puritatea și raritatea sa.

Fast forward până în 2025, și o poveste similară se desfășoară – nu pe fundul mării, ci pe internet. De la lansarea ChatGPT, la sfârșitul anului 2022, conținutul generat de AI s-a răspândit rapid pe bloguri și site-uri, apare insistent în rezultatele motoarelor de căutare și pe rețelele sociale. Spațiul digital este tot mai infestat cu texte scrise de modele și chatboturi. Și la fel ca radiațiile de odinioară, acest conținut – greu de detectat pentru utilizatorul obișnuit -, este omniprezent și schimbă mediul în care există.

inteligența artificială înlocuiește munca umană / Foto: Shutterstock

Foto: Shutterstock

Suntem invadați de conținut generat de inteligența artificială

Fenomenul creează o problemă spinoasă pentru cercetători și pentru dezvoltatorii AI deopotrivă. Majoritatea modelelor de inteligență artificială sunt antrenate pe seturi vaste de date colectate de pe web. Până de curând, asta însemna învățarea din conținut generat de oameni: mesaje haotice, părtinitoare, poetice, imprevizibile – uneori, de ce nu, chiar geniale. Dar, dacă AI-ul de azi este antrenat pe conținut generat de AI-ul de ieri, care, la rândul său, a fost antrenat pe conținutul AI-ului de alaltăieri, modelele riscă să „colapseze” asupra propriei logici, pierzându-și originalitatea și subtilitatea. Acest fenomen a fost numit „colaps de model”.

În alte cuvinte, modelele AI ar trebui să înțeleagă cum gândesc oamenii. Dacă sunt antrenate în principal pe propriile produse, ele riscă să devină doar propriile lor oglinzi. Ca o fotocopie a unei fotocopii, fiecare generație ar deveni, astfel, mai estompată, până când nu ar mai rămâne nici urmă de nuanță, excepție sau noutate autentică.

Tocmai de aceea, conținutul uman creat înainte de 2022 devine din ce în ce mai valoros. Acesta ancorează modelele AI și societatea în general într-o realitate comună, afirmă Will Allen, vicepreședintele Cloudflare, una dintre cele mai mari rețele de internet din lume.

Importanța acestei ancorări devine vitală în domenii tehnice, precum medicina, dreptul sau fiscalitatea. Allen oferă un exemplu simplu: își dorește ca medicul său să se bazeze pe cercetări scrise de experți umani, bazate pe studii clinice reale, nu pe surse generate de AI.

„Datele care au o conexiune cu realitatea au fost întotdeauna cruciale și vor deveni și mai importante în viitor”, spune Allen. „Dacă nu ai acest adevăr de bază, totul devine mult mai complicat”.

Inteligența artificială va elimina jumătate din job-urile de birou pentru începători / Foto: Shutterstock

Foto: Shutterstock

Textele SEO scrise de AI și problema lui Paul Graham

Această problemă nu este doar teoretică. Se manifestă deja în viața de zi cu zi.

Cu aproape un an după lansarea ChatGPT, investitorul de risc Paul Graham, cofondator al Y Combinator, a povestit că a căutat pe internet la ce temperatură trebuie setat un cuptor pentru pizza. A ajuns să verifice data publicării pentru a găsi informații mai vechi, care să nu fie doar „texte SEO scrise de AI”, a spus el, într-o postare pe platforma X (fostul Twitter).

Malte Ubl, CTO al startupului AI Vercel și fost inginer Google Search, i-a răspuns că, practic, Graham filtra internetul după conținut „necontaminat de AI”.

„Analogia pe care o folosesc este cea cu oțelul cu nivel scăzut de radiații, produs înainte de primele teste nucleare”, a spus Ubl.

Matt Rickard, un alt fost inginer de la Google, a fost de acord și el cu această analogie. Într-o postare din iunie 2023, a scris că seturile moderne de date încep să fie contaminate:

„Modelele AI sunt antrenate pe Internet. În condițiile în care o parte tot mai mare a Internetului este generată de modele AI,” a explicat Rickard. „Rezultatul acestor modele este relativ nedetectabil. Va fi tot mai greu să găsești date de antrenament nealterate de AI”.

Versiunea digitală a oțelului „curat”

Soluția, spun unii, constă în conservarea unei versiuni digitale a „oțelului cu fond scăzut de radiații”, adică date generate de oameni înainte de boom-ul AI. Un fel de rezervă digitală de conținut creat de oameni reali, cu intenție și context.

Un astfel de „arhivar” este John Graham-Cumming, membru în consiliul de administrație al Cloudflare și CTO-ul companiei.
Proiectul său, LowBackgroundSteel.ai, cataloghează și arhivează seturi de date, site-uri și materiale media existente înainte de 2022, anul care a declanșat explozia de conținut generat de AI. Un exemplu: Arctic Code Vault de pe GitHub — o arhivă a software-ului open-source, îngropată într-o fostă mină de cărbune din Norvegia. Captura a fost făcută în februarie 2020, cu un an înainte ca AI-ul să înceapă să scrie coduri pe bandă rulantă.

Inițiativa lui Graham-Cumming este un efort de a conserva webul în forma sa brută, așa cum a fost el scris de oameni, nealterat de AI sau de texte optimizate pentru SEO.

Un alt exemplu este proiectul „wordfreq”, creat pentru a urmări frecvența cuvintelor folosite online. Lingvista Robyn Speer, autoarea proiectului, a renunțat la el în 2021.

„Generative AI a poluat datele”, a scris ea, într-un update pe GitHub, în 2024.

Această contaminare denaturează limbajul online, făcându-l mai puțin reprezentativ pentru modul în care oamenii scriu și gândesc. Speer a dat un exemplu concret: ChatGPT are o obsesie nejustificată pentru cuvântul „delve” (a investiga profund) și îl folosește cu o frecvență anormal de mare, care nu reflectă limba vorbită. (Un alt exemplu ar fi dragostea inexplicabilă a ChatGPT pentru em dash-uri – nu mă întrebați de ce!)

Foto: Freepik

Realitatea noastră comună

După cum explică Allen de la Cloudflare, modelele AI antrenate parțial pe conținut sintetic pot aduce beneficii reale: cresc productivitatea, elimină părțile plictisitoare din muncă și pot stimula creativitatea. Și el este un utilizator frecvent al ChatGPT, Gemini de la Google sau Claude de la Anthropic.

Și totuși, spune Allen, analogia cu oțelul rămâne relevantă. Chiar dacă există metode moderne de producere a oțelului pur (prin utilizarea oxigenului pur, de exemplu), nimic nu poate înlocui nevoia de a fi ancorat într-un adevăr verificabil.

„Întotdeauna ai nevoie de un reper ancorat în realitate”, afirmă el.

Miza nu este doar performanța tehnologică a modelelor AI. Este însăși țesătura realității noastre comune. Așa cum oamenii de știință se bazau pe oțelul necontaminat pentru măsurători de precizie, e posibil ca viitorul să ne oblige să recurgem la conținutul pre-AI pentru a înțelege cu adevărat mintea umană – cum gândim, cum raționăm și cum comunicam înainte de apariția mașinilor care ne imită.

Internetul pur a dispărut. Din fericire, unii au salvat copii. La fel ca scafandrii care recuperează oțelul din epave, cei care fac astfel de rezerve ne reamintesc:

Păstrarea trecutului poate fi singura cale spre un viitor demn de încredere.

Alte articole importante
Paradox la Bursa de Valori București: creștere în ziua căderii Guvernului
Paradox la Bursa de Valori București: creștere în ziua căderii Guvernului
Ziua de 5 mai 2026 a adus o evoluție neașteptată pe piața de capital din România. În timp ce scena politică era zguduită de adoptarea moțiunii de cenzură și căderea Guvernului Bolojan, Bursa de Valori București a închis pe plus, contrar reacțiilor obișnuite din astfel de momente. Principalul indice al Bursei de Valori București, BET, […]
România, la un pas de aderarea la OCDE: 24 din 25 de comitete, deja închise
România, la un pas de aderarea la OCDE: 24 din 25 de comitete, deja închise
România se apropie de finalul unuia dintre cele mai complexe procese de integrare economică internațională, după ce a închis 24 dintre cele 25 de comitete necesare pentru aderarea la OCDE. Anunțul a fost făcut de Luca Niculescu, coordonatorul național al acestui demers, care a subliniat că țara noastră se află în prezent pe primul loc […]
România, pe primul loc la costul real al energiei: povara pe gospodării devine uriașă
România, pe primul loc la costul real al energiei: povara pe gospodării devine uriașă
Prețurile la electricitatea pentru gospodăriile din Uniunea Europeană au rămas relativ stabile în a doua jumătate a anului 2025, însă situația diferă semnificativ de la o țară la alta. Potrivit datelor publicate de Eurostat, media europeană a ajuns la 28,96 euro pentru 100 kWh, ușor peste nivelul de 28,79 euro din prima jumătate a anului. […]
Tranzacție majoră pe piața editorială: Libri-Bookline preia controlul unei edituri cunoscute din România
Companii
Tranzacție majoră pe piața editorială: Libri-Bookline preia controlul unei edituri cunoscute din România
Piața de carte din România a fost luată prin surprindere de o mutare strategică neașteptată. Un jucător important din Ungaria, Libri-Bookline, a decis să intre direct pe piața locală prin achiziția pachetului majoritar al Curtea Veche Publishing, una dintre cele mai cunoscute edituri autohtone. Tranzacția marchează un moment important pentru industria editorială, semnalând interesul investitorilor […]
România, printre țările cu cel mai ridicat risc de sărăcie din Uniunea Europeană
România, printre țările cu cel mai ridicat risc de sărăcie din Uniunea Europeană
Datele publicate de Eurostat pentru anul 2025 arată că România continuă să se confrunte cu un nivel ridicat al riscului de sărăcie și excluziune socială, situându-se printre statele cele mai afectate din Uniunea Europeană. Aproximativ 27,4% din populația României este expusă acestui risc, un procent semnificativ peste media europeană de 20,9%. La nivelul întregii Uniunea […]
Euro atinge un nou maxim istoric în ziua moțiunii. După anunțarea rezultatelor moneda națională a mai pierdut 0,4% în raport cu euro
Piață de Capital - Fonduri
Euro atinge un nou maxim istoric în ziua moțiunii. După anunțarea rezultatelor moneda națională a mai pierdut 0,4% în raport cu euro
Moneda națională continuă să se deprecieze pe fondul tensiunilor politice, iar euro a atins un nou record în raport cu leul chiar în ziua votului asupra moțiunii de cenzură împotriva Guvernului condus de Ilie Bolojan. Potrivit datelor  publicate de BNR pentru data de 5 mai 2026, un euro a fost cotat la 5,2180 lei, cel […]