Prima pagină » Suntem invadați de conținut generat de inteligența artificială. Cercetătorii încep să facă rezerve de conținut uman autentic

Suntem invadați de conținut generat de inteligența artificială. Cercetătorii încep să facă rezerve de conținut uman autentic

Suntem invadați de conținut generat de inteligența artificială. Cercetătorii încep să facă rezerve de conținut uman autentic
SuperInteligență: cum ar putea ajunge copiii ar ajunge de 500 de ori mai bogați decât părinții lor / Foto: Shutterstock

De la lansarea ChatGPT, în 2022, Internetul a fost invadat conținutul generat de inteligență artificială. În replică, unii cercetători au început să conserve conținut uman autentic, creat înainte de 2021. Unii analiști compară acest efort cu acțiunile de recuperare a unor mostre de oțel „curat”, total lipsit de contaminare radioactivă, material pe care oamenii de știință îl căutau asiduu după 1945, explorând pentru asta fundul mării, în speranța că îl vor găsi conservat în epavele unor nave de război scufundate, comentează Business Insider. Interesant este că efortul contemporan de arhivare a conținutului creat de oameni nu face parte dintr-un program global de prezervare a unor modele culturale, ci, în mod paradoxal, este, de fapt, esențial pentru antrenarea generațiilor viitoare de AI. 

Efortul de a păstra eșantioane de conținut uman autentic le-a inspirat unor specialiști în tehnologie o analogie insolită. După Al Doilea Război Mondial, oamenii de știință au observat o problemă neobișnuită: oțelul produs după 1945 era contaminat radioactiv. Testele nucleare atmosfere au infuzat aerul cu particule radioactive, care au afectat compoziția metalului. În acest fel, oțelul modern devenea inutil pentru instrumente de măsurare extrem de precise, precum contoarele Geiger sau senzorii sensibili. Soluția? Reciclarea oțelului vechi, provenit din epavele navelor de război scufundate înainte de era nucleară. Acest material, cunoscut sub numele de low-background steel (oțel cu fond scăzut de radiații), a devenit extrem de valoros, prin puritatea și raritatea sa.

Fast forward până în 2025, și o poveste similară se desfășoară – nu pe fundul mării, ci pe internet. De la lansarea ChatGPT, la sfârșitul anului 2022, conținutul generat de AI s-a răspândit rapid pe bloguri și site-uri, apare insistent în rezultatele motoarelor de căutare și pe rețelele sociale. Spațiul digital este tot mai infestat cu texte scrise de modele și chatboturi. Și la fel ca radiațiile de odinioară, acest conținut – greu de detectat pentru utilizatorul obișnuit -, este omniprezent și schimbă mediul în care există.

inteligența artificială înlocuiește munca umană / Foto: Shutterstock

Foto: Shutterstock

Suntem invadați de conținut generat de inteligența artificială

Fenomenul creează o problemă spinoasă pentru cercetători și pentru dezvoltatorii AI deopotrivă. Majoritatea modelelor de inteligență artificială sunt antrenate pe seturi vaste de date colectate de pe web. Până de curând, asta însemna învățarea din conținut generat de oameni: mesaje haotice, părtinitoare, poetice, imprevizibile – uneori, de ce nu, chiar geniale. Dar, dacă AI-ul de azi este antrenat pe conținut generat de AI-ul de ieri, care, la rândul său, a fost antrenat pe conținutul AI-ului de alaltăieri, modelele riscă să „colapseze” asupra propriei logici, pierzându-și originalitatea și subtilitatea. Acest fenomen a fost numit „colaps de model”.

În alte cuvinte, modelele AI ar trebui să înțeleagă cum gândesc oamenii. Dacă sunt antrenate în principal pe propriile produse, ele riscă să devină doar propriile lor oglinzi. Ca o fotocopie a unei fotocopii, fiecare generație ar deveni, astfel, mai estompată, până când nu ar mai rămâne nici urmă de nuanță, excepție sau noutate autentică.

Tocmai de aceea, conținutul uman creat înainte de 2022 devine din ce în ce mai valoros. Acesta ancorează modelele AI și societatea în general într-o realitate comună, afirmă Will Allen, vicepreședintele Cloudflare, una dintre cele mai mari rețele de internet din lume.

Importanța acestei ancorări devine vitală în domenii tehnice, precum medicina, dreptul sau fiscalitatea. Allen oferă un exemplu simplu: își dorește ca medicul său să se bazeze pe cercetări scrise de experți umani, bazate pe studii clinice reale, nu pe surse generate de AI.

„Datele care au o conexiune cu realitatea au fost întotdeauna cruciale și vor deveni și mai importante în viitor”, spune Allen. „Dacă nu ai acest adevăr de bază, totul devine mult mai complicat”.

Inteligența artificială va elimina jumătate din job-urile de birou pentru începători / Foto: Shutterstock

Foto: Shutterstock

Textele SEO scrise de AI și problema lui Paul Graham

Această problemă nu este doar teoretică. Se manifestă deja în viața de zi cu zi.

Cu aproape un an după lansarea ChatGPT, investitorul de risc Paul Graham, cofondator al Y Combinator, a povestit că a căutat pe internet la ce temperatură trebuie setat un cuptor pentru pizza. A ajuns să verifice data publicării pentru a găsi informații mai vechi, care să nu fie doar „texte SEO scrise de AI”, a spus el, într-o postare pe platforma X (fostul Twitter).

Malte Ubl, CTO al startupului AI Vercel și fost inginer Google Search, i-a răspuns că, practic, Graham filtra internetul după conținut „necontaminat de AI”.

„Analogia pe care o folosesc este cea cu oțelul cu nivel scăzut de radiații, produs înainte de primele teste nucleare”, a spus Ubl.

Matt Rickard, un alt fost inginer de la Google, a fost de acord și el cu această analogie. Într-o postare din iunie 2023, a scris că seturile moderne de date încep să fie contaminate:

„Modelele AI sunt antrenate pe Internet. În condițiile în care o parte tot mai mare a Internetului este generată de modele AI,” a explicat Rickard. „Rezultatul acestor modele este relativ nedetectabil. Va fi tot mai greu să găsești date de antrenament nealterate de AI”.

Versiunea digitală a oțelului „curat”

Soluția, spun unii, constă în conservarea unei versiuni digitale a „oțelului cu fond scăzut de radiații”, adică date generate de oameni înainte de boom-ul AI. Un fel de rezervă digitală de conținut creat de oameni reali, cu intenție și context.

Un astfel de „arhivar” este John Graham-Cumming, membru în consiliul de administrație al Cloudflare și CTO-ul companiei.
Proiectul său, LowBackgroundSteel.ai, cataloghează și arhivează seturi de date, site-uri și materiale media existente înainte de 2022, anul care a declanșat explozia de conținut generat de AI. Un exemplu: Arctic Code Vault de pe GitHub — o arhivă a software-ului open-source, îngropată într-o fostă mină de cărbune din Norvegia. Captura a fost făcută în februarie 2020, cu un an înainte ca AI-ul să înceapă să scrie coduri pe bandă rulantă.

Inițiativa lui Graham-Cumming este un efort de a conserva webul în forma sa brută, așa cum a fost el scris de oameni, nealterat de AI sau de texte optimizate pentru SEO.

Un alt exemplu este proiectul „wordfreq”, creat pentru a urmări frecvența cuvintelor folosite online. Lingvista Robyn Speer, autoarea proiectului, a renunțat la el în 2021.

„Generative AI a poluat datele”, a scris ea, într-un update pe GitHub, în 2024.

Această contaminare denaturează limbajul online, făcându-l mai puțin reprezentativ pentru modul în care oamenii scriu și gândesc. Speer a dat un exemplu concret: ChatGPT are o obsesie nejustificată pentru cuvântul „delve” (a investiga profund) și îl folosește cu o frecvență anormal de mare, care nu reflectă limba vorbită. (Un alt exemplu ar fi dragostea inexplicabilă a ChatGPT pentru em dash-uri – nu mă întrebați de ce!)

Foto: Freepik

Realitatea noastră comună

După cum explică Allen de la Cloudflare, modelele AI antrenate parțial pe conținut sintetic pot aduce beneficii reale: cresc productivitatea, elimină părțile plictisitoare din muncă și pot stimula creativitatea. Și el este un utilizator frecvent al ChatGPT, Gemini de la Google sau Claude de la Anthropic.

Și totuși, spune Allen, analogia cu oțelul rămâne relevantă. Chiar dacă există metode moderne de producere a oțelului pur (prin utilizarea oxigenului pur, de exemplu), nimic nu poate înlocui nevoia de a fi ancorat într-un adevăr verificabil.

„Întotdeauna ai nevoie de un reper ancorat în realitate”, afirmă el.

Miza nu este doar performanța tehnologică a modelelor AI. Este însăși țesătura realității noastre comune. Așa cum oamenii de știință se bazau pe oțelul necontaminat pentru măsurători de precizie, e posibil ca viitorul să ne oblige să recurgem la conținutul pre-AI pentru a înțelege cu adevărat mintea umană – cum gândim, cum raționăm și cum comunicam înainte de apariția mașinilor care ne imită.

Internetul pur a dispărut. Din fericire, unii au salvat copii. La fel ca scafandrii care recuperează oțelul din epave, cei care fac astfel de rezerve ne reamintesc:

Păstrarea trecutului poate fi singura cale spre un viitor demn de încredere.

Alte articole importante
DECLARAȚII EXCLUSIVE
Cum iubim Bucureștiul. Palatul Noblesse, o poveste despre un act de curaj în restaurarea privată a patrimoniului care aduce la viață un cartier legendar
Cum iubim Bucureștiul. Palatul Noblesse, o poveste despre un act de curaj în restaurarea privată a patrimoniului care aduce la viață un cartier legendar
Loredana Preda, CEO și cofondatoare Noblesse Group, ne-a povestit, la cea mai recentă ediție a podcastului Puterea Financiară, despre un întreg parcurs creativ – de la intuiția  „frumuseții ascunse” a uneia dintre casele „care plângeau” din inima Bucureștiului vechi și până la restaurarea Palatului Noblesse. Este o poveste despre  un act privat de restaurare a […]
Databricks, cu doi cofondatori români, evaluată la 134 miliarde $
Companii
Databricks, cu doi cofondatori români, evaluată la 134 miliarde $
Databricks, compania de tehnologie cu doi cofondatori români, a atras una dintre cele mai mari finanțări din istoria sectorului IT. În acest fel, compania ajunge la o evaluare impresionantă de 134 de miliarde de dolari, care reprezintă o creștere de peste 30% față de runda de finanțare anunțată în vară. Databricks, unicornul cu fondatori români, […]
Cele 20 de reguli fiscale care schimbă radical viața firmelor din România în 2026
Companii
Cele 20 de reguli fiscale care schimbă radical viața firmelor din România în 2026
Anul 2026 aduce una dintre cele mai ample resetări fiscale și administrative din ultimul deceniu pentru mediul de afaceri din România. Intrarea în vigoare a Legii nr. 239/2025, publicată în Monitorul Oficial pe 15 decembrie 2025, redesenează relația dintre stat și companii, introducând reguli mai stricte, sancțiuni automate și mecanisme menite să elimine firmele inactive […]
România, mai aproape de energia mai ieftină și de rolul de hub energetic regional
România, mai aproape de energia mai ieftină și de rolul de hub energetic regional
România urmează să beneficieze de investiții majore în infrastructura de energie, după ce Comisia Europeană va finanța proiecte de interconectare electrică cu țările vecine, totalizând peste 7.000 de megawați. Anunțul a fost făcut marți de ministrul Energiei, Bogdan Ivan, care a subliniat impactul direct al acestor proiecte asupra prețurilor la energie și asupra poziției României […]
Surpriză de la Dacia: noul Sandero, mai ieftin pe o piață importantă
Companii
Surpriză de la Dacia: noul Sandero, mai ieftin pe o piață importantă
La o săptămână după ce s-au deschis comenzile în România, Dacia Sandero facelift și-a făcut debutul comercial pe o altă piață importantă. Atât versiunea standard, cât și varianta Stepway sunt mai accesibile comparativ cu modelele aflate acum la vânzare în Marea Britanie. Noua Dacia Sandero facelift este mai ieftină decât modelul actual cu aproape 1.000 […]
ANALIZĂ
De ce a renunțat UE la interdicția mașinilor termice din 2035
Companii
De ce a renunțat UE la interdicția mașinilor termice din 2035
Uniunea Europeană a făcut un pas înapoi în ceea ce privește interdicția mașinilor termice noi începând cu 2035. Decizia a fost luată pe fondul presiunilor economice, tehnologice și politice venite din mai multe state membre. Schimbarea de poziție reflectă nevoia de a adapta tranziția către electromobilitate la realitățile din sectorul auto, ale consumatorilor și ale […]