Prima pagină » Suntem invadați de conținut generat de inteligența artificială. Cercetătorii încep să facă rezerve de conținut uman autentic

Suntem invadați de conținut generat de inteligența artificială. Cercetătorii încep să facă rezerve de conținut uman autentic

Suntem invadați de conținut generat de inteligența artificială. Cercetătorii încep să facă rezerve de conținut uman autentic
SuperInteligență: cum ar putea ajunge copiii ar ajunge de 500 de ori mai bogați decât părinții lor / Foto: Shutterstock

De la lansarea ChatGPT, în 2022, Internetul a fost invadat conținutul generat de inteligență artificială. În replică, unii cercetători au început să conserve conținut uman autentic, creat înainte de 2021. Unii analiști compară acest efort cu acțiunile de recuperare a unor mostre de oțel „curat”, total lipsit de contaminare radioactivă, material pe care oamenii de știință îl căutau asiduu după 1945, explorând pentru asta fundul mării, în speranța că îl vor găsi conservat în epavele unor nave de război scufundate, comentează Business Insider. Interesant este că efortul contemporan de arhivare a conținutului creat de oameni nu face parte dintr-un program global de prezervare a unor modele culturale, ci, în mod paradoxal, este, de fapt, esențial pentru antrenarea generațiilor viitoare de AI. 

Efortul de a păstra eșantioane de conținut uman autentic le-a inspirat unor specialiști în tehnologie o analogie insolită. După Al Doilea Război Mondial, oamenii de știință au observat o problemă neobișnuită: oțelul produs după 1945 era contaminat radioactiv. Testele nucleare atmosfere au infuzat aerul cu particule radioactive, care au afectat compoziția metalului. În acest fel, oțelul modern devenea inutil pentru instrumente de măsurare extrem de precise, precum contoarele Geiger sau senzorii sensibili. Soluția? Reciclarea oțelului vechi, provenit din epavele navelor de război scufundate înainte de era nucleară. Acest material, cunoscut sub numele de low-background steel (oțel cu fond scăzut de radiații), a devenit extrem de valoros, prin puritatea și raritatea sa.

Fast forward până în 2025, și o poveste similară se desfășoară – nu pe fundul mării, ci pe internet. De la lansarea ChatGPT, la sfârșitul anului 2022, conținutul generat de AI s-a răspândit rapid pe bloguri și site-uri, apare insistent în rezultatele motoarelor de căutare și pe rețelele sociale. Spațiul digital este tot mai infestat cu texte scrise de modele și chatboturi. Și la fel ca radiațiile de odinioară, acest conținut – greu de detectat pentru utilizatorul obișnuit -, este omniprezent și schimbă mediul în care există.

inteligența artificială înlocuiește munca umană / Foto: Shutterstock

Foto: Shutterstock

Suntem invadați de conținut generat de inteligența artificială

Fenomenul creează o problemă spinoasă pentru cercetători și pentru dezvoltatorii AI deopotrivă. Majoritatea modelelor de inteligență artificială sunt antrenate pe seturi vaste de date colectate de pe web. Până de curând, asta însemna învățarea din conținut generat de oameni: mesaje haotice, părtinitoare, poetice, imprevizibile – uneori, de ce nu, chiar geniale. Dar, dacă AI-ul de azi este antrenat pe conținut generat de AI-ul de ieri, care, la rândul său, a fost antrenat pe conținutul AI-ului de alaltăieri, modelele riscă să „colapseze” asupra propriei logici, pierzându-și originalitatea și subtilitatea. Acest fenomen a fost numit „colaps de model”.

În alte cuvinte, modelele AI ar trebui să înțeleagă cum gândesc oamenii. Dacă sunt antrenate în principal pe propriile produse, ele riscă să devină doar propriile lor oglinzi. Ca o fotocopie a unei fotocopii, fiecare generație ar deveni, astfel, mai estompată, până când nu ar mai rămâne nici urmă de nuanță, excepție sau noutate autentică.

Tocmai de aceea, conținutul uman creat înainte de 2022 devine din ce în ce mai valoros. Acesta ancorează modelele AI și societatea în general într-o realitate comună, afirmă Will Allen, vicepreședintele Cloudflare, una dintre cele mai mari rețele de internet din lume.

Importanța acestei ancorări devine vitală în domenii tehnice, precum medicina, dreptul sau fiscalitatea. Allen oferă un exemplu simplu: își dorește ca medicul său să se bazeze pe cercetări scrise de experți umani, bazate pe studii clinice reale, nu pe surse generate de AI.

„Datele care au o conexiune cu realitatea au fost întotdeauna cruciale și vor deveni și mai importante în viitor”, spune Allen. „Dacă nu ai acest adevăr de bază, totul devine mult mai complicat”.

Inteligența artificială va elimina jumătate din job-urile de birou pentru începători / Foto: Shutterstock

Foto: Shutterstock

Textele SEO scrise de AI și problema lui Paul Graham

Această problemă nu este doar teoretică. Se manifestă deja în viața de zi cu zi.

Cu aproape un an după lansarea ChatGPT, investitorul de risc Paul Graham, cofondator al Y Combinator, a povestit că a căutat pe internet la ce temperatură trebuie setat un cuptor pentru pizza. A ajuns să verifice data publicării pentru a găsi informații mai vechi, care să nu fie doar „texte SEO scrise de AI”, a spus el, într-o postare pe platforma X (fostul Twitter).

Malte Ubl, CTO al startupului AI Vercel și fost inginer Google Search, i-a răspuns că, practic, Graham filtra internetul după conținut „necontaminat de AI”.

„Analogia pe care o folosesc este cea cu oțelul cu nivel scăzut de radiații, produs înainte de primele teste nucleare”, a spus Ubl.

Matt Rickard, un alt fost inginer de la Google, a fost de acord și el cu această analogie. Într-o postare din iunie 2023, a scris că seturile moderne de date încep să fie contaminate:

„Modelele AI sunt antrenate pe Internet. În condițiile în care o parte tot mai mare a Internetului este generată de modele AI,” a explicat Rickard. „Rezultatul acestor modele este relativ nedetectabil. Va fi tot mai greu să găsești date de antrenament nealterate de AI”.

Versiunea digitală a oțelului „curat”

Soluția, spun unii, constă în conservarea unei versiuni digitale a „oțelului cu fond scăzut de radiații”, adică date generate de oameni înainte de boom-ul AI. Un fel de rezervă digitală de conținut creat de oameni reali, cu intenție și context.

Un astfel de „arhivar” este John Graham-Cumming, membru în consiliul de administrație al Cloudflare și CTO-ul companiei.
Proiectul său, LowBackgroundSteel.ai, cataloghează și arhivează seturi de date, site-uri și materiale media existente înainte de 2022, anul care a declanșat explozia de conținut generat de AI. Un exemplu: Arctic Code Vault de pe GitHub — o arhivă a software-ului open-source, îngropată într-o fostă mină de cărbune din Norvegia. Captura a fost făcută în februarie 2020, cu un an înainte ca AI-ul să înceapă să scrie coduri pe bandă rulantă.

Inițiativa lui Graham-Cumming este un efort de a conserva webul în forma sa brută, așa cum a fost el scris de oameni, nealterat de AI sau de texte optimizate pentru SEO.

Un alt exemplu este proiectul „wordfreq”, creat pentru a urmări frecvența cuvintelor folosite online. Lingvista Robyn Speer, autoarea proiectului, a renunțat la el în 2021.

„Generative AI a poluat datele”, a scris ea, într-un update pe GitHub, în 2024.

Această contaminare denaturează limbajul online, făcându-l mai puțin reprezentativ pentru modul în care oamenii scriu și gândesc. Speer a dat un exemplu concret: ChatGPT are o obsesie nejustificată pentru cuvântul „delve” (a investiga profund) și îl folosește cu o frecvență anormal de mare, care nu reflectă limba vorbită. (Un alt exemplu ar fi dragostea inexplicabilă a ChatGPT pentru em dash-uri – nu mă întrebați de ce!)

Foto: Freepik

Realitatea noastră comună

După cum explică Allen de la Cloudflare, modelele AI antrenate parțial pe conținut sintetic pot aduce beneficii reale: cresc productivitatea, elimină părțile plictisitoare din muncă și pot stimula creativitatea. Și el este un utilizator frecvent al ChatGPT, Gemini de la Google sau Claude de la Anthropic.

Și totuși, spune Allen, analogia cu oțelul rămâne relevantă. Chiar dacă există metode moderne de producere a oțelului pur (prin utilizarea oxigenului pur, de exemplu), nimic nu poate înlocui nevoia de a fi ancorat într-un adevăr verificabil.

„Întotdeauna ai nevoie de un reper ancorat în realitate”, afirmă el.

Miza nu este doar performanța tehnologică a modelelor AI. Este însăși țesătura realității noastre comune. Așa cum oamenii de știință se bazau pe oțelul necontaminat pentru măsurători de precizie, e posibil ca viitorul să ne oblige să recurgem la conținutul pre-AI pentru a înțelege cu adevărat mintea umană – cum gândim, cum raționăm și cum comunicam înainte de apariția mașinilor care ne imită.

Internetul pur a dispărut. Din fericire, unii au salvat copii. La fel ca scafandrii care recuperează oțelul din epave, cei care fac astfel de rezerve ne reamintesc:

Păstrarea trecutului poate fi singura cale spre un viitor demn de încredere.

Alte articole importante
Presiunea economică nu mai lovește doar firmele mici. Val de insolvențe în economia românească. Tot mai multe companii mari intră în colaps, iar semnalele pentru următoarele luni sunt îngrijorătoare
Companii
Presiunea economică nu mai lovește doar firmele mici. Val de insolvențe în economia românească. Tot mai multe companii mari intră în colaps, iar semnalele pentru următoarele luni sunt îngrijorătoare
Economia României traversează una dintre cele mai dificile perioade din ultimii ani, iar primele date centralizate după trimestrul întâi din 2026 indică o deteriorare accentuată a mediului de afaceri. Dacă în trecut problemele financiare afectau în principal companiile mici și mijlocii, acum dificultățile au ajuns și la firmele mari, cu sute de angajați, afaceri de […]
Piața media din România continuă să crească. Publicitatea online trage industria spre un nou record. Industria media a depășit 838 de milioane de euro în 2025
Macroeconomie
Piața media din România continuă să crească. Publicitatea online trage industria spre un nou record. Industria media a depășit 838 de milioane de euro în 2025
Piața media din România a înregistrat o nouă creștere în 2025, ajungând la o valoare netă de 838 de milioane de euro, potrivit datelor prezentate în raportul anual Media Fact Book 2026. Comparativ cu anul precedent, avansul a fost de 5,4%, confirmând tendința pozitivă a industriei de publicitate și media, chiar și într-un context economic […]
Energia apasă tot mai greu pe economie. România are cel mai ridicat cost al electricității raportat la puterea de cumpărare
Macroeconomie
Energia apasă tot mai greu pe economie. România are cel mai ridicat cost al electricității raportat la puterea de cumpărare
Prețurile la energie continuă să reprezinte una dintre cele mai mari provocări pentru economia românească, iar efectele se resimt atât în industrie, cât și în bugetele gospodăriilor. Un nou semnal de alarmă vine din partea lui Volker Raffel, președintele Federației Asociației Companiilor de Utilități din România (ACUE) și CEO al E.ON România, care susține că […]
Miza uriașă din spatele unei decizii puțin observate: finanțarea infrastructurii energetice europene se schimbă
Macroeconomie
Miza uriașă din spatele unei decizii puțin observate: finanțarea infrastructurii energetice europene se schimbă
România nu se află printre actorii principali ai disputei care se conturează la nivel european privind finanțarea infrastructurii energetice, însă decizia statelor membre de a reduce contribuțiile planificate pentru proiectele comune de rețea ar putea influența pe termen lung și dezvoltarea sistemului energetic regional. În centrul negocierilor se află miliarde de euro necesare pentru extinderea […]
România coboară puternic în topul competitivității globale: pierdere de 12 poziții în clasamentul IMD 2026
Macroeconomie
România coboară puternic în topul competitivității globale: pierdere de 12 poziții în clasamentul IMD 2026
România a înregistrat o scădere semnificativă în cel mai recent clasament al competitivității economice globale realizat de Institutul pentru Management și Dezvoltare (IMD) din Lausanne, coborând 12 poziții și ajungând pe locul 61 din 70 de economii analizate. Evoluția marchează o deteriorare vizibilă a poziției țării în raport cu economii comparabile din regiune și ridică […]
Brașovul și Clujul domină în continuare România urbană. Constanța urcă pe podium într-un context în care „orașul echilibru” câștigă teren
Macroeconomie
Brașovul și Clujul domină în continuare România urbană. Constanța urcă pe podium într-un context în care „orașul echilibru” câștigă teren
Brașovul și Clujul-Napoca își păstrează pozițiile de lider în topul celor mai atractive orașe din România pentru locuire, potrivit Indexului de Atractivitate Urbană 2026 realizat de Institutul pentru Orașe Vizionare. În același timp, Constanța urcă pe locul al treilea, consolidând un podium dominat de centre urbane cu profil economic și turistic puternic. Clasamentul general al […]