Prima pagină » Suntem invadați de conținut generat de inteligența artificială. Cercetătorii încep să facă rezerve de conținut uman autentic

Suntem invadați de conținut generat de inteligența artificială. Cercetătorii încep să facă rezerve de conținut uman autentic

Suntem invadați de conținut generat de inteligența artificială. Cercetătorii încep să facă rezerve de conținut uman autentic
SuperInteligență: cum ar putea ajunge copiii ar ajunge de 500 de ori mai bogați decât părinții lor / Foto: Shutterstock

De la lansarea ChatGPT, în 2022, Internetul a fost invadat conținutul generat de inteligență artificială. În replică, unii cercetători au început să conserve conținut uman autentic, creat înainte de 2021. Unii analiști compară acest efort cu acțiunile de recuperare a unor mostre de oțel „curat”, total lipsit de contaminare radioactivă, material pe care oamenii de știință îl căutau asiduu după 1945, explorând pentru asta fundul mării, în speranța că îl vor găsi conservat în epavele unor nave de război scufundate, comentează Business Insider. Interesant este că efortul contemporan de arhivare a conținutului creat de oameni nu face parte dintr-un program global de prezervare a unor modele culturale, ci, în mod paradoxal, este, de fapt, esențial pentru antrenarea generațiilor viitoare de AI. 

Efortul de a păstra eșantioane de conținut uman autentic le-a inspirat unor specialiști în tehnologie o analogie insolită. După Al Doilea Război Mondial, oamenii de știință au observat o problemă neobișnuită: oțelul produs după 1945 era contaminat radioactiv. Testele nucleare atmosfere au infuzat aerul cu particule radioactive, care au afectat compoziția metalului. În acest fel, oțelul modern devenea inutil pentru instrumente de măsurare extrem de precise, precum contoarele Geiger sau senzorii sensibili. Soluția? Reciclarea oțelului vechi, provenit din epavele navelor de război scufundate înainte de era nucleară. Acest material, cunoscut sub numele de low-background steel (oțel cu fond scăzut de radiații), a devenit extrem de valoros, prin puritatea și raritatea sa.

Fast forward până în 2025, și o poveste similară se desfășoară – nu pe fundul mării, ci pe internet. De la lansarea ChatGPT, la sfârșitul anului 2022, conținutul generat de AI s-a răspândit rapid pe bloguri și site-uri, apare insistent în rezultatele motoarelor de căutare și pe rețelele sociale. Spațiul digital este tot mai infestat cu texte scrise de modele și chatboturi. Și la fel ca radiațiile de odinioară, acest conținut – greu de detectat pentru utilizatorul obișnuit -, este omniprezent și schimbă mediul în care există.

inteligența artificială înlocuiește munca umană / Foto: Shutterstock

Foto: Shutterstock

Suntem invadați de conținut generat de inteligența artificială

Fenomenul creează o problemă spinoasă pentru cercetători și pentru dezvoltatorii AI deopotrivă. Majoritatea modelelor de inteligență artificială sunt antrenate pe seturi vaste de date colectate de pe web. Până de curând, asta însemna învățarea din conținut generat de oameni: mesaje haotice, părtinitoare, poetice, imprevizibile – uneori, de ce nu, chiar geniale. Dar, dacă AI-ul de azi este antrenat pe conținut generat de AI-ul de ieri, care, la rândul său, a fost antrenat pe conținutul AI-ului de alaltăieri, modelele riscă să „colapseze” asupra propriei logici, pierzându-și originalitatea și subtilitatea. Acest fenomen a fost numit „colaps de model”.

În alte cuvinte, modelele AI ar trebui să înțeleagă cum gândesc oamenii. Dacă sunt antrenate în principal pe propriile produse, ele riscă să devină doar propriile lor oglinzi. Ca o fotocopie a unei fotocopii, fiecare generație ar deveni, astfel, mai estompată, până când nu ar mai rămâne nici urmă de nuanță, excepție sau noutate autentică.

Tocmai de aceea, conținutul uman creat înainte de 2022 devine din ce în ce mai valoros. Acesta ancorează modelele AI și societatea în general într-o realitate comună, afirmă Will Allen, vicepreședintele Cloudflare, una dintre cele mai mari rețele de internet din lume.

Importanța acestei ancorări devine vitală în domenii tehnice, precum medicina, dreptul sau fiscalitatea. Allen oferă un exemplu simplu: își dorește ca medicul său să se bazeze pe cercetări scrise de experți umani, bazate pe studii clinice reale, nu pe surse generate de AI.

„Datele care au o conexiune cu realitatea au fost întotdeauna cruciale și vor deveni și mai importante în viitor”, spune Allen. „Dacă nu ai acest adevăr de bază, totul devine mult mai complicat”.

Inteligența artificială va elimina jumătate din job-urile de birou pentru începători / Foto: Shutterstock

Foto: Shutterstock

Textele SEO scrise de AI și problema lui Paul Graham

Această problemă nu este doar teoretică. Se manifestă deja în viața de zi cu zi.

Cu aproape un an după lansarea ChatGPT, investitorul de risc Paul Graham, cofondator al Y Combinator, a povestit că a căutat pe internet la ce temperatură trebuie setat un cuptor pentru pizza. A ajuns să verifice data publicării pentru a găsi informații mai vechi, care să nu fie doar „texte SEO scrise de AI”, a spus el, într-o postare pe platforma X (fostul Twitter).

Malte Ubl, CTO al startupului AI Vercel și fost inginer Google Search, i-a răspuns că, practic, Graham filtra internetul după conținut „necontaminat de AI”.

„Analogia pe care o folosesc este cea cu oțelul cu nivel scăzut de radiații, produs înainte de primele teste nucleare”, a spus Ubl.

Matt Rickard, un alt fost inginer de la Google, a fost de acord și el cu această analogie. Într-o postare din iunie 2023, a scris că seturile moderne de date încep să fie contaminate:

„Modelele AI sunt antrenate pe Internet. În condițiile în care o parte tot mai mare a Internetului este generată de modele AI,” a explicat Rickard. „Rezultatul acestor modele este relativ nedetectabil. Va fi tot mai greu să găsești date de antrenament nealterate de AI”.

Versiunea digitală a oțelului „curat”

Soluția, spun unii, constă în conservarea unei versiuni digitale a „oțelului cu fond scăzut de radiații”, adică date generate de oameni înainte de boom-ul AI. Un fel de rezervă digitală de conținut creat de oameni reali, cu intenție și context.

Un astfel de „arhivar” este John Graham-Cumming, membru în consiliul de administrație al Cloudflare și CTO-ul companiei.
Proiectul său, LowBackgroundSteel.ai, cataloghează și arhivează seturi de date, site-uri și materiale media existente înainte de 2022, anul care a declanșat explozia de conținut generat de AI. Un exemplu: Arctic Code Vault de pe GitHub — o arhivă a software-ului open-source, îngropată într-o fostă mină de cărbune din Norvegia. Captura a fost făcută în februarie 2020, cu un an înainte ca AI-ul să înceapă să scrie coduri pe bandă rulantă.

Inițiativa lui Graham-Cumming este un efort de a conserva webul în forma sa brută, așa cum a fost el scris de oameni, nealterat de AI sau de texte optimizate pentru SEO.

Un alt exemplu este proiectul „wordfreq”, creat pentru a urmări frecvența cuvintelor folosite online. Lingvista Robyn Speer, autoarea proiectului, a renunțat la el în 2021.

„Generative AI a poluat datele”, a scris ea, într-un update pe GitHub, în 2024.

Această contaminare denaturează limbajul online, făcându-l mai puțin reprezentativ pentru modul în care oamenii scriu și gândesc. Speer a dat un exemplu concret: ChatGPT are o obsesie nejustificată pentru cuvântul „delve” (a investiga profund) și îl folosește cu o frecvență anormal de mare, care nu reflectă limba vorbită. (Un alt exemplu ar fi dragostea inexplicabilă a ChatGPT pentru em dash-uri – nu mă întrebați de ce!)

Foto: Freepik

Realitatea noastră comună

După cum explică Allen de la Cloudflare, modelele AI antrenate parțial pe conținut sintetic pot aduce beneficii reale: cresc productivitatea, elimină părțile plictisitoare din muncă și pot stimula creativitatea. Și el este un utilizator frecvent al ChatGPT, Gemini de la Google sau Claude de la Anthropic.

Și totuși, spune Allen, analogia cu oțelul rămâne relevantă. Chiar dacă există metode moderne de producere a oțelului pur (prin utilizarea oxigenului pur, de exemplu), nimic nu poate înlocui nevoia de a fi ancorat într-un adevăr verificabil.

„Întotdeauna ai nevoie de un reper ancorat în realitate”, afirmă el.

Miza nu este doar performanța tehnologică a modelelor AI. Este însăși țesătura realității noastre comune. Așa cum oamenii de știință se bazau pe oțelul necontaminat pentru măsurători de precizie, e posibil ca viitorul să ne oblige să recurgem la conținutul pre-AI pentru a înțelege cu adevărat mintea umană – cum gândim, cum raționăm și cum comunicam înainte de apariția mașinilor care ne imită.

Internetul pur a dispărut. Din fericire, unii au salvat copii. La fel ca scafandrii care recuperează oțelul din epave, cei care fac astfel de rezerve ne reamintesc:

Păstrarea trecutului poate fi singura cale spre un viitor demn de încredere.

Alte articole importante
România are printre cele mai mici prețuri la gaze din UE
România are printre cele mai mici prețuri la gaze din UE
România se menține printre țările din UE cu cele mai mici prețuri la gaze naturale, în ciuda fluctuațiilor de pe piața energetică. Această situație reflectă atât politicile interne de reglementare, cât și resursele proprii de producție care oferă un grad ridicat de independență energetică. România, în topul țărilor din UE cu cele mai mici tarife […]
Volkswagen lovită în plin de impactul tarifelor lui Trump
Companii
Volkswagen lovită în plin de impactul tarifelor lui Trump
Grupul Volkswagen se confruntă cu un deficit estimat la 5,8 miliarde de dolari din cauza noilor tarife vamale impuse de administrația Trump. După publicarea rezultatelor financiare trimestriale, acțiunile companiei au crescut temporar cu până la 2%, pentru ca apoi să scadă cu 1,2%. Lovitură pentru Volkswagen: tarifele lui Trump aduc pierderi de 5,8 miliarde $ […]
ANALIZĂ
Explozie a vânzărilor de mașini hibride chinezești în Europa
Companii
Explozie a vânzărilor de mașini hibride chinezești în Europa
Vânzările de mașini hibride chinezești au înregistrat în septembrie cea mai mare creștere pe piața europeană de până acum. Modelele noi de la producători precum BYD, MG și Chery au ajutat mărcile din China să obțină 7,4% din totalul pieței din Europa, cea mai mare cotă din istorie. Vânzările de mașini hibride chinezești în Europa […]
Când șeful îți cronometrează și mersul la toaletă. Cât control e prea mult în munca de acasă
Când șeful îți cronometrează și mersul la toaletă. Cât control e prea mult în munca de acasă
Munca de acasă a devenit o realitate pentru milioane de angajați, dar și o provocare pentru mulți angajatori. Un caz relatat de New York Post a readus în atenție limitele controlului pe care un șef le poate impune. Un manager a avertizat angajații despre o regulă internă numită „regula de cinci minute”. Aceasta obliga personalul […]
Rabla 2025: Ecotichete de 6,51 milioane de lei, aprobate într-o singură zi
Rabla 2025: Ecotichete de 6,51 milioane de lei, aprobate într-o singură zi
AFM anunță că au fost aprobate peste 400 de noi dosare în programul Rabla 2025 pentru persoane fizice, cu o valoare de 6,51 milioane de lei. Acest demers reflectă ritmul intens al cererilor și interesul crescut pentru înnoirea parcului auto național cu vehicule mai puțin poluante, precum şi un pas important spre un transport mai […]
Qualcomm dă lovitura pe piața AI. Acțiunile explodează cu 11%
Tehnologie
Qualcomm dă lovitura pe piața AI. Acțiunile explodează cu 11%
Gigantul american Qualcomm a anunțat lansarea unor cipuri AI dedicate centrelor de date, intrând direct în competiție cu Nvidia și AMD. Noile acceleratoare, AI200 și AI250, vor apărea pe piață în 2026 și 2027. Mișcarea a dus la o creștere spectaculoasă de 11% a acțiunilor companiei. Qualcomm schimbă direcția și intră pe piața centrelor de […]