Prima pagină » Suntem invadați de conținut generat de inteligența artificială. Cercetătorii încep să facă rezerve de conținut uman autentic

Suntem invadați de conținut generat de inteligența artificială. Cercetătorii încep să facă rezerve de conținut uman autentic

Suntem invadați de conținut generat de inteligența artificială. Cercetătorii încep să facă rezerve de conținut uman autentic
SuperInteligență: cum ar putea ajunge copiii ar ajunge de 500 de ori mai bogați decât părinții lor / Foto: Shutterstock

De la lansarea ChatGPT, în 2022, Internetul a fost invadat conținutul generat de inteligență artificială. În replică, unii cercetători au început să conserve conținut uman autentic, creat înainte de 2021. Unii analiști compară acest efort cu acțiunile de recuperare a unor mostre de oțel „curat”, total lipsit de contaminare radioactivă, material pe care oamenii de știință îl căutau asiduu după 1945, explorând pentru asta fundul mării, în speranța că îl vor găsi conservat în epavele unor nave de război scufundate, comentează Business Insider. Interesant este că efortul contemporan de arhivare a conținutului creat de oameni nu face parte dintr-un program global de prezervare a unor modele culturale, ci, în mod paradoxal, este, de fapt, esențial pentru antrenarea generațiilor viitoare de AI. 

Efortul de a păstra eșantioane de conținut uman autentic le-a inspirat unor specialiști în tehnologie o analogie insolită. După Al Doilea Război Mondial, oamenii de știință au observat o problemă neobișnuită: oțelul produs după 1945 era contaminat radioactiv. Testele nucleare atmosfere au infuzat aerul cu particule radioactive, care au afectat compoziția metalului. În acest fel, oțelul modern devenea inutil pentru instrumente de măsurare extrem de precise, precum contoarele Geiger sau senzorii sensibili. Soluția? Reciclarea oțelului vechi, provenit din epavele navelor de război scufundate înainte de era nucleară. Acest material, cunoscut sub numele de low-background steel (oțel cu fond scăzut de radiații), a devenit extrem de valoros, prin puritatea și raritatea sa.

Fast forward până în 2025, și o poveste similară se desfășoară – nu pe fundul mării, ci pe internet. De la lansarea ChatGPT, la sfârșitul anului 2022, conținutul generat de AI s-a răspândit rapid pe bloguri și site-uri, apare insistent în rezultatele motoarelor de căutare și pe rețelele sociale. Spațiul digital este tot mai infestat cu texte scrise de modele și chatboturi. Și la fel ca radiațiile de odinioară, acest conținut – greu de detectat pentru utilizatorul obișnuit -, este omniprezent și schimbă mediul în care există.

inteligența artificială înlocuiește munca umană / Foto: Shutterstock

Foto: Shutterstock

Suntem invadați de conținut generat de inteligența artificială

Fenomenul creează o problemă spinoasă pentru cercetători și pentru dezvoltatorii AI deopotrivă. Majoritatea modelelor de inteligență artificială sunt antrenate pe seturi vaste de date colectate de pe web. Până de curând, asta însemna învățarea din conținut generat de oameni: mesaje haotice, părtinitoare, poetice, imprevizibile – uneori, de ce nu, chiar geniale. Dar, dacă AI-ul de azi este antrenat pe conținut generat de AI-ul de ieri, care, la rândul său, a fost antrenat pe conținutul AI-ului de alaltăieri, modelele riscă să „colapseze” asupra propriei logici, pierzându-și originalitatea și subtilitatea. Acest fenomen a fost numit „colaps de model”.

În alte cuvinte, modelele AI ar trebui să înțeleagă cum gândesc oamenii. Dacă sunt antrenate în principal pe propriile produse, ele riscă să devină doar propriile lor oglinzi. Ca o fotocopie a unei fotocopii, fiecare generație ar deveni, astfel, mai estompată, până când nu ar mai rămâne nici urmă de nuanță, excepție sau noutate autentică.

Tocmai de aceea, conținutul uman creat înainte de 2022 devine din ce în ce mai valoros. Acesta ancorează modelele AI și societatea în general într-o realitate comună, afirmă Will Allen, vicepreședintele Cloudflare, una dintre cele mai mari rețele de internet din lume.

Importanța acestei ancorări devine vitală în domenii tehnice, precum medicina, dreptul sau fiscalitatea. Allen oferă un exemplu simplu: își dorește ca medicul său să se bazeze pe cercetări scrise de experți umani, bazate pe studii clinice reale, nu pe surse generate de AI.

„Datele care au o conexiune cu realitatea au fost întotdeauna cruciale și vor deveni și mai importante în viitor”, spune Allen. „Dacă nu ai acest adevăr de bază, totul devine mult mai complicat”.

Inteligența artificială va elimina jumătate din job-urile de birou pentru începători / Foto: Shutterstock

Foto: Shutterstock

Textele SEO scrise de AI și problema lui Paul Graham

Această problemă nu este doar teoretică. Se manifestă deja în viața de zi cu zi.

Cu aproape un an după lansarea ChatGPT, investitorul de risc Paul Graham, cofondator al Y Combinator, a povestit că a căutat pe internet la ce temperatură trebuie setat un cuptor pentru pizza. A ajuns să verifice data publicării pentru a găsi informații mai vechi, care să nu fie doar „texte SEO scrise de AI”, a spus el, într-o postare pe platforma X (fostul Twitter).

Malte Ubl, CTO al startupului AI Vercel și fost inginer Google Search, i-a răspuns că, practic, Graham filtra internetul după conținut „necontaminat de AI”.

„Analogia pe care o folosesc este cea cu oțelul cu nivel scăzut de radiații, produs înainte de primele teste nucleare”, a spus Ubl.

Matt Rickard, un alt fost inginer de la Google, a fost de acord și el cu această analogie. Într-o postare din iunie 2023, a scris că seturile moderne de date încep să fie contaminate:

„Modelele AI sunt antrenate pe Internet. În condițiile în care o parte tot mai mare a Internetului este generată de modele AI,” a explicat Rickard. „Rezultatul acestor modele este relativ nedetectabil. Va fi tot mai greu să găsești date de antrenament nealterate de AI”.

Versiunea digitală a oțelului „curat”

Soluția, spun unii, constă în conservarea unei versiuni digitale a „oțelului cu fond scăzut de radiații”, adică date generate de oameni înainte de boom-ul AI. Un fel de rezervă digitală de conținut creat de oameni reali, cu intenție și context.

Un astfel de „arhivar” este John Graham-Cumming, membru în consiliul de administrație al Cloudflare și CTO-ul companiei.
Proiectul său, LowBackgroundSteel.ai, cataloghează și arhivează seturi de date, site-uri și materiale media existente înainte de 2022, anul care a declanșat explozia de conținut generat de AI. Un exemplu: Arctic Code Vault de pe GitHub — o arhivă a software-ului open-source, îngropată într-o fostă mină de cărbune din Norvegia. Captura a fost făcută în februarie 2020, cu un an înainte ca AI-ul să înceapă să scrie coduri pe bandă rulantă.

Inițiativa lui Graham-Cumming este un efort de a conserva webul în forma sa brută, așa cum a fost el scris de oameni, nealterat de AI sau de texte optimizate pentru SEO.

Un alt exemplu este proiectul „wordfreq”, creat pentru a urmări frecvența cuvintelor folosite online. Lingvista Robyn Speer, autoarea proiectului, a renunțat la el în 2021.

„Generative AI a poluat datele”, a scris ea, într-un update pe GitHub, în 2024.

Această contaminare denaturează limbajul online, făcându-l mai puțin reprezentativ pentru modul în care oamenii scriu și gândesc. Speer a dat un exemplu concret: ChatGPT are o obsesie nejustificată pentru cuvântul „delve” (a investiga profund) și îl folosește cu o frecvență anormal de mare, care nu reflectă limba vorbită. (Un alt exemplu ar fi dragostea inexplicabilă a ChatGPT pentru em dash-uri – nu mă întrebați de ce!)

Foto: Freepik

Realitatea noastră comună

După cum explică Allen de la Cloudflare, modelele AI antrenate parțial pe conținut sintetic pot aduce beneficii reale: cresc productivitatea, elimină părțile plictisitoare din muncă și pot stimula creativitatea. Și el este un utilizator frecvent al ChatGPT, Gemini de la Google sau Claude de la Anthropic.

Și totuși, spune Allen, analogia cu oțelul rămâne relevantă. Chiar dacă există metode moderne de producere a oțelului pur (prin utilizarea oxigenului pur, de exemplu), nimic nu poate înlocui nevoia de a fi ancorat într-un adevăr verificabil.

„Întotdeauna ai nevoie de un reper ancorat în realitate”, afirmă el.

Miza nu este doar performanța tehnologică a modelelor AI. Este însăși țesătura realității noastre comune. Așa cum oamenii de știință se bazau pe oțelul necontaminat pentru măsurători de precizie, e posibil ca viitorul să ne oblige să recurgem la conținutul pre-AI pentru a înțelege cu adevărat mintea umană – cum gândim, cum raționăm și cum comunicam înainte de apariția mașinilor care ne imită.

Internetul pur a dispărut. Din fericire, unii au salvat copii. La fel ca scafandrii care recuperează oțelul din epave, cei care fac astfel de rezerve ne reamintesc:

Păstrarea trecutului poate fi singura cale spre un viitor demn de încredere.

Alte articole importante
Dobânzile ar putea crește din aprilie. Semnal de alarmă pentru economia europeană
Dobânzile ar putea crește din aprilie. Semnal de alarmă pentru economia europeană
Marile bănci schimbă brusc prognozele privind politica Băncii Centrale Europene (BCE). Perspectivele economice din zona euro se schimbă rapid, iar marile instituții financiare anticipează o întoarcere la majorări de dobânzi mai devreme decât se estima. Potrivit unor analize realizate de J.P. Morgan, Morgan Stanley și Barclays, Banca Centrală Europeană ar putea începe ciclul de creștere […]
Planul de 30 de miliarde de euro care poate schimba facturile la energie. Ce a anunțat Nicușor Dan după summitul european
Planul de 30 de miliarde de euro care poate schimba facturile la energie. Ce a anunțat Nicușor Dan după summitul european
Uniunea Europeană pregătește o mutare de amploare pentru a ține sub control prețurile la energie, într-un moment în care volatilitatea pieței afectează atât populația, cât și companiile. După reuniunea Consiliul European, președintele României, Nicușor Dan, a dezvăluit un plan masiv de investiții, estimat la 30 de miliarde de euro, destinat modernizării infrastructurii energetice la nivel […]
Din nou pe roșu: Bursa de la București a înregistrat scăderi pe majoritatea indicilor, dar cu excepții notabile
Din nou pe roșu: Bursa de la București a înregistrat scăderi pe majoritatea indicilor, dar cu excepții notabile
Ședința de tranzacționare de joi s-a încheiat în teritoriu negativ la Bursa de Valori București, unde majoritatea indicilor au înregistrat scăderi, pe fondul unei evoluții prudente a investitorilor. Cu toate acestea, anumite segmente ale pieței au reușit să rămână pe plus, într-un context dominat de volatilitate. Rulajul total al pieței s-a ridicat la 147,41 milioane […]
Acțiunile Xiaomi urcă după lansarea noilor modele AI
Companii
Acțiunile Xiaomi urcă după lansarea noilor modele AI
Acțiunile Xiaomi au crescut semnificativ, joi, după ce gigantul tehnologic chinez a prezentat cele mai noi modele AI. Lansarea a generat optimism în rândul investitorilor, care văd în inteligența artificială un motor important pentru creșterea companiei. Xiaomi profită de AI: acțiunile companiei chineze au crescut cu după lansare Acțiunile listate la Hong Kong au urcat […]
Un gigant tehnologic va investi peste 70 miliarde $ în cipuri AI
Companii
Un gigant tehnologic va investi peste 70 miliarde $ în cipuri AI
Gigant tehnologic coreean Samsung a anunțat o investiție masivă de peste 70 miliarde de dolari în dezvoltarea de cipuri AI. Această mișcare marchează un pas strategic major pentru companie, care vizează să își consolideze poziția pe piața globală a AI-ului. Samsung va aloca în acest an 73 miliarde de dolari în dezvoltarea de cipuri AI […]
Teama de „butonul roșu”: europenii cred că SUA le-ar putea opri internetul
Tehnologie
Teama de „butonul roșu”: europenii cred că SUA le-ar putea opri internetul
Un nou sondaj realizat la nivelul Uniunii Europene scoate la iveală o anxietate tot mai prezentă în rândul cetățenilor: dependența de tehnologia americană este percepută ca o vulnerabilitate majoră, iar scenariul în care accesul la servicii digitale ar putea fi restricționat nu mai pare unul science-fiction. Potrivit datelor, majoritatea europenilor consideră plauzibilă ipoteza în care […]