Compania chineză DeepSeek a dezvăluit că antrenarea modelului său R1 a costat doar 294.000 de dolari. Această sumă este mult sub investițiile uriașe ale rivalilor americani.
Dezvoltatorul chinez de inteligență artificială DeepSeek a publicat, pentru prima dată, detalii despre costurile reale de antrenare a modelului său R1. Conform unui articol apărut miercuri în revista academică Nature, suma totală a fost de doar 294.000 de dolari. Această valoare contrastează puternic cu estimările din SUA. Liderii din domeniu, precum OpenAI, au menționat sume care depășesc 100 de milioane de dolari pentru antrenarea modelelor fundamentale.
Articolul, care îl are coautor pe fondatorul Liang Wenfeng, a adus din nou DeepSeek în atenția publică. Compania, cu sediul în Hangzhou, a atras atenția încă din ianuarie, când a lansat sisteme AI considerate mai ieftine și eficiente decât cele ale rivalilor americani. Atunci, mișcarea a dus la o scădere masivă a acțiunilor companiilor de tehnologie la nivel global. Acest lucru s-a întâmplat din cauza temerilor privind pierderea dominației de către Nvidia și alți giganți.
Datele publicate de DeepSeek arată că modelul R1, specializat în raționament și logică, a fost antrenat timp de 80 de ore. Pentru acest lucru s-a folosit un cluster format din 512 cipuri Nvidia H800. Aceste cipuri au fost create special pentru piața chineză după ce SUA au interzis exportul modelelor mai performante H100 și A100, scrie CNN.
Deși în articolul inițial, publicat în ianuarie, aceste informații nu apăreau, acum compania a recunoscut și utilizarea unor cipuri A100. Acestea au fost folosite doar în fazele pregătitoare, pentru teste cu modele mai mici. Ulterior s-a trecut la infrastructura bazată pe H800.
Această transparență vine după luni de speculații și acuzații. În iunie, oficiali americani au afirmat că DeepSeek ar fi avut acces la cantități mari de cipuri H100, în ciuda sancțiunilor. Nvidia a confirmat însă că firma chineză a folosit legal doar cipuri H800. În documentele suplimentare atașate articolului din Nature, compania a recunoscut că deține și A100, dar a insistat că acestea au fost utilizate doar limitat.
O altă controversă majoră privește tehnicile folosite de DeepSeek pentru a dezvolta modelele sale. În ianuarie, un consilier al Casei Albe și mai multe voci din industria americană au acuzat compania chineză. Ei au afirmat că s-a recurs la „distilarea” modelelor OpenAI.
Distilarea este o tehnică prin care un model AI nou „învață” din rezultatele generate de un alt model, reducând costurile și timpul de antrenare. Practic, se transferă indirect o parte din cunoștințele acumulate de un model anterior fără a repeta procesul complet de procesare.
DeepSeek a răspuns că această metodă este legitimă și că, prin distilare, modelele devin mai performante la costuri mult mai mici. Compania a confirmat că a folosit și modelul open-source Llama, dezvoltat de Meta, ca bază pentru unele dintre propriile sisteme.
În studiul din Nature, cercetătorii au admis că modelul V3 al DeepSeek a fost antrenat pe date web care conțineau și răspunsuri generate de modele OpenAI. Totuși, au precizat că aceasta a fost o situație incidentală și nu o strategie intenționată.