DeepSeek obył się bez milionów dolarów. Wyszkolenie chińskiego AI kosztowało grosze w porównaniu z produktami Big Techu

DeepSeek, start-up odpowiedzialny za stworzenie modelu sztucznej inteligencji, który kilka miesięcy temu znacznie namieszał w branży, przekazał, że wyszkolenie jego tworu kosztowało „zaledwie” 294 tys. dolarów.

Mimo że DeepSeek R1 wziął rynek szturmem i wywołał niemałe zamieszanie, jego twórcy dość szybko usunęli się w cień i jedynie z rzadka dzielili się informacjami na temat przyszłych aktualizacji oraz swoich poczynań. Teraz, kilka miesięcy po styczniowym debiucie wspomnianego modelu AI, opublikowany przy okazji premiery artykuł naukowy, został wzbogacony o wrzutkę poświęconą kosztom szkolenia sztucznej inteligencji. Te zaś, w zestawieniu z nakładami finansowymi wykładanymi na analogiczny cel przez gigantów pokroju Mety lub OpenAI, prezentują się podejrzanie skromnie.

Jak zauważyła redakcja portalu Scientific American, materiał uzupełniający do napomkniętego artykułu wyjaśnił, że trening modelu R1 kosztował równowartość ok. 294 tys. dolarów amerykańskich. Mimo że kwota ta może wydawać się duża, w porównaniu z tymi wykładanymi przez konkurentów Chińczyków sprawia wrażenie groszy. Dla przykładu, szkolenie modeli fundamentalnych ze stajni OpenAI kosztowało powyżej 100 milionów USD – a są to dane z 2023 r., więc teraz ta liczba prawdopodobnie prezentowałaby się znacznie bardziej okazale.

Nie brak jednak opinii, że dane podawane przez DeepSeek są nieco podkoloryzowane i nie uwzględniają wielu czynników. Praktyka taka, niestety, nie jest rzadko spotykana się w światku sztucznej inteligencji, a uciekają się do niej nawet branżowi giganci pokroju Google. Co istotna, podana w poprzednim akapicie kwota nie uwzględniała spożytkowania 6 milionów dolarów na stworzenie podstawowego modelu LLM, na bazie którego wyrósł R1. Redakcja The Register pokusiła się nawet o stwierdzenie, że rzeczywisty koszt wyszkolenia chińskiego modelu AI jest co najmniej dwudziestokrotnie wyższy od szacunków przedstawionych przez jego twórców.

We wrzutce do artykułu DeepSeek napisał, że w procesie treningu wykorzystanych zostało 512 układów H800 Nvidii, a ich cena, jak już zostało wspomniane, została umyślnie pominięta. Zamiast zliczyć wszystkie wydatki, jakie zostały poniesione celem stworzenia R1 od podstaw, badacze podali jedynie te związane z uczeniem sztucznej inteligencji poprzez wzmacnianie oraz wzbogacenie jej o zdolność rozumowania. Abstrahując od tego, nawet po zliczeniu wszystkich kosztów wyglądają one bardziej przystępnie od tych, które poniosło OpenAI i wiele amerykańskich korporacji podczas szkolenia własnej AI.

Wstępna wersja R1-Zero została wytrenowana na 512 procesorach graficznych H800 podzielonych na 64 ośmiokanałowe klastry. W trakcie tego procesu GPU pracowały z pełną mocą przez ok. 198 godzin, zaś kolejne 80 zostało poświęcone na domknięcie treningu i przygotowanie sztucznej inteligencji do pracy.

Na koniec warto podkreślić, że DeepSeek R1 jest uważany za pierwszy duży model językowy, który przeszedł proces recenzji naukowej i za co też zebrał pochwały od środowisk akademickich. Mimo to chiński start-up nie podzielił się publicznie danymi szkoleniowymi. Podkreślono jednak, że DeepSeek nie powielił rozwiązań opracowanych przez OpenAI i zastosował autorskie rozwiązanie. Oznacza to, że R1 został przeszkolony na treściach pochodzących z sieci, a to wiąże się z dwoma problemami. Pierwszy jest taki, że prawdopodobnie naruszono przy tym wiele praw autorski. Druga z bolączek to zaś fakt, że AI zapewne zdążyło się nałykać papki, która w przeciągu ostatnich dwóch lat wręcz zalała Internet.

Jako model o otwartej wadze, R1 jest dostępny bezpłatnie w sieci. Z samej platformy Hugging Face został ściągnięty prawie 11 milionów razy.