AktualnościMeta twierdzi, że nie zawyżyła wyników testów Llamy 4

Meta twierdzi, że nie zawyżyła wyników testów Llamy 4

Koncern zdecydowanie zaprzecza, jakoby firma dostroiła swoje nowe modele AI w taki sposób, aby jak najlepiej radziły sobie w popularnych testach

Meta twierdzi, że nie spreparowała wyników testów Llamy 4
Meta twierdzi, że nie spreparowała wyników testów Llamy 4
Źródło zdjęć: © Pexels | Anthony 🙂

Wczoraj informowaliśmy o tym, że Meta wypuściła nowe modele sztucznej inteligencji: Llama 4 Scout i Llama 4 Maverick, a te podobno radzą sobie naprawdę nieźle w większości zadań. Na poparcie tego twierdzenia amerykański koncern przytoczył wyniki testów, które, zdaniem wielu osób, zostały nieco podkoloryzowane.

Llama 4 nie tak wydajna, jak zapowiadano?

Do sieci trafiło mnóstwo wypowiedzi osób, które postanowiły przyjrzeć się z bliska najnowszemu tworowi firmy Marka Zuckerberga. Co ciekawe, odkrycia niezależnych badaczy nie pokrywają się z tym, co na temat swojej sztucznej inteligencji mówiła Meta.

Atmosferę dodatkowo podgrzał fakt, że anonimowy informator z Chin puścił w obieg plotkę, jakoby korporacja nie była w stanie osiągnąć zadowalającego wyniku wydajności Llamy 4 i postanowiła uciec się do podstępu. Przedsiębiorstwo uznało, że świetnym pomysłem będzie wymieszanie różnych zestawów testów porównawczych i "nakarmienie" nimi wstępnie przeszkolonego modelu AI, dzięki czemu wypadłby on znośnie we wszelkiej maści benchmarkach.

Jakby tego było mało, jeśli dział sztucznej inteligencji Mety nie podołałby zadaniu i nie dowiózł produktu zdolnego zadowolić zarząd, dalsze finansowanie inwestycji miałoby zostać wstrzymane. Skończyło się na tym, że ów informator zdecydował się zrezygnować z pracy i poprosił o to, aby jego imię i nazwisko zostało skasowane z raportu technicznego Llamy 4, jako że nie chciał być kojarzony z tym projektem.

Doniesienia te zdementował wiceprezes ds. generatywnej sztucznej inteligencji w Mecie, Ahmad Al-Dahle.

Jak możemy przeczytać we wpisie zamieszczonym przez Al-Dahle na X-ie:

Słyszeliśmy również twierdzenia, że trenowaliśmy na zestawach testowych – to po prostu nieprawda i nigdy byśmy tego nie zrobili. Najlepiej rozumiemy, że zmienna jakość, którą ludzie obserwują, wynika z konieczności ustabilizowania wdrożeń.

Ahmad Al-DahleWiceprezes ds. generatywnej sztucznej inteligencji

Wedle mężczyzny, zaobserwowany przez niektórych użytkowników rozstrzał pomiędzy obiecaną a rzeczywistą jakością modeli Llamy 4 jest winą różnych dostawców usług w chmurze, a na ujednolicenie wydajności przyjdzie nam prawdopodobnie poczekać jeszcze kilka dni.

Źródło artykułu:TechCrunch

Wybrane dla Ciebie