Meta twierdzi, że nie zawyżyła wyników testów Llamy 4
Koncern zdecydowanie zaprzecza, jakoby firma dostroiła swoje nowe modele AI w taki sposób, aby jak najlepiej radziły sobie w popularnych testach
Wczoraj informowaliśmy o tym, że Meta wypuściła nowe modele sztucznej inteligencji: Llama 4 Scout i Llama 4 Maverick, a te podobno radzą sobie naprawdę nieźle w większości zadań. Na poparcie tego twierdzenia amerykański koncern przytoczył wyniki testów, które, zdaniem wielu osób, zostały nieco podkoloryzowane.
Llama 4 nie tak wydajna, jak zapowiadano?
Do sieci trafiło mnóstwo wypowiedzi osób, które postanowiły przyjrzeć się z bliska najnowszemu tworowi firmy Marka Zuckerberga. Co ciekawe, odkrycia niezależnych badaczy nie pokrywają się z tym, co na temat swojej sztucznej inteligencji mówiła Meta.
Atmosferę dodatkowo podgrzał fakt, że anonimowy informator z Chin puścił w obieg plotkę, jakoby korporacja nie była w stanie osiągnąć zadowalającego wyniku wydajności Llamy 4 i postanowiła uciec się do podstępu. Przedsiębiorstwo uznało, że świetnym pomysłem będzie wymieszanie różnych zestawów testów porównawczych i "nakarmienie" nimi wstępnie przeszkolonego modelu AI, dzięki czemu wypadłby on znośnie we wszelkiej maści benchmarkach.
Jakby tego było mało, jeśli dział sztucznej inteligencji Mety nie podołałby zadaniu i nie dowiózł produktu zdolnego zadowolić zarząd, dalsze finansowanie inwestycji miałoby zostać wstrzymane. Skończyło się na tym, że ów informator zdecydował się zrezygnować z pracy i poprosił o to, aby jego imię i nazwisko zostało skasowane z raportu technicznego Llamy 4, jako że nie chciał być kojarzony z tym projektem.
Doniesienia te zdementował wiceprezes ds. generatywnej sztucznej inteligencji w Mecie, Ahmad Al-Dahle.
Jak możemy przeczytać we wpisie zamieszczonym przez Al-Dahle na X-ie:
Słyszeliśmy również twierdzenia, że trenowaliśmy na zestawach testowych – to po prostu nieprawda i nigdy byśmy tego nie zrobili. Najlepiej rozumiemy, że zmienna jakość, którą ludzie obserwują, wynika z konieczności ustabilizowania wdrożeń.
Wedle mężczyzny, zaobserwowany przez niektórych użytkowników rozstrzał pomiędzy obiecaną a rzeczywistą jakością modeli Llamy 4 jest winą różnych dostawców usług w chmurze, a na ujednolicenie wydajności przyjdzie nam prawdopodobnie poczekać jeszcze kilka dni.