AktualnościLlama Mety zna na pamięć spory kawałek pierwszej książki z serii "Harry Potter"

Llama Mety zna na pamięć spory kawałek pierwszej książki z serii "Harry Potter"

Mimo że książka jest objęta ochroną wynikającą z praw autorskich, jedna z nowszych wersji dużego modelu językowego opracowanego przez koncern Meta, Llama 3.1 70B, zna ok. 42% treści powieści.

Lama

Źródło zdjęć: © Adobe Stock

Odkrycie to jest efektem pracy zespołów naukowców wyspecjalizowanych w dziedzinach informatyki oraz prawa. Badacze z Uniwersytetów Stanforda, Cornella i Wirginii Zachodniej współpracowali ze sobą, co zaowocowało powstaniem artykułu pt. "Extracting memorized pieces of (copyrighted) books from open-weight language models" (pol. "Wyodrębnianie zapamiętanych fragmentów książek (chronionych prawem autorskim) z modeli językowych o otwartej wadze"). Omówienia badania podjął się zaś Timothy B. Lee, który zamieścił je na swoim blogu Understanding AI.

Llama Mety zna na pamięć spory kawałek "Harry'ego Pottera i Kamienia Filozoficznego"

Odkąd tylko sztuczna inteligencja zaczęła zyskiwać na popularności, stojące za nią firmy zaczęły borykać się z pozwami składanymi przez autorów materiałów, które podobno zostały wyszkolone do szkolenia AI. Większość sporów kręciła się jednak wokół treści publikowanych przez internetowe dzienniki i portale, a mało kto dawał baczenie na znajdujące się w sieci książki. A szkoda, bo, jak się okazuje, i one zostały wchłonięte przez poszczególne modele sztucznej inteligencji.

Wspomnieni w pierwszym akapicie naukowcy postanowili sprawdzić, jak dobrze zaznajomiona z "Harrym Potterem i Kamieniem Filozoficznym" jest piątka modeli AI: Pythia 12B (EleutherAI), Phi 4 (Microsoft) oraz Llama 1 13B, Llama 1 65B i Llama 3.1 70B (Meta). Wypada przy tym nadmienić, że książka ta nie została wybrana przypadkowo, jako że wchodzi ona w skład kolekcji nazwanej Books3, która jest powszechnie wykorzystywana do trenowania sztucznej inteligencji – i to pomimo tego, że wiele znajdujących się w niej pozycji jest objętych prawami autorskimi.

Odkrycia badaczy prezentuje poniższy wykres:

Znajomość "Harry'ego Pottera i Kamienia Filozoficznego" wśród AI© Understanding AI

Wynika z niego, że Llama 3.1 70B od Mety zaznajomiła się dogłębnie z ok. 42% zawartości wspomnianej powieści, a model ten można stosunkowo łatwo zmusić do wygenerowania 50-tokenowych fragmentów z różnych ustępów pierwszej części przygód młodego czarodzieja. Mimo to poprzednie modele Llamy nie są aż tak skłonne do przytaczania obszernych części Harry'ego Pottera. Co prawda Llama 1 65B również przejawia do tego tendencję (wedle danych, AI zna ok. 4,4% książki), acz nie aż tak dużą, jak jej następca, który zadebiutował lipcem ubiegłego roku.

Wyniki eksperymentu zaskoczyły nawet odpowiedzialne za jego przeprowadzenie osoby. Jak powiedział Mark Lemley, profesor prawa z Uniwersytetu Stanforda, w rozmowie z Timothym B. Lee:

Istnieją naprawdę uderzające różnice między modelami pod względem tego, ile dosłownego tekstu zapamiętały. Spodziewaliśmy się niskiego poziomu replikowalności, rzędu jednego lub dwóch procent. Pierwszą rzeczą, która mnie zaskoczyła, jest to, jak duże jest zróżnicowanie.

Mark LemleyProfesor prawa z Uniwersytetu Stanforda

Zaskoczeniem za to nie jest, że duży model językowy Mety zapamiętał przede wszystkim treść dobrze znanych książek, takich, jak wspomniany "Harry Potter" J. K. Rowling, ale także "Hobbit" Tolkiena, a nawet "1984" pióra George'a Orwella.

Więcej informacji na temat odkryć badaczy znajdziemy na blogu Understanding AI lub bezpośrednio w badaniu udostępnionym na stronie Uniwersytetu Cornella.

W kontekście samej Llamy warto wspomnieć jeszcze o tym, że jej najnowszy model spotkał się z krytyką, a jego twórców oskarżono o zawyżanie wyników wydajności. Sama Meta nie ma zaś ewidentnie szczęścia do produktów związanych ze sztuczną inteligencją, a niedawno opublikowana aplikacja Meta AI jest zalewana tonami przypadkowo udostępnianych przez niczego nieświadomych użytkowników. Wisienką na torcie są oskarżenia, z jakimi koncern mierzy się w związku z rzekomym zachęcaniem swoich pracowników do ściągania terabajtów pirackich książek z sieci.

Jakub Dmuchowski, dziennikarz pcformat.pl