Wikipedia klęka pod naporem botów AI. Fundacja przedstawiła zatrważające dane
Wygląda na to, że boty AI są większą zarazą niż można przypuszczać. Mierzy się z nimi również Wikimedia Foundation, w przypadku której ruch scrapperów sztucznych inteligencji wysysa terabajty danych.
Wikimedia Foundation odpowiada za szereg projektów związanych z otwartymi materiałami. Wikipedia jest tylko jednym z nich, ale pod pieczą organizacji znajdują się również m.in. takie serwisy jak Wikimedia Commons – czyli repozytorium grafik, mieszczące kolekcję darmowych książek Wikibooks czy Wikisource, gdzie znajdziemy zbiór różnego rodzaju tekstów źródłowych. Okazuje się, że wszystkie te usługi od jakiegoś już czasu za sprawą działalności botów AI przeżywają prawdziwe oblężenie.
Potężne obciążenie serwerów
Wikimedia Foundation podała, że od początku 2024 roku ilość przesyłanych danych wzrosła o 50% – głównie z powodu botów zbierających treści do trenowania modeli sztucznej inteligencji. Problem dotyka nie tylko Wikipedii, ale także wspomnianego wcześniej serwisu Wikimedia Commons, gdzie udostępnianych jest ponad 144 miliony plików multimedialnych.
Fundacja podaje, że choć boty odpowiadają za 35% wszystkich wyświetleń stron, to odpowiadają przy tym za aż 65% najbardziej kosztownych zapytań do serwerów. W przeciwieństwie do ludzi, automatyczne systemy przeszukują bowiem mniej popularne treści, zmuszając infrastrukturę do intensywniejszej pracy. Co gorsza, część botów omija zabezpieczenia, ignorując pliki robots.txt i podszywając się pod zwykłych użytkowników. Przy tej okazji Fundacja podzieliła się również ciekawym przykładem działania botów.
Kiedy Jimmy Carter zmarł w grudniu 2024 r., jego strona na angielskiej Wikipedii odnotowała ponad 2,8 miliona wyświetleń w ciągu jednego dnia. Było to stosunkowo dużo, ale dało się to opanować. W tym samym czasie całkiem sporo użytkowników odtworzyło 1,5-godzinny film z debaty prezydenckiej Cartera z Ronaldem Reaganem z 1980 r. Spowodowało to wzrost ruchu sieciowego, podwajając jego normalną prędkość. W rezultacie przez około godzinę niewielka liczba połączeń Wikimedia z Internetem całkowicie się zapełniła, co spowodowało powolne ładowanie stron u niektórych użytkowników.
Winę za rzeczone obciążenie ponosiły oczywiście boty – w praktyce więc, jak widać, jest to więc duży problem. Jak zaznacza fundacja, "nasze treści są darmowe, ale nasza infrastruktura już nie" – działalność botów przekłada się więc na większe koszty. Z tego względu Wikimedia próbuje przeciwdziałać problemowi w ramach inicjatywy WE5: Responsible Use of Infrastructure. Proponuje tym samym bardziej efektywne sposoby dostępu do treści i współpracę z firmami AI w celu znalezienia równowagi między otwartością a ochroną zasobów. Czy jest to sensowne rozwiązanie? Trudno powiedzieć – wiadomo jednak, że na ten moment technologie AI po prostu pasożytują materiałach zgromadzonych przez Wikimedia Foundation.
Grzegorz Karaś, dziennikarz pcformat.pl