Reddit pozywa Anthropic. Firma podobno nielegalnie zbierała dane z serwisu
Anthropic podobno postanowiło obejść wymóg płacenia Redditowi za dostęp do znajdujących się na nim treści celem szkolenia sztucznej inteligencji, co bardzo nie spodobało się włodarzom portalu i poskutkowało pozwem.
Jak podaje internetowy dziennik New York Times, w minioną środę, tj. 4 czerwca, właściciele Reddita podjęli decyzję o złożeniu pozwu przeciw start-upowi Anthropic – jednemu z czołowych przedstawicieli branży AI i twórcy dużego modelu językowego Claude. Ze złożonego w Sądzie Najwyższym Kalifornii w San Francisco pisma wynika, że Anthropic postanowiło złamać zasady wykorzystywania treści z Reddita i nielegalnie uzyskało dostęp do nich nie raz, nie dwa, a przeszło sto tysięcy razy.
Reddit pozywa Anthropic za nielegalne zbieranie danych
Co więcej, Anthropic podobno otrzymał ofertę podpisania umowy licencyjnej na zawarte w Reddicie dane, niemniej przedsiębiorstwo zdecydowało się ją odrzucić i pozyskiwać dane na własną rękę, z pogwałceniem obowiązujących zasad. W związku z tym popularny portal doszedł do wniosku, że dalsze dyskusje nie mają sensu, a sprawa została skierowana do sądu i to on zadecyduje, czy poczynania Anthropic były zgodne z prawem.
Jeśli wierzyć zapewnieniom jednej ze stron konfliktu, jego zarzewie sięga lipca ubiegłego roku, kiedy to Anthropic zobowiązało się do wycofania swoich botów z Reddita. Jak nietrudno się domyślić, okazało się to obietnicą bez pokrycia w rzeczywistości, a firma kontynuowała zbieranie danych na rzecz dalszego trenowania modeli sztucznej inteligencji. W pozwie zawarto również wzmiankę, że konkurenci krnąbrnego przedsiębiorstwa nie robili takich problemów i większość z nich zgodziła się na postawione przez Reddita warunki.
W lipcu 2024 r. Anthropic twierdził, w odpowiedzi na publiczne protesty Reddita dotyczące niewłaściwego wykorzystania treści Reddita przez Anthropic, że zablokował swoim botom dostęp do Reddita. Tak się jednak nie stało. Boty Anthropic nadal trafiały na serwery Reddit ponad sto tysięcy razy. Anthropic twierdzi, że zaprogramował swoją sztuczną inteligencję tak, aby "wybrała odpowiedź, która najbardziej szanuje prywatność wszystkich". Tak jednak nie jest. W przeciwieństwie do swoich konkurentów, Anthropic odmówił zgody na poszanowanie podstawowych praw do prywatności użytkowników Reddit, w tym usuwania usuniętych postów ze swoich systemów. Anthropic jest w rzeczywistości przeszkolony na najbardziej solidnej platformie dyskusyjnej online na świecie – Reddit.com.
Z kolei włodarze Reddita utrzymują, że w toczącym się sporze z Anthropic nie chodzi jedynie o pieniądze (aczkolwiek one również są istotne), ale także o poszanowanie prywatności użytkowników portalu. Jak przekazał Ben Lee, główny radca prawny serwisu, w wystosowanym przez siebie oświadczeniu:
Nie będziemy tolerować podmiotów szukających zysku, takich jak Anthropic, komercyjnie wykorzystujących treści Reddit za miliardy dolarów bez żadnego zwrotu dla redaktorów lub poszanowania ich prywatności. Firmy zajmujące się sztuczną inteligencją nie powinny mieć możliwości pozyskiwania informacji i treści od ludzi bez wyraźnych ograniczeń dotyczących sposobu, w jaki mogą wykorzystywać te dane.
Reddit jest cennym źródłem informacji, a funkcjonujący od 2025 r. portal może pochwalić się tytułem największej sieciowej platformy dyskusyjnej. Nic więc dziwnego, że firmy zajmujące się szkoleniem AI próbują za wszelką cenę położyć ręce na znajdujących się w nim materiałach. Wedle oficjalnych informacji, Reddit ma ponad 100 milionów aktywnych użytkowników miesięcznie, a wielu z nich dokłada swoją cegiełkę do powstania niewiarygodnie cennego zbioru informacji.
Mimo pierwszej poważnej konfrontacji z Anthropic lipcem 2024 r., boty start-upu wyciągały co ciekawsze kąski z Reddita już od grudnia 2021 roku. Prezes firmy stwierdził, że "trenowanie modeli AI na dużych, publicznie dostępnych danych modelowania preferencji, pochodzących np. z komentarzy na Reddicie, znacznie poprawia wydajność próbkowania podczas późniejszego dostrajania na małych zestawach danych modelowania preferencji".
Anthropic wciąż nie wydało oświadczenia w tej sprawie, acz nie zaprzecza, że korzystało z dostępnych na Reddicie danych do szkolenia modelu Claude. Co więcej, nawet sam czatbot jest w stanie to potwierdzić po otrzymaniu stosownego pytania.
Jakub Dmuchowski, dziennikarz pcformat.pl