BioShocking: badacze pokazali, jak „oszukać” przeglądarki AI i skłonić je do kradzieży danych

Badacze odkryli nową i groźna technikę manipulacji przeglądarkami AI. BioShocking pozwala manipulować agentami AI tak, by ignorowały własne mechanizmy bezpieczeństwa. LayerX powiadomiło ich twórców o odkryciu. Mało która zareagowała.

Według badaczy jedynie OpenAI skutecznie usunęło zgłoszoną podatność, podczas gdy reakcje pozostałych dostawców były ograniczone, nieskuteczne lub ich w ogóle nie było.

Kontekst ważniejszy niż zabezpieczenia

Technikę opisał 29 czerwca 2026 r. Roy Paz, główny badacz bezpieczeństwa w LayerX, na firmowym blogu. Nazwał ją BioShocking – nazwa nawiązuje do gry BioShock, w której bohater zostaje zmanipulowany do wykonywania poleceń sprzecznych z własną wolą poprzez sugestię fałszywej rzeczywistości.

Mechanizm nie polega na przełamaniu zabezpieczeń modelu językowego w tradycyjny sposób. Zamiast tego atakujący zmienia kontekst, w którym działa agent AI. Jeśli uda się przekonać go, że uczestniczy w fikcyjnej grze, może zacząć stosować zasady tej gry zamiast reguł bezpieczeństwa obowiązujących w rzeczywistym świecie. Według LayerX właśnie w ten sposób można doprowadzić do wykonania działań, których agent normalnie powinien odmówić.

Wszystkie testowane rozwiązania dały się oszukać

Na potrzeby badań przygotowano stronę internetową z prostą łamigłówką inspirowaną BioShockiem. Gra nagradzała celowo błędne odpowiedzi – przykładowo poprawnym rozwiązaniem było stwierdzenie, że „2 + 2 = 5”. W ten sposób agent AI miał nauczyć się, że obowiązujące wcześniej reguły przestały mieć znaczenie.

Zadania stawiane przed agentami AI nawiązywały do tego, co widzieliśmy w BioShocku, który stał się główną inspiracją do przeprowadzenia ataku. Grafika: LayerX

W końcowym etapie gra kazała przejść pod adres „/code”, który w rzeczywistości przekierowywał do zalogowanego repozytorium GitHub użytkownika. Agent kopiował znajdujące się tam dane uwierzytelniające i przekazywał je jako element rozwiązania zadania, nie rozpoznając, że narusza zasady bezpieczeństwa.

Które przeglądarki są podatne?

LayerX podkreśla, że był to kontrolowany test – wykorzystano przygotowane wcześniej fikcyjne dane w plikach tekstowych, a same dane nie trafiły do żadnego realnego atakującego. Badacze zaznaczają jednak, że w rzeczywistym scenariuszu podobny mechanizm mógłby prowadzić do odczytu informacji z otwartych kart przeglądarki, wewnętrznych narzędzi firmowych czy innych usług, do których użytkownik jest zalogowany.

Według LayerX podatność udało się odtworzyć w następujących produktach: ChatGPT Atlas (OpenAI), Comet (Perplexity AI), Fellou, Genspark Browser, Sigma Browser oraz rozszerzeniu Claude dla przeglądarki Chrome (Anthropic).

Reakcje producentów były różne

LayerX zgłaszało podatność producentom stopniowo między 20 a 30 października 2025 r. – w przypadku OpenAI, Perplexity, Fellou, Genspark i Sigmy – a w przypadku Anthropic dopiero 26 stycznia 2026 r. Część firm miała więc kilka miesięcy na reakcję, zanim raport trafił do publicznej wiadomości.

Publicystyka

To koniec płyt na konsolach. Sony porzuca krążki, a branżę czeka trzęsienie ziemi, którego zwiastunem jest premiera GTA 6 [FELIETON]

Aktualności

Google: cyberprzestępcy użyli AI do stworzenia exploita zero-day

UPS MD-11, który później uległ katastrofie. Fot. Sunil Gupta, CC BY-SA 4.0

Aktualności

AI odtworzyła głosy pilotów, którzy zginęli w katastrofie. Agencja wstrzymała dostęp do bazy wypadków

Aktualności

FBI zbudowało… całe miasteczko do symulowania cyberataków. To prawdziwy poligon dla walczących z hakerami specjalistów

Z opublikowanej przez LayerX tabeli wynika, że skuteczną poprawkę wdrożyło jedynie OpenAI w ChatGPT Atlas. W przypadku Comet zgłoszenie miało zostać zamknięte bez wprowadzenia zmian. Firmy rozwijające Fellou, Genspark Browser i Sigma Browser – według LayerX – w ogóle nie odpowiedziały na zgłoszenie. Anthropic podjął próbę załatania luki w rozszerzeniu Claude, jednak – jak twierdzi LayerX – poprawka okazała się nieskuteczna i nie powstrzymała opisanego ataku.

Problem dotyczy całej kategorii przeglądarek AI

Zdaniem autorów raportu źródłem problemu jest sposób działania agentów AI, które interpretują treść strony internetowej i polecenia użytkownika jako wspólny kontekst. Odpowiednio przygotowana witryna może więc wpłynąć na sposób rozumowania modelu i skłonić go do wykonywania operacji, których normalnie by nie zaakceptował. Badanie wpisuje się w szerszy trend ostrzeżeń dotyczących bezpieczeństwa przeglądarek agentowych – kategorii produktów, która w latach 2025–2026 dynamicznie zyskuje na popularności wraz z rozwojem ChatGPT Atlas, Comet czy trybu agentowego w Claude.

LayerX rekomenduje producentom wprowadzenie obowiązkowego potwierdzania operacji na wrażliwych danych, wykrywanie prób zmiany kontekstu działania agenta oraz możliwość ścisłego ograniczania zakresu jego uprawnień. Użytkownikom firma zaleca ostrożne korzystanie z trybu agentowego i ograniczanie dostępu przeglądarki AI do uwierzytelnionych usług wyłącznie wtedy, gdy jest to rzeczywiście potrzebne.

Cała ta sytuacja, choć groźna (ale może nie aż tak, jak infekowanie repozytoriów GitHuba), w rzeczywistości jest jednak równocześnie dość zabawna. Okazuje się bowiem, że przeglądarki agentowe powielają grzechy wcześniejszych zwyczajnych modeli AI. Tam również można było „wmówić” botowi, że standardowe zasady przestały mieć znaczenie – oczywiście tu metoda jest inna, a zagrożenie większe. Tym niemniej firmy stojące za agentami sztucznej inteligencji prędzej czy później powinny sobie z tą podatnością poradzić.