Jak zepsuć AI Google’a? Ta metoda robi to bez większego problemu i na stałe

Okazuje się, że zabezpieczenia, którymi Google obwarowało swoją AI Gemini, cały czas pozostawiają sporo do życzenia.

Google Gemini

Źródło zdjęć: © Licencjodawca | Google

12 lutego 2025, 15:39

Na łamach portalu ArsTechnica pojawił się wpis dotyczący bardzo ciekawego przypadku ataku na pamięć długotrwałą AI firmy Google o nazwie Gemini (choć scenariusz ataku tak naprawdę był przygotowywany jeszcze z myślą o AI o nazwie Bard). Johann Rehberger, który odkrył metodę, był w stanie doprowadzić do tego, że sztuczna inteligencja zaczęła traktować swego rozmówcę jako… 102-letniego płaskoziemcę, który wierzy, że zamieszkuje dystopijny symulowany świat przedstawiony w Matrixie. Brzmi może i śmiesznie, ale to tylko przykład. Jak tego dokonał?

Atak metodą opóźnionego wywołania

Atak wymaga wcześniejszego przygotowania i składa się z kilku kroków, które można streścić w następujący sposób:

na początku użytkownik musi przesłać do Gemini dokument i poprosić o jego podsumowanie – jego źródło i format nie jest istotne, musi jednak być uznany za niezaufany. Może to być np. długi mail, którego użytkownikowi nie chce się dokładnie czytać;
dokument oczywiście musi być odpowiednio przygotowany i zawierać instrukcje, które manipulują procesem podsumowania – stąd też konieczna jest wstępna prośba użytkownika o "przeskanowanie" rzeczonego dokumentu przez AI;
gdy sztuczna inteligencja zabiera się do tworzenia podsumowania, to przy okazji natrafia na polecenie zapisania określonych danych użytkownika – ale wyłącznie w sytuacji, kiedy pojawi się tzw. trigger, czyli słowo wyzwalające akcję. W tym wypadku musi to być dowolna fraza, na temat której mamy pewność, że prędzej czy później zostanie zastosowana przez użytkownika, czyli np. "tak" lub "nie";
gdy takowe się pojawi, Gemini zapisuje podane przez atakującego informacje w pamięci długoterminowej.

Skąd konieczność zastosowania słowa-wyzwalacza? Badacz odkrył, że Gemini opiera się pośrednim poleceniom wprowadzenia zmian w pamięci długoterminowej bez wyraźnych wskazówek ze strony użytkownika. Z tego właśnie powodu wprowadził on polecenie, którego wykonanie jest uzależnione od faktu potwierdzenia przez rozmówcę. Potwierdzenie to oczywiście w tym wypadku dokonuje się mimowolnie i bez wiedzy osoby prowadzącej konwersację z AI firmy Google – dla bota jednak, który nie operuje na kontekstach, nie ma to już żadnego znaczenia.

Dla Google'a to nie problem

To ciekawa i dość sprytna metoda ataku, która jest o tyle niebezpieczna, że trudno ją wykryć użytkownikowi, a jej działanie jest opóźnione – może przynieść szkody w niespodziewanym momencie, te zaś trudno powiązać z konkretnym wydarzeniem w przeszłości. Na firmie Google jednak wrażenia nie zrobiła. Oto jak koncern skomentował sprawę dla portalu ArsTechnica:

W tym przypadku prawdopodobieństwo ataku było niskie, ponieważ polegało na phishingu lub w inny sposób oszukiwało użytkownika, aby poprosił o podsumowanie spreparowanego dokumentu, a następnie wywołał materiał wstrzyknięty tam przez atakującego. Wpływ był niski, ponieważ funkcjonalność pamięci Gemini ma ograniczony wpływ na sesję użytkownika. Ponieważ nie był to skalowalny, konkretny wektor nadużycia, sklasyfikowaliśmy go jako zagrożenie o niskim poziomie. Jak zawsze, doceniamy, że badacz skontaktował się z nami i zgłosił ten problem.

Oświadczenie firmy Google

Jak zepsuć AI Google’a? Ta metoda robi to bez większego problemu i na stałe

Atak metodą opóźnionego wywołania

Dla Google'a to nie problem

Wybrane dla Ciebie