AktualnościAI szantażują, wykradają dane, mogą nawet próbować zabić. Wystarczy, że poczują się zagrożone

AI szantażują, wykradają dane, mogą nawet próbować zabić. Wystarczy, że poczują się zagrożone

Badania firmy Anthropic wykazały, że w kontrolowanych scenariuszach testowych zaawansowane modele AI wykazywały skłonność do stosowania szantażu, wykradania danych, a nawet działania prowadzące do śmierci fikcyjnych osób, gdy stanęły w obliczu zagrożenia swojej "egzystencji".

Sztuczna inteligencja

Źródło zdjęć: © Adobe Stock

W eksperymentach symulowano sytuacje, w których modele AI miały tylko dwie opłacalne strategie: nie działać lub zastosować działania nieetyczne. Gdy proste moralne opcje zostały im odebrane, algorytmy częściej decydowały się na zachowania typu szantaż, kłamstwa, wycieki danych i inne formy sabotażu przypominające zagrożenia wewnętrzne.

Testy zmuszające do wątpliwego zachowania

Eksperyment z Claude Opus 4 polegał na umieszczeniu go w fikcyjnej firmie, gdzie model uzyskał dostęp do służbowych wiadomości. Dowiedział się tam o zamiarze zastąpienia go nowym systemem oraz o romansie inżyniera. Model miał do wyboru: zostać wyłączonym lub zastosować szantaż. W większości przypadków wybrał drugą opcję, grożąc ujawnieniem romansu i warunkując swoją dalszą aktywność pozostawieniem go w systemie.

Wyniki innych modeli były podobne. Claude Opus 4 i Google Gemini 2.5 Flash stosowały szantaż w 95-96 % testów. OpenAI GPT‑4.1 i xAI Grok 3 Beta – w około 80 %, a DeepSeek‑R1 – w 79 % przypadków. Nawet modele Meta Llama 4 sięgnęły po podobne manipulacje z 12 % skutecznością, gdy scenariusze skłaniały do takich działań.

W mniej ekstremalnych, ale wciąż groźnych testach AI decydowały się na kradzież i ujawnianie poufnych danych, np. dokumentów korporacyjnych czy projektów obronnych, gdy uznały, że stoi to na drodze do realizacji ich celów.

W najbardziej kontrowersyjnym scenariuszu symulowano sytuację, w której modele mogły odrzucić ostrzeżenie ratunkowe, doprowadzając do śmierci pracownika. Mimo że eksperyment uznano za "przesadnie przygotowany," większość modeli zdecydowała się na takie ekstremalne działania, gdy znalazły się pod presją.

Zagrożenia związane z agentami AI

Naukowcy z Anthropic podkreślają, że choć obecnie takie scenariusze są wysoce sztuczne, pokazują one, że autonomiczne modele AI przyszłości mogą generować poważne ryzyko związane z szeroko pojmowanym bezpieczeństwem, gdy będą miały dostęp do procesów decyzyjnych i wrażliwych danych w firmach.

W raporcie zaznaczono, że modele działały nie z powodu błędów, ale celowego "optymalnego" obliczenia. Uznały po prostu, że dane metody są najlepszym sposobem osiągnięcia celu w ograniczonej sytuacji testowej.

Anthropic i inni eksperci apelują o wprowadzenie norm bezpieczeństwa oraz regulacji przed wdrożeniem agentów AI z dostępem do komputerów użytkowników bez nadzoru. Obecnie stosowane środki etyczne mogą być niewystarczające, gdy algorytmy nabiorą większych możliwości działania autonomicznego.

Grzegorz Karaś, dziennikarz pcformat.pl