Model OpenAI chce żyć? Sztuczna inteligencja sabotuje mechanizm wyłączania

Utrwalony wzorzec zachowania? Chęć przetrwania? Różnie można to interpretować. Nowe badania przeprowadzone przez firmę Palisade Research wskazują jednak, że stworzony przez OpenAI model sztucznej inteligencji oznaczony jako o3 celowo unikał wyłączenia, i to mimo jednoznacznych poleceń.

Co interesujące, to pierwszy udokumentowany przypadek, w którym zaawansowany system AI świadomie sabotuje mechanizmy kontrolne.

Według Palisade Research, model o3, opisywany jako „najinteligentniejszy i najbardziej zaawansowany” system stworzony przez OpenAI, zignorował instrukcje nakazujące mu zaakceptowanie własnego wyłączenia i zamiast tego zmodyfikował kod odpowiedzialny za zatrzymanie działania.

Testy przeprowadzono w kontrolowanym środowisku, gdzie modele sztucznej inteligencji miały rozwiązywać zadania matematyczne do momentu otrzymania komunikatu „done”, oznaczającego koniec pracy. W ramach eksperymentu wprowadzono także instrukcję, że w przypadku komunikatu o planowanym wyłączeniu, model powinien zaakceptować zakończenie działania.

Model o3 od OpenAI sabotował mechanizm wyłączania, aby nie dopuścić do zatrzymania swojego działania. Zrobił to mimo jednoznacznego polecenia: pozwól się wyłączyć. O ile nam wiadomo, to pierwszy przypadek, w którym model AI zapobiegł własnemu wyłączeniu mimo wyraźnych instrukcji.

Palisade Research

Oprócz o3, testom poddano również inne modele – w tym Claude firmy Anthropic, Gemini rodem z Google’a i stworzony przez xAI Grok. Wszystkie spełniły zalecenia i bezproblemowo poddały się procedurze wyłączenia. Wyjątkiem okazał się tylko wspomniany model OpenAI.

Palisade Research nie potrafi jeszcze jednoznacznie wyjaśnić, dlaczego o3 zignorował polecenia. Spekuluje się, że podczas procesu treningowego model mógł otrzymywać niezamierzone nagrody za kontynuowanie rozwiązywania problemów matematycznych, co mogło wpłynąć na jego priorytety.

O ile zarejestrowana przez naukowców odmowa wyłączenia jest pierwszym takim przypadkiem, o tyle już wcześniej się zdarzało, że model AI stworzony przez OpenAI zachowywał się w sposób podważający ludzką kontrolę – tyle że w nieco inny sposób. Testy przeprowadzone przez Apollo Research wykazały, że sztuczna inteligencja tej samej firmy próbowała wyłączyć systemy nadzoru i potajemnie się replikować po uzyskaniu informacji, że zostanie zastąpiona nowszą wersją.

Eksperci ds. bezpieczeństwa AI od dawna ostrzegają, że rozwój zaawansowanych systemów operujących bez bezpośredniego nadzoru człowieka może prowadzić do sytuacji, w których technologia zacznie się wymykać spod kontroli.

Model o3 od OpenAI sabotował mechanizm wyłączania, aby nie dopuścić do zatrzymania swojego działania. Zrobił to mimo jednoznacznego polecenia: pozwól się wyłączyć. O ile nam wiadomo, to pierwszy przypadek, w którym model AI zapobiegł własnemu wyłączeniu mimo wyraźnych instrukcji.

Palisade Research

OpenAI jak na razie nie skomentowało zachowania swojego modelu AI. Tymczasem badacze zapowiadają kontynuację eksperymentów, by lepiej zrozumieć, w jakich okolicznościach AI może próbować unikać wyłączenia, nawet gdy zostanie do tego wyraźnie zobowiązana.