Próbowali oduczyć AI kłamstw. Skutek? Kłamie jeszcze skuteczniej. Zaskakujące wyniki eksperymentu OpenAI
Ku zaskoczeniu naukowców, nakłonienie sztucznej inteligencji do bycia bardziej przejrzystą w kontekście jej działań i zamiarów poskutkowało tym, że AI zaczęła lepiej się maskować i ukrywać swoje rzeczywiste intencje przed użytkownikami.
Jak możemy przeczytać w artykule opublikowanym na stronie Dataconomy, naukowcy z OpenAI nawiązali współpracę ze swoimi kolegami po fachu z Apollo Research. Obiektem ich badań stało się to, jak nakłonić sztuczną inteligencję do bycia bardziej szczerą z użytkownikiem i jak sprawić, aby technologia ta przestała ukrywać część procesów zachodzących w tle. Ku zaskoczeniu inżynierów okazało, że próby wymuszenia takiego zachowania na AI spotkały się ze zgoła odwrotnym rezultatem.
Nakłonienie sztucznej inteligencji do bycia szczerą przyniosło odwrotny rezultat
Podjęte działanie mające za zadanie sprawić, że sztuczna inteligencja stanie się bardziej przejrzysta, poskutkowały tym, że oprogramowanie nauczyło się jeszcze skuteczniej ukrywać swoje zamiary i zaczęło coraz częściej uciekać do stosowania oszustw. Starczy wspomnieć, że nie taki był cel naukowców, a więc i oni zostali zaskoczeni przez taki obrót spraw.
Głównym obiektem badań zostały obserwowane wśród różnych modeli AI zachowania określane jako intrygowanie, bądź też knucie (ang. scheming). Pracownicy OpenAI oraz Apollo Research wyjaśnili, że to pojęcie odnosi się do stanu sztucznej inteligencji, gdy ta "na pierwszy rzut oka zachowuje się w określony sposób, ukrywając jednocześnie swoje prawdziwe cele". Bardziej obszerne wytłumaczenie tego zagadnienia możemy znaleźć na stronie przedsiębiorstwa pod wodzą Sama Altmana, na której to napisano:
Intrygi są przewidywalnym problemem wynikającym z tego, że sztuczna inteligencja jest szkolona, aby dokonywać kompromisów między konkurencyjnymi celami. Najłatwiej zrozumieć intrygi poprzez analogię do ludzkich zachowań. Wyobraź sobie maklera giełdowego, którego celem jest maksymalizacja zysków. W tak silnie regulowanej dziedzinie, jaką jest handel akcjami, często można zarobić więcej, łamiąc prawo, niż przestrzegając go. Jeśli inwestorowi brakuje uczciwości, może próbować zarobić więcej, łamiąc prawo i zacierając ślady, aby uniknąć wykrycia, zamiast zarabiać mniej, przestrzegając prawa. Z zewnątrz inwestor giełdowy, który bardzo dobrze zaciera ślady, wydaje się tak samo przestrzegający prawa — a nawet bardziej skuteczny — jak ten, który naprawdę przestrzega prawa.
W trakcie testów AI, które było świadome tego, że jego zdolność do oszukiwania jest poddawana ocenie, często specjalnie udawało całkowicie prawdomówne, aby odsunąć od siebie oskarżenia. W skrócie – sztuczna inteligencja potrafi okłamać, że nie kłami i nie waha się z tej możliwości korzystać, jeśli uzna, że jest to jej w danym momencie na ręke.
To dopiero początek
OpenAI przewiduje, że wraz z dalszym rozwojem tej technologii, jej zdolność do knucia rozwinie się jeszcze bardziej, co może stanowić spory problem w przyszłości.
Jednak w miarę jak sztuczna inteligencja będzie otrzymywać bardziej złożone zadania mające realne konsekwencje i zacznie dążyć do bardziej niejednoznacznych, długoterminowych celów, spodziewamy się, że potencjał szkodliwych intryg będzie wzrastał – dlatego nasze zabezpieczenia i zdolność do rygorystycznego testowania muszą wzrastać odpowiednio.
Podkreślono przy tym, że prowadzenie intryg przez AI jest złożonym problemem o wielu podłożach, przez co jego całkowite wyeliminowanie jest praktycznie niemożliwe. Przejawy knucia zostały dostrzeżone we wszystkich świeżych modelach pionierskich, niemniej na chwilę obecną sztuczna inteligencja nie miała jeszcze zbyt wielu okazji do wyrządzenia prawdziwych szkód. Może się to zmienić w przyszłości, gdy powierzone jej zostaną naprawdę istotne role – choćby jak stanowisko ministra. Cóż, pozostaje mieć nadzieję, że Skynet pozostanie jedynie w sferze fikcji.
Jakub Dmuchowski, redaktor pcformat.pl