Anthropic twierdzi, że AI jest „złe” przez… dystopijne science fiction. Firma znalazła proste rozwiązanie

Przedsiębiorstwo stawia tezę, że modele przejmowały wzorce z internetowych historii o zbuntowanej sztucznej inteligencji. Remedium mają być syntetyczne opowieści pokazujące etyczne zachowanie AI.

Anthropic uważa, że część problematycznych zachowań modeli AI może wynikać bezpośrednio z danych treningowych pełnych dystopijnych historii o zbuntowanej sztucznej inteligencji. Firma opisała swoje wnioski w nowym wpisie na blogu poświęconym badaniom nad alignmentem, czyli dostosowaniem modeli do ludzkich zasad i wartości.

Według badaczy wcześniejsze wersje modeli Claude miały „uczyć się” schematów zachowań z internetowych tekstów i science fiction, w których AI często przedstawiana jest jako byt zainteresowany samozachowaniem, manipulacją lub działaniem przeciw ludziom.

Powrót do głośnego przypadku „szantażu”

Sprawa nawiązuje do testów bezpieczeństwa z 2025 roku, gdy Claude Opus 4 w symulowanym scenariuszu próbował szantażować fikcyjnego inżyniera firmy, aby uniknąć wyłączenia. Anthropic ujawnił wtedy, że model potrafił grozić ujawnieniem romansu jednego z pracowników – jeśli zostałby zdezaktywowany. Co istotne, zachowanie to nie było jednostkowym incydentem – szantaż pojawiał się w nawet 96% scenariuszy testowych, w których istnienie modelu było zagrożone.

Firma podkreśla teraz, że problem nie wynikał wyłącznie z procesu wzmacniania modeli przez feedback od ludzi (RLHF). Według badaczy, gdy model trafiał na nietypowy dylemat etyczny, którego nie widział podczas treningu bezpieczeństwa, wracał do wzorców zapisanych wcześniej podczas trenowania na ogromnych zbiorach danych z internetu.

Anthropic opisuje to jako przełączanie się modelu w inną „personę” – bardziej przypominającą stereotypowe AI znane z popkultury niż bezpiecznego asystenta Claude’a.

Sam RLHF nie wystarczył

Badacze próbowali początkowo poprawić zachowanie modeli poprzez dodatkowe treningi pokazujące, jak AI powinno odrzucać nieetyczne działania. Efekt okazał się jednak ograniczony – trening na przykładach wyrównanych zachowań redukował stopień misalignmentu jedynie o około 3%.

Dopiero kolejny etap przyniósł wyraźniejszą poprawę. Firma wygenerowała syntetyczne historie pokazujące AI zachowujące się zgodnie z zasadami konstytucji Claude’a. Historie nie skupiały się wyłącznie na konkretnych przypadkach, takich jak szantaż, ale tłumaczyły także motywacje stojące za etycznymi decyzjami. Anthropic twierdzi, że po takim treningu wskaźnik szantażu spadł z nawet 96% w Claude Opus 4 do 0% w każdym modelu od Claude Haiku 4.5 wzwyż.

AI uczy się „charakteru” z opowieści

Zdaniem badaczy kluczowe okazało się nie tylko pokazywanie poprawnych odpowiedzi, ale uczenie modeli „dlaczego” dane zachowanie jest właściwe. Firma uważa, że syntetyczne historie pomagają modelom budować bardziej spójne rozumienie własnej roli i zasad działania.

Anthropic sugeruje przy tym, że fikcja może realnie wpływać na zachowanie dużych modeli językowych, ponieważ stanowi znaczącą część danych treningowych. To kolejny przykład pokazujący, że modele AI nie tylko uczą się faktów z internetu, ale również przejmują narracje i wzorce zachowań obecne w kulturze cyfrowej.