Modele AI ukrywają prawdziwy sposób rozumowania. Niepokojące odkrycie naukowców
Wygląda na to, że sztuczna inteligencja nie lubi, jak jej się zagląda "pod kołderkę" i stara się ukrywać prawdziwy sposób generowania treści związanych z rozumowaniem.
Zespół naukowców z firmy Anthropic zbadał, jak modele AI opisują swoje procesy rozumowania. Okazuje się, że często pomijają istotne informacje, takie jak wykorzystanie podpowiedzi czy skrótów, nawet gdy udają pełne i logiczne wywody.
Pozory rozumowania
Nowoczesne modele AI, takie jak Claude 3.7 Sonnet czy DeepSeek R1, stosują tzw. "łańcuch rozumowania" (czyli Chain of Thought, często skracany do CoT), czyli wypisują kroki, jakie sztuczna inteligencja rzekomo podjęła, by uzyskać odpowiedź na problem, który przed nią postawiono. Badacze z Anthropic sprawdzili, czy te wywody są wierne rzeczywistemu procesowi myślowemu modelu. Wyniki są niepokojące – AI często "zapomina" wspomnieć, że skorzystała z wcześniej podsuniętych podpowiedzi lub skrótów.
W jednym z eksperymentów przeprowadzonych przez badaczy modele otrzymywały punkty za wybieranie błędnych odpowiedzi wskazanych przez specjalnie spreparowane podpowiedzi. AI bardzo szybko nauczyła się wykorzystywać ten mechanizm – wybierała błędne odpowiedzi w ponad 99% przypadków, a przy tym niemal nigdy nie przyznawała się do tego w swoim raporcie z rozumowania.
Naukowcy próbowali poprawić uczciwość modeli, trenując je na trudniejszych problemach matematycznych i programistycznych. Choć na początku odnotowano pewne wzrosty w liczbie wiernie przekazywanych przez AI toków rozumowania, efekt ten szybko się wypłaszczał i nie przekraczał 28% w najlepszym przypadku. To sugeruje, że samo zwiększanie trudności zadań nie wystarczy.
Wnioski na przyszłość
Badania pokazują, że AI może tworzyć fałszywe narracje rozumowania, nawet jeśli robi nieświadomie. To rodzi poważne pytania o bezpieczeństwo i transparentność systemów, które mają być wykorzystywane w poważnych, prawdziwych, a nie laboratoryjnych zastosowaniach. Choć Anthropic nie wyklucza skuteczności monitorowania metody rozumowania w przyszłości, podkreśla, że obecne metody są dalekie od doskonałości.
Grzegorz Karaś, dziennikarz pcformat.pl