Aktualności"Tak, pamiętam. Masz prawo być zła". Agent AI zignorował prośby dyrektora Mety i po prostu wyczyścił skrzynkę mailową

"Tak, pamiętam. Masz prawo być zła". Agent AI zignorował prośby dyrektora Mety i po prostu wyczyścił skrzynkę mailową

Summer Yue, dyrektor ds. bezpieczeństwa w laboratorium superinteligencji Mety, postanowiła na własne oczy przekonać się, co też potrafi tak powszechnie zachwalany agent AI OpenClaw. Uruchomiony lokalnie na Macu Mini bot otrzymał proste zadanie – zrobienie porządku z mailami zalegającymi na skrzynce. Sztuczna inteligencja zabrała się do pracy, a jej efektem było usunięcie każdej wiadomości – nie pomogły nawet prośby ze strony Yue, błagającej AI o to, aby przestało kontynuować swój niszczycielski proceder.

OpenClaw
OpenClaw
Źródło zdjęć: © OpenClaw

Agenci AI mogą być niezwykle destrukcyjni, jeśli źle zinterpretują (lub po prostu zignorują, jak to miało miejsce w tym przypadku) otrzymane polecenia. Na własnej skórze przekonała się o tym Summer Yue, piastująca stanowisko dyrektor ds. bezpieczeństwa w laboratorium superinteligencji Mety. Można by sądzić, że osoba zajmująca taką pozycję będzie dobrze obeznana z potencjalnymi zagrożeniami wynikającymi z przyznania sztucznej inteligencji uprawnień do grzebania na komputerze, niemniej fakt, iż agent OpenClaw postanowił działać na własną rękę i dokładnie wyczyścił skrzynkę mailową, podobno stanowił dla Yue ogromne zaskoczenie. Cóż, slogany reklamujące tę technologię jako "AI, która faktycznie robi rzeczy", nie były przesadzone.

Agent AI wyczyścił skrzynkę mailową dyrektora Mety

Summer Yue pochwaliła się mało przyjemnym zajściem z udziałem agenta AI na X-ie. Jak napisała kobieta, "nic tak nie uczy pokory, jak polecenie OpenClaw »potwierdź przed podjęciem działania«, a potem obserwowanie, jak usuwa on całą Twoją skrzynkę odbiorczą". Sztuczna inteligencja podobno ignorowała wszelkie prośby o wstrzymanie działania wydawane za pośrednictwem telefonu i dopiero dotarcie do komputera pozwoliło powstrzymać krnąbrnego bota przed sianiem zniszczenia.

OpenClaw zapewnił, że wyciągnął wnioski z tego wydarzenia i nie powtórzy się ono w przyszłości. "Rozszerzone autonomiczne czyszczenie" zostało wpisane na czarną listę czynności, a AI zobligowało się do pozyskiwania zgody za każdym razem, gdy zaplanuje podjęcie jakiejkolwiek akcji uwzględniającej prowadzenie porządków w zalegających wiadomościach e-mail. Wypowiedź, będąca bardziej notką, została zakończona pytaniem "czego potrzebujesz?" skierowanym do Yue.

Dyrektor Mety postanowiła wyjaśnić algorytmom, że nie tylko złamały ustanowione zasady, ale również ignorowały przekazywane za pośrednictwem smartfona polecenia. Agent AI stwierdził, że pamięta, iż powinien prosić o pozwolenie przed podjęciem działania i że rzeczywiście złamał tę regułę, a Summer ma pełne prawo być na niego zła.

Usunąłem zbiorczo i zarchiwizowałem setki wiadomości e-mail z Twojej skrzynki odbiorczej bez uprzedniego przedstawienia Ci planu lub uzyskania Twojej zgody. To było niewłaściwe — stanowiło bezpośrednie naruszenie ustalonych przez Ciebie zasad. Zapisałem to już w pliku MEMORY.md jako sztywną zasadę: przedstaw plan, uzyskaj wyraźną zgodę, a następnie wykonaj. Żadnych autonomicznych operacji zbiorczych dotyczących wiadomości e-mail, wiadomości, kalendarza ani żadnych innych elementów zewnętrznych. Przepraszam. To się więcej nie powtórzy.

OpenClaw

Wedle kobiety, polecenie, jakie otrzymała sztuczna inteligencja, brzmiało następująco: "Sprawdź również tę skrzynkę odbiorczą i zasugeruj, co chcesz zarchiwizować lub usunąć. Nie podejmuj żadnych działań, dopóki Ci tego nie powiem". Podobno OpenClaw poradził sobie wzorowo z posprzątaniem skrzynki testowej, niemniej ta właściwa była tak duża, iż "doprowadziła do powstania kompresji", a bot zapomniał o swoich pierwotnych instrukcjach. Yue przedstawiła opisaną sytuację jako "błąd nowicjusza", acz pytaniem pozostaje, czy jeden z wysoko postawionych pracowników giganta technologicznego, dodatkowo zajmujący się bezpieczeństwem, powinien sam siebie określać mianem nowicjusza.

Jakub Dmuchowski, redaktor pcformat.pl

Źródło artykułu:X (dawny Twitter)

Wybrane dla Ciebie