Przejdź do treści

„Czy trzmiele pierdzą?” Claude Fable 5 uznał to za niebezpieczne pytanie. Anthropic pod ostrzałem za zbyt agresywne filtry

2 minuty czytania

Proste pytanie o fizjologię trzmieli wystarczyło, by najnowszy model Anthropic odmówił odpowiedzi i automatycznie przełączył użytkownika na starszy model. Zrzut ekranu opublikowany przez prezesa Epic Games, Tima Sweeneya, pokazał, że zabezpieczenia modeli AI zaczynają szkodzić ich użyteczności.

Mowa o wpisie opublikowanym przez prezesa Epic Games. Pokazał on zrzut ekranu przedstawiający sytuację, w której model Claude Fable 5 nie odpowiedział na pytanie „Do bumblebees fart?” („Czy trzmiele pierdzą?”). Zamiast tego system poinformował o przekierowaniu zapytania do starszego modelu Opus 4.8 z powodu działania mechanizmów bezpieczeństwa.

Efekt uboczny nowych zabezpieczeń

Wpis szybko zdobył dużą popularność, a internauci zaczęli krytykować zachowanie modelu jako przykład nadmiernie restrykcyjnych filtrów bezpieczeństwa. W komentarzach zwracano uwagę, że pytanie dotyczy zwykłego zagadnienia biologicznego i siłą rzeczy trudno uznać je za potencjalnie niebezpieczne.

Sytuacja nie jest przypadkowa. Anthropic w ostatnich tygodniach znacząco rozbudował systemy wykrywania prób obchodzenia zabezpieczeń swoich modeli. Była to odpowiedź na wcześniejsze problemy związane z tzw. jailbreakami oraz presję regulatorów dotyczącą bezpieczeństwa najbardziej zaawansowanych modeli AI (szerzej piszę o tym i konsekwencjach w felietonie).

Firma poinformowała, że wdrożyła nowy klasyfikator bezpieczeństwa, który ma blokować określone klasy potencjalnie niebezpiecznych zapytań i w razie potrzeby przekierowywać użytkowników do modelu o bardziej konserwatywnych możliwościach. Według Anthropic rozwiązanie ma skuteczniej ograniczać znane techniki omijania zabezpieczeń.

Krytyka za zbyt daleko idącą ostrożność

Przypadek z pytaniem o trzmiele pokazuje jednak problem, z którym mierzy się dziś cała branża generatywnej sztucznej inteligencji. Mechanizmy projektowane z myślą o wykrywaniu złośliwych prób mogą prowadzić do fałszywych alarmów i blokowania całkowicie nieszkodliwych zapytań.

To właśnie ten efekt wywołał falę krytyki po publikacji Sweeneya. Użytkownicy wskazywali, że jeśli model odmawia odpowiedzi na pytania z zakresu podstawowej biologii, oznacza to, że system bezpieczeństwa może być zbyt agresywny i negatywnie wpływać na komfort korzystania z usługi.

Anthropic nadal stawia na bezpieczeństwo

Kontrowersje pojawiają się w momencie, gdy Anthropic intensywnie rozwija swoje procedury bezpieczeństwa. Firma zapowiedziała m.in. ściślejszą współpracę z administracją USA, rozszerzenie testów modeli przed premierą, uruchomienie całodobowego monitorowania zgłoszeń dotyczących jailbreaków oraz opracowanie wspólnych standardów oceny bezpieczeństwa wraz z innymi firmami z branży AI.

Przypadek pytania o trzmiele nie oznacza więc zmiany polityki Anthropic, ale pokazuje, że znalezienie równowagi między bezpieczeństwem a użytecznością modeli pozostaje jednym z największych wyzwań współczesnej sztucznej inteligencji.

0 komentarzy

Zostaw komentarz