Mowa o wpisie opublikowanym przez prezesa Epic Games. Pokazał on zrzut ekranu przedstawiający sytuację, w której model Claude Fable 5 nie odpowiedział na pytanie „Do bumblebees fart?” („Czy trzmiele pierdzą?”). Zamiast tego system poinformował o przekierowaniu zapytania do starszego modelu Opus 4.8 z powodu działania mechanizmów bezpieczeństwa.
Efekt uboczny nowych zabezpieczeń
Wpis szybko zdobył dużą popularność, a internauci zaczęli krytykować zachowanie modelu jako przykład nadmiernie restrykcyjnych filtrów bezpieczeństwa. W komentarzach zwracano uwagę, że pytanie dotyczy zwykłego zagadnienia biologicznego i siłą rzeczy trudno uznać je za potencjalnie niebezpieczne.
Sytuacja nie jest przypadkowa. Anthropic w ostatnich tygodniach znacząco rozbudował systemy wykrywania prób obchodzenia zabezpieczeń swoich modeli. Była to odpowiedź na wcześniejsze problemy związane z tzw. jailbreakami oraz presję regulatorów dotyczącą bezpieczeństwa najbardziej zaawansowanych modeli AI (szerzej piszę o tym i konsekwencjach w felietonie).
Firma poinformowała, że wdrożyła nowy klasyfikator bezpieczeństwa, który ma blokować określone klasy potencjalnie niebezpiecznych zapytań i w razie potrzeby przekierowywać użytkowników do modelu o bardziej konserwatywnych możliwościach. Według Anthropic rozwiązanie ma skuteczniej ograniczać znane techniki omijania zabezpieczeń.
Krytyka za zbyt daleko idącą ostrożność
Przypadek z pytaniem o trzmiele pokazuje jednak problem, z którym mierzy się dziś cała branża generatywnej sztucznej inteligencji. Mechanizmy projektowane z myślą o wykrywaniu złośliwych prób mogą prowadzić do fałszywych alarmów i blokowania całkowicie nieszkodliwych zapytań.
To właśnie ten efekt wywołał falę krytyki po publikacji Sweeneya. Użytkownicy wskazywali, że jeśli model odmawia odpowiedzi na pytania z zakresu podstawowej biologii, oznacza to, że system bezpieczeństwa może być zbyt agresywny i negatywnie wpływać na komfort korzystania z usługi.
Anthropic nadal stawia na bezpieczeństwo
Kontrowersje pojawiają się w momencie, gdy Anthropic intensywnie rozwija swoje procedury bezpieczeństwa. Firma zapowiedziała m.in. ściślejszą współpracę z administracją USA, rozszerzenie testów modeli przed premierą, uruchomienie całodobowego monitorowania zgłoszeń dotyczących jailbreaków oraz opracowanie wspólnych standardów oceny bezpieczeństwa wraz z innymi firmami z branży AI.
Przypadek pytania o trzmiele nie oznacza więc zmiany polityki Anthropic, ale pokazuje, że znalezienie równowagi między bezpieczeństwem a użytecznością modeli pozostaje jednym z największych wyzwań współczesnej sztucznej inteligencji.











0 komentarzy