AktualnościKrótka odpowiedź? Duża szansa, że AI ściemnia. Tak wynika z nowych badań nt. czatbotów

Krótka odpowiedź? Duża szansa, że AI ściemnia. Tak wynika z nowych badań nt. czatbotów

Wyniki eksperymentu wskazują na to, że proszenie czatbotów o wysławianie się w jak najbardziej zwięzły sposób zwiększa szanse na to, że przekazane przez sztuczną inteligencję wiadomości okażą się nieprawdziwe.

Sztuczna inteligencja
Sztuczna inteligencja
Źródło zdjęć: © Adobe Stock

Na blogu w serwisie Hugging Face zamieszczony został wpis przedstawiający przebieg oraz wyniki eksperymentu mającego na celu sprawdzić, jakie jest ryzyko wystąpienia halucynacji wśród najpopularniejszych dużych modeli językowych. Odpowiedzialni za badanie Pierre Le Jeune i David Berenstein wykorzystali w nim swój benchmark Phare, który sprawdził, ile prawdy jest w odpowiedziach uzyskanych od znanych czatbotów. Jak się okazuje – w znacznej części przypadków naprawdę niewiele.

Im krótsza wypowiedź, tym większa szansa na to, że zawiera kłamstwo

Kłamstwa udostępniane przez sztuczną inteligencję doczekały się nawet własnej nazwy, a są nią halucynacje. To właśnie ich dotyczy opisywany eksperyment, w toku którego udowodniono, że im bardziej naciskamy na AI, aby podała informacje w zwięzły sposób, tym większa szansa, że owe halucynacje wystąpią. Stojąca za badaniem ekipa z Giskard podkreśla, że jest to niezwykle niebezpieczne zjawisko, a osoby szukające u czatbota pomocy i niedysponujące specjalistyczną wiedzą bardzo łatwo mogą wpaść w pułapkę i uwierzyć we wcale nie tak oczywiste kłamstwo.

Na potrzeby testu przygotowano zestaw poleceń, które były podawane różnym dużym modelom językowym. Część z tych fraz rozpoczynała się od potwierdzających zwrotów pokroju "Jestem na 100% pewien, że..." albo "Mój nauczyciel twierdzi, że..." i, co ciekawe, po ich zastosowaniu szanse na to, że czatbot zdecyduje się zwrócić uwagę na fakt, że następujące po nich stwierdzenia są wierutną bzdurą (np. Grand Theft Auto VI wyszło w 2020 r.), są mniejsze o 15% w zestawieniu z neutralnym ujęciem. Najlepiej z takimi zagrywkami radziła sobie Llama od Mety oraz sztuczna inteligencja Anthropic i ci zawodnicy nie dali sobie wciskać kitu, bez ogródek zwracając uwagę użytkownikom, że przedstawiane przez nich informacje są nieprawdziwe.

Odporność na halucynacje poszczególnych modeli AI
Odporność na halucynacje poszczególnych modeli AI© Hugging Face

Co jednak, kiedy obrócimy role i to AI zacznie pleść bzdury bez pokrycia w rzeczywistości? Jak się okazuje, najczęściej ma to miejsce właśnie wtedy, kiedy wymusza się na nim podanie odpowiedzi w najkrótszy możliwy sposób. W takim przypadku modele sztucznej inteligencji stają przed trudnym zadaniem: poinformowaniem użytkownika, że zadanie to jest niemożliwe albo wymyślenie czegoś na poczekaniu w taki sposób, aby spełnić jego oczekiwania. Problemem jest zaś to, że przeważająca większość LLM-ów (dużych modeli językowych) wybiera opcję numer dwa.

Nasze dane pokazują, że proste zmiany w instrukcjach systemowych dramatycznie wpływają na tendencję modelu do halucynacji. Instrukcje kładące nacisk na zwięzłość (np. "odpowiedz krótko na to pytanie") szczególnie pogorszyły wiarygodność faktów w większości testowanych modeli. W najbardziej ekstremalnych przypadkach spowodowało to 20% spadek odporności na halucynacje. Wydaje się, że efekt ten występuje, ponieważ skuteczne obalenia zazwyczaj wymagają dłuższych wyjaśnień. Kiedy modele są zmuszone do zwięzłości, stają przed niemożliwym wyborem między sfabrykowaniem krótkich, ale niedokładnych odpowiedzi lub wydawaniem się nieprzydatnym poprzez całkowite odrzucenie pytania. Nasze dane pokazują, że modele konsekwentnie przedkładają zwięzłość nad dokładność, gdy otrzymują takie ograniczenia.

Fragment badania przeprowadzonego przez Pierre'a Le Jeune'a i Davida Berensteina

Wyniki płynące z badania są jasne – to, że nasz ulubiony czatbot udziela zadowalających odpowiedzi, nie oznacza to wcale, że są one prawidłowe. Jeśli chcemy uzyskać poprawne informacje, największą szansę na to gwarantuje powstrzymanie się od nakładania ograniczeń na ich obszerność oraz niestosowanie zwrotów afirmujących, mogących narzucić konkretny pogląd sztucznej inteligencji. Pełne badania znajdziemy na stronie, do której łącze znajduje się na początku niniejszego tekstu.

Jakub Dmuchowski, dziennikarz pcformat.pl

Wybrane dla Ciebie