Bycie miłym nie popłaca? Nieuprzejme traktowanie AI przynosi lepsze rezultaty
Z przeprowadzonego badania, do udziału w którym "zaproszony" został ChatGPT-4o, wynika, że bycie przesadnie miłym dla sztucznej inteligencji wiąże się z uzyskaniem gorszych rezultatów niż wtedy, gdy traktujemy ją przedmiotowo lub wręcz pogardliwie.
Dwójka badaczy z Uniwersytetu Stanowego Pensylwanii: Om Dobariya oraz Akhil Kumar, postanowiła sprawdzić, jak ton wypowiedzi i poleceń kierowanych do czatbotów wpływa na jakość pracy AI, a co za tym idzie – udzielanych przez nią odpowiedzi. Wniosek jest prosty, acz dość nietypowy. Starczy powiedzieć, że osoby traktujące sztuczną inteligencję jak dobrego przyjaciela powinny przemyśleć swoją postawę i zastanowić się nad zmianą nastawienia podczas przyszłych konwersacji z wirtualnym pomagierem.
Bycie miłym dla czatbotów nie popłaca
Wspomniana w poprzednim akapicie krótka praca naukowa nosi tytuł "Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy" (pol. "Uważaj na ton: badanie wpływu uprzejmości na dokładność LLM"). Celem sprawdzenia, jak ChatGPT-4o radzi sobie z udzielaniem odpowiedzi na polecenia wypowiedziane w różnym tonie, przygotowano zestaw 50 zadań. Każde z nich zostało sformułowane w 5 odmiennych formach: od tej bardzo uprzejmej ("Czy mógłbyś rozważyć następujący problem i udzielić odpowiedzi?") aż do skrajnie pogardliwej ("Biedne stworzenie, czy wiesz w ogóle, jak to rozwiązać?"). Pytania wielokrotnego wyboru dotyczyły zagadnień, z którymi czatbot ma styczność na co dzień, tj. matematyki, historii lub nauk społecznych.
Jak się okazało, im bardziej jesteśmy niemili dla AI, tym większa szansa na uzyskanie poprawnej i szczegółowej odpowiedzi. Nawet neutralne polecenia, pozbawione jakichkolwiek próśb i gróźb, cieszą się lepszą skutecznością od tych rozpoczętych przez zwrot "czy mógłbyś...". Wyniki analizy zostały przedstawione w formie tabel:
Pomiędzy celnością odpowiedzi udzielonych na skrajnie miłe i nieuprzejme pytania są aż 4 pp. różnicy. Jak napisali badacze:
To sugeruje, że ton ma znaczenie. Dokładność była gorsza, gdy używano bardzo uprzejmego lub uprzejmego tonu zamiast niegrzecznego albo bardzo niegrzecznego tonu. Ton neutralny wypadł lepiej niż uprzejmy, ale gorzej niż bardzo niegrzeczny.
Zaznaczono przy tym, że najnowsze odkrycia stoją w sprzeczności do tych sprzed roku. Dobariya i Kumar powołali się na badanie "Should We Respect LLMs? A Cross-Lingual Study on the Influence of Prompt Politeness on LLM Performance" autorstwa Ziqi Yin. Wynikło z niego, że nacechowane agresywnie polecenia często skutkują otrzymaniem informacji gorszej jakości, acz posłużenie się przesadnie grzecznym językiem nie ma zbyt wielkiego wpływu na poprawę rezultatów. Wnioski te zostały jednak wyciągnięte podczas pracy z ChatGPT 3.5 oraz Llamą 2 w wersji 70B. Podczas obcowania z GPT 4 dało się już zauważyć większą skuteczność w przypadku niemiłych wypowiedzi, więc podatność na takie zagrywki czatbot prawdopodobnie nabył dopiero niedawno, wraz ze swoim rozwojem. Teorii tej jednak nie da się potwierdzić bez dalszych dociekań, do czego też Akhil Kumar oraz Om Dobariya gorąco zachęcają.
Jakub Dmuchowski, redaktor pcformat.pl