AktualnościSuper Mario jako benchmark dla sztucznej inteligencji. Jak radzą sobie najpopularniejsze modele AI w roli włoskiego hydraulika?

Super Mario jako benchmark dla sztucznej inteligencji. Jak radzą sobie najpopularniejsze modele AI w roli włoskiego hydraulika?

Z badania wynika, że modele AI skłonne do dłuższych przemyśleń i nadmiernej analizy nie są najlepszymi graczami pod słońcem.

Super Mario

Źródło zdjęć: © Pexels | Pixabay

Twórcy sztucznej inteligencji lubią chwalić się wydajnością swoich dzieł w testach związanych z matematyką, programowaniem lub wiedzą medyczną. Mało kto jednak raczył sprawdzić, jak AI radzi sobie w grach. Niedopatrzenie to postanowili uzupełnić badacze z Hao AI Lab, organizacji badawczej funkcjonującej w ramach Uniwersytetu Kalifornijskiego w San Diego.

Czy AI i Mario jest po drodze?

Naukowcy zaprzęgli do pracy cztery modele AI: Claude 3.7 od Antropic, nieco starszą wersję rzeczonej sztucznej inteligencji, czyli Claude 3.5, Gemini 1.5 Pro Google oraz GPT-4o ze stajni OpenAI. Ich zadaniem było dotarcie jak najdalej podczas rozgrywki w pierwszą część Super Mario Bros. – emulowaną i wzbogaconą o pozwalający sztucznej inteligencji na przejęcie wodzy nad charakterystycznym hydraulikiem framework GamingAgent.

Jak się okazało, najlepiej w roli wąsiastego Włocha poradził sobie Claude 3.7. Całkiem nieźle wypadł również Claude 3.5, niemniej badacze zwrócili uwagę na to, że był on mniej skłonny do planowania skomplikowanych manewrów niż jego młodszy brat. Co do Gemini 1.5 Pro oraz GPT-4o – zobaczcie sami:

Wychodzi więc na to, że w grze najlepiej radzi sobie sztuczna inteligencja pozbawiona możliwości rozumowania. W produkcjach pokroju Super Mario Bros. czasu na myślenie jest niewiele, a AI mająca skłonność do zbędnego dumania nad każdym potencjalnym krokiem, tak jak choćby GPT-4o, dość szybko kończyła zabawę w wyniku zmarnowania wszystkich dostępnych żyć. Z kolei sztuczna inteligencja nastawiona na działanie radziła sobie całkiem nieźle, a Hao AI Lab zwróciło uwagę na to, że Claude 3.7 zdołał nawet odkryć ukrytą gwiazdkę (której, niestety, nie zdążył dogonić) i to mimo faktu, że w teorii nie powinien być świadomy jej obecności w tym miejscu.

Super Mario Bros. nie jest przy tym jedyną grą Nintento, w której swoich sił miała okazję spróbować sztuczna inteligencja. Claude Anthropic został zagoniony do ogrania Pokémon Red na Twitchu, a zmagania sztucznej inteligencji możemy oglądać na jej kanale. W momencie pisania tekstu AI jednak utknęło w rogu jednego z pierwszych miast i zdaje się, że zapomniało o możliwości poruszania się w prawo.

Super Mario jako benchmark dla sztucznej inteligencji. Jak radzą sobie najpopularniejsze modele AI w roli włoskiego hydraulika?

Czy AI i Mario jest po drodze?

Wybrane dla Ciebie