Genie 3: AI, które tworzy interaktywne światy. Czeka nas przełom w grach?
Tytułowy model sztucznej inteligencji jest dziełem należącego do Google laboratorium badawczego DeepMind i pozwala na generowanie interaktywnych światów na podstawie opisów tekstowych. Czy mamy do czynienia z prawdziwym przełomem i technologią przyszłości?
Swoim najnowszym tworem DeepMind pochwaliło się na firmowym blogu. Wedle badaczy Genie 3 to "model świata ogólnego przeznaczenia, który może generować niespotykaną dotąd różnorodność interaktywnych środowisk". Na czym polega działanie rzeczonej sztucznej inteligencji? Podajemy jej opis tekstowy tego, co chcielibyśmy zobaczyć na ekranie komputera, a AI na jego podstawie tworzy dynamiczny świat, który możemy dobrowolnie przemierzać z filmową płynnością na poziomie 24 klatek na sekundę. Warto jednak nadmienić, że opisywana technologia wciąż znajduje się w powijakach, w związku z czym wykreowane uniwersum zachowuje spójność jedynie przez kilka pierwszych minut, po czym pomału zaczyna się rozpadać na naszych oczach. Co więcej, na ten moment Genie 3 jest zdolne do generowania obrazu jedynie w rozdzielczości 720p.
Genie 3 – AI, które tworzy interaktywne światy
Genie 3 oferuje szereg możliwości, o których mogliśmy jedynie pomarzyć jeszcze kilka tygodni temu. Po pierwsze, AI świetnie radzi sobie z odwzorowaniem zjawisk środowiskowych, a także potrafi uchwycić koncepcję światła i cieczy. Dzięki temu jest w stanie stworzyć światy, które nie tylko cieszą oko, ale również funkcjonują w zgodzie z prawami fizyki. To jednak nie wszystko, jako że dzieło DeepMind potrafi odwzorować nawet zachowanie zwierząt i ruch roślin, jeszcze bardziej urzeczywistniając wirtualną przestrzeń.
Oczywiście nie oznacza to, że podczas korzystania z omawianego narzędzia jesteśmy ograniczeni do generowania realistycznych środowisk. Wręcz przeciwnie, Genie 3 radzi sobie z szerokim spektrum stylów i z jego pomocą stworzymy zarówno cukierkowe światy, jak i te utrzymane w nieco bardziej mrocznej tonacji.
Dalsza część artykułu pod materiałem wideo
Genie 3: Creating dynamic worlds that you can navigate in real-time
Nic nie stoi także na przeszkodzie, aby poprosić AI o wygenerowanie ludzkiego awatara, nad którym przejmiemy kontrolę podczas zwiedzania zakamarków cyfrowej planszy. Ba, Genie 3 nie ma najmniejszego problemu z tym, aby udostępnić nam widok z perspektywy pierwszej osoby, przez co sterowanie łódką sunącą po weneckich kanałach może być iście immersyjnym doświadczeniem.
Jak dokładnie działa tytułowa technologia i do jakich sztuczek musieli uciec się jej twórcy, aby zapewnić komfortową pracę z narzędziem? Zagadnienie to wyjaśnia poniższy ustęp:
Osiągnięcie wysokiego stopnia sterowalności i interaktywności w czasie rzeczywistym w Genie 3 wymagało znaczących przełomów technicznych. Podczas autokorelacyjnego generowania każdej klatki model musi uwzględniać wcześniej wygenerowaną trajektorię, która rośnie wraz z upływem czasu. Na przykład, jeśli użytkownik ponownie odwiedza daną lokalizację po minucie, model musi odwołać się do odpowiednich informacji sprzed minuty. Aby osiągnąć interaktywność w czasie rzeczywistym, obliczenia te muszą odbywać się wielokrotnie w ciągu sekundy w odpowiedzi na nowe dane wprowadzane przez użytkownika.
Podkreślono przy tym, że utrzymanie jednolitości świata przez dłuższe okresy jest niezwykle problematyczne, w związku z czym, jak już wspomniano, Genie 3 potrafi utrzymać je w odpowiedniej formie przez kilka minut (co i tak jest ogromnym osiągnięciem). Model AI posiada przy tym wiele innych ograniczeń, jak generowanie tekstu, zawężenie miejsca akcji do względnie niewielkiego obszaru, a także problemy z interakcją z innymi agentami przemierzającymi wygenerowane światy.
Jakub Dmuchowski, dziennikarz pcformat.pl