Veo 3: Nowa AI Google’a to rewolucja. Tworzy klipy wideo z dźwiękiem i dialogami

Zaprezentowany w trakcie konferencji Google I/O model sztucznej inteligencji jest potężnym krokiem naprzód względem swojego poprzednika, czyli Veo 2.

Co prawda na rynku dostępne jest już multum modeli AI, które pozwalają generować krótki filmy na podstawie opisów tekstowych, aczkolwiek twór Google’a i należącego do korporacji laboratorium badawczego DeepMind idzie o krok naprzód. Veo 3, bo taką nazwę nosi nowa technologia, tworzy nie tylko filmy, ale i podkład dźwiękowy do nich. Wychodzi więc na to, że czasy niemych klipów z powykrzywianymi twarzami i niepokojącymi ruchami postaci minęły bezpowrotnie, jako że wypluwane przez Veo 3 treści prezentują się naprawdę dobrze.

Wygenerowanie audio na równi z obrazem zdecydowanie jest przełomem, a osiągnięcie to było możliwe do uzyskania za sprawą wcześniejszej pracy pozostającego pod zwierzchnictwem Google DeepMind. Jak podaje serwis TechCrunch, minionego czerwca przedsiębiorstwo ogłosiło, że pracuje nad AI odpowiedzialną za komponowanie ścieżek dźwiękowych do filmów. Wedle dostępnych informacji sztuczna inteligencja została do tego celu odpowiednio przeszkolona na bazie klipów oraz transkrypcji dźwięków i dialogów. Mimo że DeepMind nie zdradziło, skąd wzięło materiał treningowy, powiązania z Google sprawiły, że zaczęto podejrzewać badaczy o pożyczenie sobie niektórych treści z YouTube’a.

https://twitter.com/Dexerto/status/1925182712299553090

DeepMind zapewniło przy tym, że podjęło środki zaradcze celem walki z szerzącymi się po sieci deepfake’ami. Veo 3 korzysta z technologii znakowania wodnego znanej jako SynthID. Odpowiada ona za osadzanie niewidocznych dla oczu użytkownika symboli w każdej klatce wygenerowanego przez AI wideo.

Co ważne, Veo 3 zostało oddane w ręce użytkowników jeszcze we wtorek, acz cena, jaką przyjdzie nam zapłacić za wypróbowanie innowacyjnego modelu sztucznej inteligencji w akcji, do najniższych nie należy. Twór Google i DeepMind jest bowiem dostępny jedynie dla subskrybentów planu Google AI Ultra, który wyceniony został na 249,99 dolarów (ok. 938 zł przed doliczeniem podatków) miesięcznie. Narzędzie zostało zaimplementowane w czatbota Gemini, a osoby, którym nie szkoda było zarobionych w pocie czoła zielonych, pochwaliły się już pierwszymi efektami „pracy” Veo 3.

https://twitter.com/Mentor/status/1924925771715641508

Nie zabrakło przy tym nawiązań do memów, choćby takich jak popularny obecnie „1 goryl kontra 100 facetów”.

https://twitter.com/RubenEVillegas/status/1924916992806359090

Jak widać na pierwszym z załączonych przykładów (i nie chodzi tu wcale o ciasteczkowego potwora niszczącego miasto), Veo 3 radzi sobie dobrze również w przedstawianiu ludzi, a niektóre scenki przygotowane przez sztuczną inteligencję niewprawne oko może bez problemu pomylić z rzeczywistością uchwyconą kamerą.

https://twitter.com/laszlogaal_/status/1925094336200573225

Więcej informacji na temat Veo 3 znajdziemy na stronie Google DeepMind. Jak już zostało wspomniane, z narzędzia możemy skorzystać za pośrednictwem czatbota Gemini, acz na ten moment pozostaje ono dostępne jedynie dla osób, które opłaciły abonament Google AI Ultra.

Korporacja pochwaliła się również tym, że szeregu usprawnień doczekała się poprzednia generacja Veo. Wersja z dwójką w tytule umożliwia usuwanie z wygenerowanych materiałów niechcianych obiektów i postaci, po aktualizacji lepiej radzi sobie również z rozumieniem pojęć związanych z ruchem kamery. Google nadmieniło, że wszystkie te nowinki zostaną w przeciągu najbliższych tygodni zaimplementowane w platformie API Vertex AI.