De Niro po mandaryńsku
Aplikacje sterowane przez sztuczną inteligencję generującą fałszywe nagrania wideo, które wyglądają uderzająco realistycznie, robią coraz bardziej zawrotną karierę. I zdecydowanie nie mają dobrej sławy. Tempo rozprzestrzenienia się filmowych fałszywek, łatwo osiągalne i coraz doskonalsze narzędzia do ich produkcji oraz coraz większa trudność w odróżnieniu podróbek sprawiły, że konsekwencje tego zjawiska są przerażające. Oto każdy może spreparować nagranie wideo, w którym może włożyć w czyjeś usta, co tylko zechce. Trudno o bardziej wyrafinowany sposób na podburzanie nastrojów społecznych, wzniecanie politycznych huraganów, prowadzenie wojen informacyjnych czy nawet zaburzenie międzynarodowego bezpieczeństwa. Jednak zniekształcające rzeczywistość wideo imitacje można wykorzystać też w „słusznych” celach. Dzięki deepfake’om możemy przywrócić twarze zmarłych do życia, poradzić sobie z brakami kadrowymi w popularnych serialach, zobaczyć na ekranie np. Roberta de Niro biegle władającego językiem mandaryńskim… Ale od początku.
Wzrost mocy obliczeniowej komputerów, a także coraz bardziej zaawansowane możliwości AI używanej w oprogramowaniu do tworzenia fikcyjnych nagrań audio i wideo sprawiają, że można dziś zastąpić praktycznie każdego aktora (lub postać animowaną). Jedyne, co jest potrzebne do opracowania brzmiących niczym oryginalne głosów i dialogów, to odpowiednia ilość danych treningowych do nakarmienia algorytmów, czyli po prostu wcześniejsze nagrania z udziałem tej osoby. Jak wiele „materiału źródłowego” potrzeba? Na tym polu też widać ogromny postęp. Jak powiedział magazynowi „The Wired” John Flynn, współzałożyciel brytyjskiego startupu Sonantic (który opracował metodę uczącą AI bardziej emocjonalnego mówienia, przypominającego prawdziwe dialogi toczone przez ludzi), jeszcze jakiś czas temu do osiągnięcia pożądanej jakości głosu było potrzebne od 30 do 50 godzin nagrań starych dialogów. Dziś wystarcza od 10 do20 minut ścieżek dźwiękowych.
Czy to oznacza, że producenci „The Simpsons”, dysponujący „mięskiem” do nakarmienia algorytmów pochodzącym z ponad 700 odcinków, mogliby zastąpić praktycznie całą obsadę głosową sztuczną inteligencją? Tim McSmythurs, kanadyjski badacz AI i producent mediów, który zbudował model przekształcający dowolny tekst w mowę dźwiękową w języku angielskim, jest przekonany, że tak. – Z pewnością moglibyśmy nagrać nowy odcinek odcinek Simpsonów, w którym postacie mówią w wiarygodny sposób – mówi badacz. Próbkę możliwości deepfake’ów opracowanych przez McSmythursa, można zobaczyć na jego kanale Speaking of AI na YouTube’ie.
źródło: Speaking of AI/YouTube
Na jednym z filmów widzimy spreparowaną przez Kanadyjczyka kultową scenę z filmu „Notting Hill”, w której Homer gra postać odtwarzaną przez Julię Roberts. McSmythurs nie tylko lokuje postacie z Simpsonów w znanych filmach, ale też bierze na warsztat polityków (np. Donalda Trumpa czy Joe’go Bidena) i umieszcza ich w scenach z „Simpsonów”. Dzięki tego rodzaju zabawom możemy usłyszeć głos byłego amerykańskiego prezydenta mówiącego coś, co pierwotnie powiedział Ralph Wiggum, drugoklasista uczęszczający do szkoły w Springfield, który przez swoje dziwaczne zachowanie często jest lekceważony przez rówieśników.
źródło: Speaking of AI/YouTube
A jest co zmieniać. Choć przygotowywanie kopii filmów i programów telewizyjnych dla obcojęzycznej publiczności nie wygląda już tak jak w latach 70. i 80. , kiedy brak ciągłości między ustami aktora a wypowiadanymi prze niego słowami był często powodem śmiechu, dubbingowi wciąż wiele brakuje do doskonałości. Remedium na problemy z irytującym niewiarygodnym dubbigiem opracował londyński startup Flawless AI. Specjaliści od efektów wizualnych, we współpracy z naukowcami z niemieckiego Instytutu Informatyki im. Maksa Plancka, opracowali narzędzie, dzięki któremu możemy usłyszeć, jak Tom Cruise i Jack Nicholson płynnie rozmawiają po francusku w prawniczym dramacie „Ludzie honoru”, Robert DeNiro doskonale radzi sobie z językiem niemieckim w filmie „Człowiek mafii” i przekonać się jak brzmi Forrest Gump po japońsku.
Jak działa system Flawless AI, dzięki któremu gwiazdy Hollywoodu mogą biegle mówić we wszystkich językach świata i nie wywoływać salw śmiechu? Rzecz jest wyjątkowo prosta: klient dostarcza wideo z filmu lub programu telewizyjnego wraz z dubbingiem nagranym przez aktorów. Model uczenia maszynowego tworzy następnie nowe ruchy ust, które pasują do przetłumaczonej mowy i automatycznie wkleja nowe usta w twarz aktora. – Kiedy oglądamy tak zdubbingowany materiał, błędny ruch ust ani drażniące słowo nie zakłócają nam przyjemności odbioru – powiedział serwisowi The Verge Nick Lynes, współzałożyciel Flawless. Jak to działa w praktyce, możemy przekonać się na demonstracyjnym filmie:
Narzędzie szturmem zdobyło internet. Do tej pory użytkownicy na całym świecie za jego pomocą ożywili ponad 88 mln twarzy, a aplikacja mobilna MyHeritage dotarła na szczyt listy najczęściej pobieranych apek w sklepie App Store, deklasując nawet TikToka. Niezależnie od tego, co myślimy o idei „odnawiania więzi emocjonalnych z krewnymi” w wersji cyfrowej (wielu osobom pomysł na „ożywianie” twarzy zmarłych osób wydaje się makabryczny), jedno jest pewne: deepfake’i są w natarciu i ciekawe, czym nas jeszcze zaskoczą.
Luke Kemp, In the age of deepfakes, could virtual actors put humans out of business?, serwis internetowy „The Guardian”, [dostęp: 23.07.2021]
Amit Katwala, Could The Simpsons replace its voice actors with AI deepfakes?, serwis internetowy „The Wired”, [dostęp: 23.07.2021]
Urszula Lesman, Kiedy aktor umiera, zastępuje go sztuczna inteligencja, serwis internetowy Cyfrowa.rp.pl