Smartfon wyszlifuje dźwięk
Uczenie maszynowe wspiera multimedialną aktywność filmowców amatorów
Użytkownicy smartfonów z systemem iOS będą mogli korzystać z nowej funkcji audiowizualnej poprawy dźwięku w YouTube Stories. Funkcja ta bazuje na technologii uczenia maszynowego Looking to Listen, po którą YouTube sięgnął dwa lata temu. Twórcy popularnego serwisu chcieli w ten sposób usprawnić wyodrębnianie dźwięków w filmach nagrywanych telefonem.
Niech ich usłyszą
Producenci smartfonów z każdym modelem wprowadzają nowe funkcje poprawiające jakość wizualną nagrywanych filmów, wciąż jednak sporym problemem jest dźwięk. Kiedy film pokazuje wiele mówiących osób albo w tle nagrania słychać hałas, słowa wypowiadane do kamery często są trudne do zrozumienia. Serwis YouTube zdecydował się popracować nad rozwiązaniem tego problemu.
Dwa lata temu eksperci wdrożyli technologię uczenia maszynowego (UM) Looking to Listen, która wykorzystuje sygnały dźwiękowe i wizualne do wyodrębnienia konkretnego głosu z tła nagrania. Model trenowany był na dużej kolekcji filmów online, co umożliwiło uchwycenie zależności między mową a sygnałami wizualnymi, takimi jak ruchy ust i mimika. To zaś pozwala na oddzielenie mowy jednej osoby zarejestrowanej na filmie od słów wypowiadanych przez innych uczestników nagrania lub od dźwięków tła.
Wdrożona technologia przyniosła zauważalną poprawę separacji dźwięku i wzmocnienia mowy na zarejestrowanym materiale.
Droga do telefonu
Zastosowanie technologii Looking to Listen w smartfonach wymagało sporo zachodu. YouTube przez ostatni rok współpracował z użytkownikami, żeby się dowiedzieć, w jaki sposób najwygodniej byłoby im korzystać z takiej funkcji i w jakim stosunku głośności chcieliby słyszeć bohatera filmu względem tła. Technologia testowana była w różnych warunkach nagrywania i z udziałem osób o odmiennych rysach i głosie. Model musi bowiem obsługiwać różne języki i akcenty, a także uwzględniać różny, np. pod względem cech rasowych, wygląd osób nagrywanych.
Istotny były też względy techniczne i prawne. Przede wszystkim funkcja przetwarzania dźwięku ma działać na urządzeniu w aplikacji klienckiej, aby zachować prywatność użytkownika – żadne informacje audio i wideo nie są przesyłane w celu przetworzenia na serwery YouTube'a. Poza tym nowy algorytm musi współgrać z innymi algorytmami UM wykorzystywanymi w aplikacji YouTube. Co równie ważne, wprowadzenie nowej funkcji nie może mieć znaczącego wpływu na zużycie baterii w urządzeniu mobilnym.
Aby skorzystać z nowej funkcji, osoby zamieszczające na YouTubie filmy nagrywane telefonem mogą zarejestrować wideo i wybrać opcję „Wzmocnij mowę" w narzędziu do regulacji głośności. Opcja ta dostępna jest tylko dla urządzeń z systemem iOS.
Więcej informacji na temat szczegółów działania algorytmu poprawy dźwięku w YouTube Stories można przeczytać w blogu firmy.
fot. Julian Gentilezza – Unsplash