Meta opracowała dokładniejszy system rozpoznawania mowy
Audio-Visual Hidden Unit BERT
Za sukcesem systemu opracowanego i testowanego przez Metę (dawnej Facebooka) stoi wykorzystanie do automatycznego rozpoznawania mowy nie tylko dźwięków, ale też obrazów, a konkretnie – ruchu warg. To odzwierciedla sposób, w jaki ludzie odbierają i rozumieją słowa rozmówców: nie tylko ich słyszą, ale też widzą. Rejestrowane wskazówki wizualne według badań mają odgrywać kluczową rolę w nauce języków.
Większość systemów sztucznej inteligencji (AI) ukierunkowanych na rozpoznawanie mowy bazuje całkowicie lub w znacznym stopniu na dźwięku, pomijając aspekty wizualne. Trenowane są na tysiącach godzin nagrań. Tymczasem badacze z koncernu Meta opracowali system Audio-Visual Hidden Unit BERT (AV-HuBERT), który uczy się rozumieć mowę jednocześnie poprzez słuchanie i obserwowanie mówiących. Twierdzą, że jest on o 75 procent dokładniejszy niż najlepsze bazujące na dźwięku systemy rozpoznawania mowy wykorzystujące tę samą liczbę transkrypcji.
Mniej ograniczeń
Naukowcy już wcześniej sięgali do metody łączącej odsłuch z czytaniem ruchu warg do opracowania systemów AI. Robili to w poprzednich latach badacze na Uniwersytecie Oksfordzkim i w należącej do Alphabetu firmie DeepMind. Ich modele jednak rozpoznawały ograniczony zakres słów i miały bariery techniczne, które Meta miała pokonać w swoim systemie AV-HuBERT. Jest to system wykorzystujący uczenie nienadzorowane, łączący sygnały odbierane z ruchu ust i położenia zębów podczas mówienia z informacjami dźwiękowymi.
Początkowy model AV-HuBERT został przeszkolony na niewielu, bo tylko 30 godzinach anglojęzycznych filmów TED Talk. Mimo tak niewielu danych osiągnął wydajność rozpoznawania mowy na poziomie 32,5 procent.
Szczegóły na temat systemu można przeczytać tutaj.
fot. Alexandra Koch – Pixabay