AktualnościMeta opracowała dokładniejszy system rozpoznawania mowy

    Meta opracowała dokładniejszy system rozpoznawania mowy

    Według koncernu AV-HuBERT osiąga o 75 procent lepsze wyniki od najlepszych systemów AI.

    Meta opracowała dokładniejszy system rozpoznawania mowy
    Źródło zdjęć: © Alexandra Koch – Pixabay

    Audio-Visual Hidden Unit BERT

    Za sukcesem systemu opracowanego i testowanego przez Metę (dawnej Facebooka) stoi wykorzystanie do automatycznego rozpoznawania mowy nie tylko dźwięków, ale też obrazów, a konkretnie – ruchu warg. To odzwierciedla sposób, w jaki ludzie odbierają i rozumieją słowa rozmówców: nie tylko ich słyszą, ale też widzą. Rejestrowane wskazówki wizualne według badań mają odgrywać kluczową rolę w nauce języków.

    Większość systemów sztucznej inteligencji (AI) ukierunkowanych na rozpoznawanie mowy bazuje całkowicie lub w znacznym stopniu na dźwięku, pomijając aspekty wizualne. Trenowane są na tysiącach godzin nagrań. Tymczasem badacze z koncernu Meta opracowali system Audio-Visual Hidden Unit BERT (AV-HuBERT), który uczy się rozumieć mowę jednocześnie poprzez słuchanie i obserwowanie mówiących. Twierdzą, że jest on o 75 procent dokładniejszy niż najlepsze bazujące na dźwięku systemy rozpoznawania mowy wykorzystujące tę samą liczbę transkrypcji.

    Mniej ograniczeń

    Naukowcy już wcześniej sięgali do metody łączącej odsłuch z czytaniem ruchu warg do opracowania systemów AI. Robili to w poprzednich latach badacze na Uniwersytecie Oksfordzkim i w należącej do Alphabetu firmie DeepMind. Ich modele jednak rozpoznawały ograniczony zakres słów i miały bariery techniczne, które Meta miała pokonać w swoim systemie AV-HuBERT. Jest to system wykorzystujący uczenie nienadzorowane, łączący sygnały odbierane z ruchu ust i położenia zębów podczas mówienia z informacjami dźwiękowymi.

    Początkowy model AV-HuBERT został przeszkolony na niewielu, bo tylko 30 godzinach anglojęzycznych filmów TED Talk. Mimo tak niewielu danych osiągnął wydajność rozpoznawania mowy na poziomie 32,5 procent.

    Szczegóły na temat systemu można przeczytać tutaj.

    Wybrane dla Ciebie