Sztuczne gadanie

PC Format 9/2007

Tworzenie syntezatora mowy rozpoczyna się od nagrania głosu profesjonalnego lektora. Potem przystępują do pracy specjaliści od algorytmów sztucznej inteligencji.

Syntezator mowy to oprogramowanie, które może czytać na głos np. zawartość dokumentu tekstowego, strony WWW czy też wiadomości z kanału RSS . Może też współpracować z odtwarzaczami wideo i pełnić rolę lektora – odczytywać tłumaczenie filmu zawarte w pliku tekstowym. Głównym celem twórców programów syntezujących mowę jest obdarzenie maszyn (np. komputera) głosem przypominającym do złudzenia mowę człowieka. Na tym polu sukces odnieśli Polacy z firmy IVO Software. Ich syntezator mowy IVONA zajął w 2006 roku pierwsze miejsca w prestiżowym konkursie Blizzard Challenge (konkurs organizuje Carnegie Mellon University z USA, a jego celem jest propagowanie rozwoju technologii syntezy mowy). IVONA wyprzedziła m.in. konkurencyjne rozwiązania Microsoftu i IBM-u. Sposób tworzenia syntezatora składa się z dwóch etapów: fazy offline i fazy online.

Faza offline

Przed przystąpieniem do tworzenia aplikacji nagrywa się głos lektora. Lektor odczytuje kilka tysięcy specjalnie przygotowanych zdań – sformułowanych w taki sposób, aby zawierały wszystkie możliwe zjawiska fonetyczne i intonacyjne charakterystyczne dla danego języka. Zdania są rejestrowane, a każdej wypowiedzianej zgłosce są przypisywane odpowiednie atrybuty, takie jak: długość, głośność, wysokość brzmienia. Na podstawie bazy nagrań oraz atrybutów powstaje algorytm sztucznej inteligencji. Syntezator „uczy się mówić” i naśladować głos lektora: zachowywać charakterystyczne dla ludzkiej mowy sposoby intonacji oraz stawiać we właściwym miejscu akcenty w wypowiadanych słowach i zdaniach. Potrafi też określić długość trwania artykulacji każdej głoski. Proces uczenia się trwa kilka dni, nawet przy zastosowaniu superkomputerów.

Nagrania, wraz z opisującymi je atrybutami, oraz algorytmy sztucznej inteligencji umieszczane są w bazie danych. Z bazy tej korzysta aplikacja w momencie syntezowania mowy.

Faza online

Proces syntezowania mowy (faza online) rozpoczyna się od przetworzenia zarejestrowanego tekstu na postać fonetyczną. Następnie aplikacja przeszukuje swoją bazę danych i spośród zgromadzonych tam nagrań głosu lektora wybiera fragmenty najlepiej pasujące do wypowiedzi, którą ma syntezować. Ponieważ wypowiedzi lektora, zgromadzone w bazie danych, są podzielone na głoski, aplikacja może z nich tworzyć całkiem nowe słowa. Przy doborze nagrań program kieruje się brzmieniem głosek, ale także intonacją zdań (np. zdanie pytające, oznajmujące, wykrzyknikowe), z których one pochodzą.

Wybrane fragmenty nagrań są łączone w całość. Jeśli któryś odbiega brzmieniem lub długością trwania od pozostałych, jest poddawany modyfikacji. Zmianie podlega czas trwania fragmentu nagrania (modyfikacja czasu) albo wysokość dźwięku (modyfikacja częstotliwości). Ponieważ opracowywanie dźwięku w jakimkolwiek stopniu pogarsza jego jakość, zakres wprowadzonych zmian nie może być zbyt duży. Cała wypowiedź musi być spójna dźwiękowo i brzmieć naturalnie. Po modyfikacji wypowiedź może być wyemitowana.

Prawie ideał, ale...

Chociaż syntezator IVONA radzi sobie z najtrudniejszymi słowami, takimi jak „brzęczyszczykiewicz”, jego twórcy wciąż pracują nad udoskonaleniem aplikacji. Obecnie koncentrują się na syntezie słów obcojęzycznych, które czasem pojawiają się także w polskim tekście. A w przyszłości głos IVONY ma oddawać emocje związane z treścią czytanego tekstu.

Tagi: sprzęt nauka

Ocena:

Oceń: