Syntezator mowy to oprogramowanie, które może czytać na głos np. zawartość dokumentu tekstowego, strony WWW czy też wiadomości z kanału RSS . Może też współpracować z odtwarzaczami wideo i pełnić rolę lektora – odczytywać tłumaczenie filmu zawarte w pliku tekstowym. Głównym celem twórców programów syntezujących mowę jest obdarzenie maszyn (np. komputera) głosem przypominającym do złudzenia mowę człowieka. Na tym polu sukces odnieśli Polacy z firmy IVO Software. Ich syntezator mowy IVONA zajął w 2006 roku pierwsze miejsca w prestiżowym konkursie Blizzard Challenge (konkurs organizuje Carnegie Mellon University z USA, a jego celem jest propagowanie rozwoju technologii syntezy mowy). IVONA wyprzedziła m.in. konkurencyjne rozwiązania Microsoftu i IBM-u. Sposób tworzenia syntezatora składa się z dwóch etapów: fazy offline i fazy online.
Faza offline
Przed przystąpieniem do tworzenia aplikacji nagrywa się głos lektora. Lektor odczytuje kilka tysięcy specjalnie przygotowanych zdań
– sformułowanych w taki sposób, aby zawierały wszystkie możliwe zjawiska fonetyczne i intonacyjne charakterystyczne dla danego języka. Zdania są rejestrowane, a każdej wypowiedzianej zgłosce są przypisywane odpowiednie atrybuty, takie jak: długość, głośność, wysokość brzmienia. Na podstawie bazy nagrań oraz atrybutów powstaje algorytm sztucznej inteligencji. Syntezator „uczy się mówić” i naśladować głos lektora: zachowywać charakterystyczne dla ludzkiej mowy sposoby intonacji oraz stawiać we właściwym miejscu akcenty w wypowiadanych słowach i zdaniach. Potrafi też określić długość trwania artykulacji każdej głoski. Proces uczenia się trwa kilka dni, nawet przy zastosowaniu superkomputerów.
Nagrania, wraz z opisującymi je atrybutami, oraz algorytmy sztucznej inteligencji umieszczane są w bazie danych. Z bazy tej korzysta aplikacja w momencie syntezowania mowy.
Faza online
Proces syntezowania mowy (faza online) rozpoczyna się od przetworzenia zarejestrowanego tekstu na postać fonetyczną. Następnie aplikacja przeszukuje swoją bazę danych i spośród zgromadzonych tam nagrań głosu lektora wybiera fragmenty najlepiej pasujące do wypowiedzi, którą ma syntezować. Ponieważ wypowiedzi lektora, zgromadzone w bazie danych, są podzielone na głoski, aplikacja może z nich tworzyć całkiem nowe słowa. Przy doborze nagrań program kieruje się brzmieniem głosek, ale także intonacją zdań (np. zdanie pytające, oznajmujące, wykrzyknikowe), z których one pochodzą.
Wybrane fragmenty nagrań są łączone w całość. Jeśli któryś odbiega brzmieniem lub długością trwania od pozostałych, jest poddawany modyfikacji. Zmianie podlega czas trwania fragmentu nagrania (modyfikacja czasu) albo wysokość dźwięku (modyfikacja częstotliwości). Ponieważ opracowywanie dźwięku w jakimkolwiek stopniu pogarsza jego jakość, zakres wprowadzonych zmian nie może być zbyt duży. Cała wypowiedź musi być spójna dźwiękowo i brzmieć naturalnie. Po modyfikacji wypowiedź może być wyemitowana.
Prawie ideał, ale...
Chociaż syntezator IVONA radzi sobie z najtrudniejszymi słowami, takimi jak „brzęczyszczykiewicz”, jego twórcy wciąż pracują nad udoskonaleniem aplikacji. Obecnie koncentrują się na syntezie słów obcojęzycznych, które czasem pojawiają się także w polskim tekście. A w przyszłości głos IVONY ma oddawać emocje związane z treścią czytanego tekstu.