Zamiast myszy i klawiatury

Jeżeli znudziło ci się używanie klawiatury i myszy albo chciałbyś zabłysnąć przed znajomymi, możesz sterować komputerem za pomocą głosu. Wystarczy wypowiedzieć komendę, by system uruchomił wybrany program, włączył odtwarzanie muzyki albo zapisał dyktowany tekst.

Świat przez cały czas przyspiesza, życie nabiera tempa, trzeba robić coraz więcej i coraz szybciej. Tradycyjne sposoby obsługi komputera przestają już wystarczać. Pisanie na klawiaturze jest za mało efektywne, obsługa myszą ma swoje ograniczenia. Czas na sterowanie głosem.

Mechanizmy rozpoznawania mowy przeszły poważną ewolucję. Komputery wykonują wypowiadane komendy, rozumieją całe zdania, bezbłędnie zapisują dyktowany tekst. Niewiele brakuje, by możliwa była swobodna rozmowa z komputerem. Na rynku dostępne są narzędzia bezpłatne oraz komercyjne, pojawiają się funkcje wbudowane w systemy operacyjne i w różne urządzenia. O ile do niedawna większość aplikacji rozpoznających mowę ograniczona była do angielskiego i kilku innych najpopularniejszych języków, o tyle dziś komputer bezbłędnie rozpoznaje także frazy wypowiadane po polsku. Wprawdzie nie wszystkie udogodnienia związane ze sterowaniem głosowym można wykorzystać w naszym kraju, ale dyktowanie tekstu po polsku funkcjonuje już doskonale.

Większość pecetowych narzędzi rozpoznających polecenia głosowe oparta jest na języku angielskim. Nie ma na rynku programu, który używałby polskiego. Jeżeli chcesz do sterowania komputerem używać poleceń w naszym języku, musisz wybrać program, którego działa w oparciu o porównywanie wzorców nagranych przez użytkownika. Metoda ta ogranicza znacznie zakres dostępnych komend, wymaga pracowitej konfiguracji, jest mniej skuteczna i nie pozwala dyktować tekstów. Program, którego działanie bazuje na tej metodzie, to na przykład popularny jakiś czas temu KMRemote. Narzędzie nie jest już jednak od dawna rozwijane.

Mechanizm rozpoznawania mowy wbudowany w Windows 10 nie działa w połączeniu z językiem polskim. Poza tym nie jest tak doskonały jak konkurencyjne (zarówno te komercyjne, jak i bezpłatne) produkty. Jednak nic nie kosztuje i można łatwo z niego skorzystać. Pozwala sterować systemem i dyktować tekst. Mogą z niego korzystać na przykład użytkownicy anglojęzyczni, mówiący po francusku, niemiecku, hiszpańsku bądź chińsku. Jeżeli posługujesz się jednym z tych języków, możesz uruchomić funkcję rozpoznawania głosu, tym bardziej że odpowiednie pliki językowe znajdują się w systemie. Nie trzeba, jak kiedyś, kupować kolejnej kopii Windowsa. Wystarczy zmienić wersję językową interfejsu.

Rozwiń menu startowe i kliknij Ustawienia. Wybierz kategorię Czas i język oraz grupę Region i język. Przejdź do sekcji Preferowane języki i użyj przycisku Dodaj język (1). Zaznacz na liście język, na przykład English (United States), i kliknij Dalej. Pozostaw bez zmian zaznaczone domyślnie pola i wybierz Zainstaluj.

W zależności od wersji systemu Windows przystąpi od razu do instalacji odpowiednich plików lub poprosi najpierw o potwierdzenie bezpłatnego pobrania ich ze Sklepu. Poczekaj, aż operacja się zakończy, a następnie wyloguj się z systemu i zaloguj ponownie. Jeszcze raz otwórz okno ustawień, kliknij kategorię Ease of Acces i grupę Speech. Przesuń suwak Turn on Speach Recognition (2) do pozycji On.

Kliknij Next w oknie kreatora, wybierz typ mikrofonu podłączonego do komputera i przejdź do kolejnego kroku. Przeczytaj głośno tekst wyświetlony w polu (3). Jeżeli test nie zakończył się powodzeniem, powtórz go. Kliknij Next w dwóch kolejnych oknach. Mechanizm rozpoznawania mowy umożliwia przeskanowanie dokumentów i poczty, by zoptymalizować swoją skuteczność. Efektywność wzrośnie jednak jedynie po analizie plików anglojęzycznych, więc w naszym przypadku można ten etap pominąć, zaznaczając Disable document review. W kolejnym kroku zaznacz Use voice activation mode i ponownie kliknij Next.

Systemowa funkcja rozpoznawania mowy nie ma żadnego mechanizmu wyświetlania podpowiedzi, na przykład w postaci bocznego paska. Jego brak powoduje, że dostęp do spisu poleceń trzeba sobie zapewnić w inny sposób. System proponuje wydrukować stosowną listę. Aby uzyskać jej podgląd, kliknij przycisk View Reference Sheet (4). Lista zostanie wyświetlona w oknie przeglądarki. Przejdź do kolejnego kroku. Jeżeli chcesz, by mechanizm rozpoznawania mowy startował razem z systemem operacyjnym, pozostaw zaznaczone pole Run Speech Recognition at startup i kliknij Next.

Aby uzyskać wprawę w używaniu funkcji rozpoznawania mowy, należy skorzystać z przewodnika. To bardzo ważne. Poza tym dzięki interakcji z użytkownikiem mechanizm uczy się przez cały czas. Przewodnik zawiera instrukcje, jak stosować poszczególne komendy, dyktować tekst i poprawiać go. Zakończ pracę kreatora, rozwiń menu startowe i wpisz Control Panel. Wciśnij Enter, by uruchomić Panel sterowania w starszej wersji. Kliknij Ease of Access Center i Use the computer without a mouse or keyboard (5), a następnie Use Speech Recognition.

Łącze Take Speech Tutorial (6) prowadzi teoretycznie do samouczka, w praktyce znajdujące się tam informacje ograniczają się do informacji o tym… jak uruchomić samouczek. Kliknij Train your computer to better understand You (7). Przeczytaj tekst, który w skrócie przybliża korzystanie z mechanizmu rozpoznawania głosu i jednocześnie służy dopasowaniu funkcji do twojej wymowy.

Na koniec możesz przejść do następnego kroku kreatora bądź uruchomić kolejną sesję treningową przyciskiem More training. Pamiętaj – im więcej czasu poświęcisz na naukę i korzystanie z funkcji rozpoznawania, tym efektywniej będzie ona działała. Aby chronić swoją prywatność, możesz odmówić wysyłania próbek dźwięku do Microsoftu. Kliknij w tym celu przycisk Don’t Send.

Rozpoznawanie mowy uruchamia się, klikając łącze Start Speech Recognition lub wciskając kombinację klawiszy +Ctrl+S. O działającej funkcji informuje niewielki pasek u góry ekranu (8). Korzystając z wydrukowanej ściągawki, możesz już wydawać polecenia głosem.

Rynkowym liderem w dziedzinie rozpoznawania głosu jest narzędzie Dragon NaturallySpeaking. Program rozróżnia niuanse wymowy w zależności od pochodzenia użytkownika, radzi sobie z angielskim używanym w Australii, Kanadzie czy na Dalekim Wschodzie. Jest elastyczny i wygodny w używaniu, choć wymagający w stosunku do sprzętu, na którym się go instaluje. Przed przystąpieniem do używania aplikacji należy przejść przez rozbudowany etap konfiguracji i nauki.

Rozpoznawanie mowy to skomplikowane zadanie. Do tego każdy człowiek mówi trochę inaczej. Dlatego zanim rozpoczniesz korzystanie z programu, musisz stworzyć swój profil użytkownika, z którego będziesz korzystał podczas pracy z programem. Kliknij przycisk Next w pierwszym oknie kreatora, które pojawi się na ekranie po uruchomieniu programu. W polu Enter a name umieść nazwę profilu i przejdź dalej.

Wskaż swój przedział wiekowy. Dzięki temu działanie programu będzie skuteczniejsze. Jeżeli nie chcesz podawać tej informacji, zaznacz na liście Prefer not to say (1). Przejdź dalej i wskaż wariant angielskiego, który używasz. Do wyboru masz miedzy innymi wymowę amerykańską, australijską czy azjatycką. Kolejne okno kreatora pozwala określić sposób akcentowania słów. Wyświetla ono rożne opcje w zależności od wybranego wcześniej wariantu języka. Jeżeli posługujesz się angielskim w odmianie brytyjskiej, wskaż Standard (2).

Określ, w jaki sposób komunikujesz się z komputerem. Może to być wbudowany mikrofon, mikrofon przewodowy bądź Bluetooth (3). Dragon potrafi również przeprowadzać transkrypcję nagrań zapisanych na twardym dysku. Przejdź do kolejnego kroku kreatora i zapisz profil, klikając przycisk Create.

Program musi jeszcze skalibrować mikrofon. Służy do tego kolejny kreator. Kliknij Next, a następnie Start Volume Check i naturalnym głosem przeczytaj tekst wyświetlony w oknie powyżej (4). Jeżeli poziom dźwięku jest zbyt niski, na ekranie wyświetlony zostanie stosowny komunikat (5). Zamknij go i powtórz procedurę – aż do skutku. Przejdź dalej do etapu oceny jakości całego systemu dźwiękowego. Przeprowadza się ją tak, jak poprzednio. Kliknij Start Quality Check i przeczytaj kolejny tekst.

Po dopasowaniu parametrów systemu audio musisz nauczyć program twojego sposobu wymawiania słów. Służy do tego dłuższy tekst, który należy przeczytać. Pozostaw zaznaczone polecenie Show text with prompting i kliknij przycisk Go. Wypowiedz wyświetlane w oknie sentencje, a następnie wybierz jedną z wersji tekstu, na przykład Alice’s adventures in Wonderland (6) i przeczytaj go. Na koniec zamknij okno komunikatu przyciskiem OK. Skuteczność programu można poprawić, przeprowadzając kolejne treningi na innych tekstach. Warto to zrobić, jeżeli nie posługujesz się angielskim wystarczająco płynnie. Na koniec poczekaj, aż profil zostanie zaktualizowany.

Jeżeli używasz angielskiego w korespondencji i podczas tworzenia dokumentów (7), uruchom skanowanie katalogu z plikami oraz profili pocztowych. Poszerzy to bazę używanego przez program słownictwa. Kliknij Start i przejdź dalej. Pozostaw zaznaczoną opcję Automatically improve accuracy, by program mógł automatycznie aktualizować profil na podstawie przeprowadzanych przez ciebie operacji. Im częściej będziesz używał aplikacji, tym lepiej będzie się spisywała.

Kolejne ustawienia dotyczą poprawy działania programu, ale wymagają regularnego przesyłania do producenta danych związanych z jej używaniem. Jeżeli zgadzasz się na to, zaznacz Run Data Collection, w przeciwnym razie wybierz Don’t run Data Collection. Aktualizację profilu zakończ w kolejnym kroku przyciskiem Finish.

Po skonfigurowaniu profilu Dragon NaturallySpeaking jest gotowy do pracy. Wystarczy włączyć mikrofon. W każdej chwili można też uruchomić funkcję treningu, która poprawi skuteczność rozpoznawania poleceń. Aplikacja może być stosowana do sterowania systemem i programami, jak również dyktowania tekstów w edytorze.

Po uruchomieniu program wyświetli pasek narzędziowy u góry ekranu (8) i pasek boczny z prawej strony (9). Zawarte w nich narzędzia obejmują funkcje konfiguracyjne, pozwalają zmieniać tryby rozpoznawania, zapewniają dostęp do modułów treningowych. Pasek boczny to rodzaj podręcznej pomocy. Jeżeli nabierzesz wprawy w używaniu aplikacji, będziesz mógł go zamknąć. Domyślnie mikrofon jest wyłączony. Aktywujesz go, klikając czerwony przycisk Turn microfone on widoczny w lewym górnym rogu ekranu.

Zacznij od dyktowania tekstu. Dragon NaturallySpeaking współpracuje z takimi edytorami jak Word czy Writer. Aktywuj mikrofon i wypowiedz komendę uruchamiającą Worda. Może ona brzmieć na przykład „Open Microsoft Word” bądź „Launch Microsoft Word”. Gdy na ekranie pojawi się okno edytora, rozpocznij dyktowanie.

trakcie edycji możesz tworzyć nowe akapity, przenosić kursor do wybranych linii, zaznaczać tekst, kasować go i kopiować, modyfikować formatowanie. Pasek boczny Dragona wyświetla polecenia związane z uruchomionym aktualnie edytorem, dzięki czemu ułatwia pracę. Cały czas rozpoznawane są jednak również polecenia związane z systemem operacyjnym oraz obsługujące inne programy. Wypowiadając odpowiednie komendy, zastąpisz mysz i klawiaturę. Jednocześnie możesz dyktować tekst. Nic nie stoi też na przeszkodzie, by używać Dragona do wprowadzania tekstu w dowolnym oknie. W takiej sytuacji poinformuje cię on jedynie o mniejszej liczbie dostępnych funkcji sterowania.

Jeżeli chcesz przerwać na chwilę dyktowanie, uśpij mikrofon, wypowiadając komendę „go to sleep” bądź „stop listening”. Polecenie „microphone off” wyłącza mikrofon, ponowne włączenie wymaga jednak użycia myszy. Po uśpieniu wystarczy powiedzieć „wake up” lub „listen to me”. Zwróć uwagę, że ten sam efekt można uzyskać za pomocą wielu różnych poleceń. Jeżeli podczas dyktowania zamierzasz użyć niestandardowego wyrazu albo kodu alfanumerycznego, wypowiedz polecenie „spell”. Na ekranie pojawi się okno (10), w którym przeliterujesz wyraz i dodasz go do bazy aplikacji.

Jeżeli musisz powtarzać często jakieś polecenie, by zostało ono prawidłowo rozpoznane przez program, oznacza to, że powinieneś poświęcić dodatkowy czas na trening. Nauka polega na przykład na korygowaniu błędnie rozpoznanych podczas dyktowania wyrazów. Wystarczy wypowiedzieć „correct that” i wpisać prawidłową formę. Naukę możesz przeprowadzać także z poziomu okna literowania. Wystarczy kliknąć polecenie „Train”.

Narzędzia do kompleksowego treningu umieszczone zostały w osobnym module. Aby go uruchomić, wypowiedz polecenie „open accuracy center” lub rozwiń menu Help i wybierz Improve My Accuracy on the DragonBar. Możesz tu dodawać nowe wyrazy (11), przeprowadzać naukę na podstawie wiadomości pocztowych i dokumentów, trenować dostępne w programie polecenia. Zacznij jednak od odczytania dodatkowych tekstów. Kliknij w tym celu polecenie Read text to train Dragon to your voice umieszczone w sekcji Adjust your acoustic. W drugiej kolejności, za pomocą polecenia Open the Command Browser, przetrenuj rozpoznawanie dostępnych komend.

Dużym producentem oprogramowania, który rozwija narzędzia rozpoznające polską mowę jest Google. Smartfony pracujące pod kontrolą Androida reagują już na wiele poleceń, a Asystent Google to pierwszy asystent dostosowany do naszego języka. Na razie trzeba jeszcze poczekać na możliwość kompleksowej obsługi systemu, ale podczas dyktowania polskiego tekstu narzędzia Google spisują się wyśmienicie.

Aby skorzystać z funkcji dyktowania, trzeba uruchomić Dokumenty Google w przeglądarce Chrome. Otwórz stronę docs.google.com i kliknij pole ze znaczkiem +, by utworzyć nowy dokument (1). Rozwiń menu Tools i wybierz polecenie Voice typing.

Rozwiń listę B>(2) i ustaw na niej język polski. Włącz funkcje dyktowania, klikając mikrofon. Możesz już rozpocząć dyktowanie tekstu. Szkoda tylko, że wybranie języka polskiego wyłącza rozpoznawanie komend pozwalających formatować dokument.Dostępne są one w języku angielskim.

Jeżeli któryś z programów rozpoznających mowę nie współpracuje prawidłowo z mikrofonem, być może odpowiedzialne są za to ustawienia prywatności. Bardzo często bowiem aplikacje i system mają zablokowany dostęp do tego urządzenia. Aby to sprawdzić, otwórz okno ustawień systemu, wybierz kategorię Privacy i grupę Microphone. Kliknij przycisk Change w sekcji Microphopne access for this device i przesuń suwak do pozycji On. Sprawdź również na liście poniżej uprawnienia programów, między innymi Cortany (3). Czasami trzeba też zwrócić uwagę na konfigurację zapory albo antywirusa. Często pilnują one dostępu do urządzeń podłączanych do komputera.