TechnologieW czym może pomóc

    W czym może pomóc

    Wirtualny asystent głosowy czeka w każdym czołowym systemie mobilnym. To zaawansowane narzędzie przetwarza otrzymane polecenia za pomocą ogromnej mocy obliczeniowej serwerów w chmurze.

    W czym może pomóc

    Główną zaletą tego typu rozwiązań jest umożliwienie zaawansowanej obsługi smartfona za pomocą głosu lub przy bardzo ograniczonym użyciu dotykowego ekranu. I nie chodzi o proste polecenia typu „Zadzwoń do…” czy „Otwórz kalendarz” – twój wirtualny asystent rozumie znacznie bardziej skomplikowane polecenia, np. „Przypomnij, bym odpisał na właśnie czytanego e-maila, gdy wrócę wieczorem do domu”. By zrealizować takie zadanie, asystent musi połączyć aktualną zawartość ekranu z położeniem geograficznym użytkownika i porą dnia. Twórcy oprogramowania wyposażają więc usługę w narzędzia i czujniki dające dostęp do potrzebnych danych. Muszą też nauczyć maszynę rozpoznawania mowy – nie sformalizowanych poleceń, a swobodnie wydawanych komend.

    Rozum, który działa w sieci

    Wirtualny asystent nie może działać bez połączenia z internetem, i to nie tylko ze względu na potrzebę korzystania z danych dostępnych tylko online. W chmurze przebiega przetwarzanie całego polecenia wydanego telefonowi – od interpretacji mowy po przesłanie gotowej odpowiedzi. Duża moc obliczeniowa zgromadzonych w chmurze serwerów oraz zaawansowane sieci neuronowe wykorzystywane są do analizy głosu użytkownika – dzięki nim najnowsze wersje asystentów rozumieją polecenia wydawane w potocznym języku. Analiza głosu rozpoczyna się od rozłożenia sygnału zarejestrowanego przez mikrofon na składowe częstotliwości za pomocą operacji matematycznej nazywanej Transformacją Fouriera. Powstaje tzw. spektrogram, który można wyobrazić sobie jako zapis głosu w postaci wykresu, na którym zaznaczono wszystkie składniki dźwięku. Z takiego wykresu system wyodrębnia podstawowe fragmenty mowy – sylaby i fonemy. Z tych cegiełek na powrót konstruowane są słowa – już w postaci zrozumiałej dla wirtualnego asystenta.

    Potrzebna statystyka

    Ponieważ wydawane polecenia rzadko ograniczają się do jednego czy dwóch słów, dla wirtualnego asystenta bardziej istotne od znaczenia poszczególnych wyrazów jest całe zdanie. Po rozpoznaniu poszczególnych sylab rozpoczyna się składanie słów w całe polecenie. Podczas obu etapów do analizy wykorzystywane są metody statystyczne, np. prawdopodobieństwo wystąpienia jednego słowa (lub jego składowej) po drugim. Dla wyższej precyzji analiza uwzględnia cechy charakterystyczne danego języka, np. składnię. Takie podejście eliminuje błędy wynikające z niedbale wypowiadanych słów, nietypowego akcentu lub wad wymowy. Do analizy statystycznej potrzebna jest duża baza danych – taki zbiór tworzony jest na etapie projektowania asystenta w procesie tzw. głębokiego uczenia maszynowego. Podczas analizy milionów poleceń wyodrębniane są wzorce, które następnie można wykorzystać w gotowym produkcie. Także komendy głosowe, które na co dzień wydajesz swojemu smartfonowi, poprawiają umiejętność rozumienia mowy asystenta.

    Ważne okoliczności i relacje

    Przy interpretacji poleceń wykorzystywane są informacje o właścicielu oraz kontekst wypowiedzi. Jeśli ujawnisz asystentowi swoje relacje z osobami z listy kontaktów, będziesz mógł wydawać polecenia typu „zadzwoń do mojej żony” i „napisz SMS-a do mojej siostry”. Z kolei wprowadzenie danych o miejscu zamieszkania czy pracy podniesie skuteczność poleceń w rodzaju „nawiguj do biura”. Dzięki informacjom o położeniu z modułu GPS smartfona asystent może wyszukiwać restauracje, muzea czy sklepy w twojej okolicy. Sprawdzi też repertuar kina czy teatru (w niektórych krajach zarezerwuje też bilet), znajdzie datę i miejsce koncertu ulubionego artysty. Im więcej informacji o tobie zgromadzi asystent, tym efektywniejsza będzie jego praca.

    Wie wszystko

    Wirtualny asystent ma dostęp do większości aplikacji systemowych i ich zawartości. Może np. przeszukać kalendarz czy skrzynkę odbiorczą w programie pocztowym. Sprawdza też zawartość pamięci smartfona, np. w poszukiwaniu plików muzycznych. Jeśli zapytanie dotyczy informacji, których nie ma w urządzeniu, asystent znajdzie je online. Korzysta przy tym z licznych wyszukiwarek internetowych, np. Google’a czy Bing Microsoftu oraz baz wiedzy w rodzaju Knowledge Graph czy Wolphram Alpha.

    Wynik na głos

    Korzystanie z wirtualnego asystenta sprawia wrażenie rozmowy z żywym człowiekiem. Asystenci mają nawet imiona, np. Siri czy Cortana. Usługa komunikuje się z użytkownikiem nie tylko za pomocą obrazków i tekstu wyświetlanego na ekranie – przede wszystkim używa syntezatora mowy. Jeśli spytasz np. o wysokość Wieży Eiffla, nie musisz odczytywać jej na ekranie. Odpowiedź usłyszysz z głośnika smartfona. Asystenta można poprosić nawet o opowiedzenie żartu lub spytać o samopoczucie.

    Włącz asystenta

    Spośród trzech usług dostępnych w największych mobilnych systemach operacyjnych tylko Google Now wspiera język polski. Ale jeśli znasz angielski, nic nie stoi na przeszkodzie, by korzystać także z pozostałych asystentów. Czasem wymaga to drobnych zmian w ustawieniach. Google Now i Cortana Microsoftu są dostępne nie tylko w macierzystym systemie – można je zainstalować także u konkurencji.

    Android – Google Now

    Usługa jest domyślnie włączona w ustawieniach systemu Android. Asystent dobrze radzi sobie z rozpoznawaniem języka polskiego, choć nie wszystkie komendy głosowe są dostępne. Kliknij Ustawienia, a potem Google i Wyszukiwanie i Google Now, aby zmienić język (Język wyszukiwania), wybrać aplikacje, w których asystent będzie prowadził wyszukiwanie (Przeszukiwanie telefonu) oraz włączyć aktywację asystenta komendą „OK, Google” (Wyszukiwanie głosowe). Jeśli klikniesz Konta i prywatność, będziesz mógł ustawić skrócone nazwy swoich kontaktów, np. „mama”, „żona” czy „brat”. Google Now aktywujesz, przytrzymując klawisz home w smartfonie.

    Obraz

    Windows Phone – Cortana

    W najnowszej wersji mobilnych Okienek dostępne są tylko nieliczne polskie polecenia głosowe („Zadzwoń”, „Otwórz”), a asystent Cortana działa tylko po zmianie całego interfejsu systemu na angielski. Aby to zrobić, przejdź do ustawień systemu i wybierz region. Zmień pozycję na liście na Wielka Brytania. Zrestartuj telefon. Po uruchomieniu urządzenia ponownie przejdź do ekranu ustawień i otwórz sekcję język. Tu kliknij dodaj języki i z listy wybierz English (United Kingdom). Po kolejnym restarcie telefonu znowu otwórz ekran ustawień – naciśnij speech i wybierz pozycję English (United Kingdom). Kliknij yes, by potwierdzić pobranie pakietu mowy, i install, by go zainstalować. Gdy telefon się zrestartuje, będziesz mógł wreszcie uruchomić Cortanę. Aby skorzystać z usług asystentki, przytrzymaj klawisz wyszukiwania.

    Obraz

    iOS – Siri

    Jeśli w telefonie ustawiony jest język polski, to asystent Siri jest domyślnie nieaktywny. Możesz za to korzystać z prostych poleceń głosowych w języku polskim, np. „Zadzwoń do…” albo „Graj muzykę”. Aktywacja Siri wyłączy te polecenia, a telefon przejdzie w tryb rozpoznawania języka angielskiego. Aby to zrobić, w ustawieniach telefonu wybierz Ogólne, a następnie Siri. Aktywuj opcję Siri, naciskając zielony włącznik. W polu Język powinien figurować Angielski (Wielka Brytania). Siri może mówić do ciebie głosem męskim lub damskim (opcja Głos Siri). Dostępne są też trzy różne akcenty języka angielskiego. Asystenta wywołasz, przytrzymując klawisz główny iPhone’a.

    Obraz

    Wybrane dla Ciebie