Żyjemy w Star Treku: Google prezentuje tłumaczenia głosowe w czasie rzeczywistym Gemini 3.5

Google zaprezentował Gemini 3.5 Live Translate – nowy model tłumaczeń mowy w czasie rzeczywistym, który ma działać z niskim opóźnieniem, obsługiwać ponad 70 języków i zachowywać naturalne cechy głosu rozmówcy, takie jak intonacja, tempo i wysokość.

Technologia trafia do usług Google, w tym Google Meet oraz Google Translate.

Nowy model z rodziny Gemini 3.5

Google rozwija tłumaczenia w czasie rzeczywistym od lat, jednak dotąd rozwiązania te były ograniczone do wybranych urządzeń i konfiguracji, takich jak konkretne telefony czy słuchawki. Nowy model Gemini 3.5 Live Translate jest częścią szerszej rodziny modeli Gemini 3.5, której kolejne elementy Google prezentował podczas konferencji Google I/O 2026 w maju – Live Translate ogłoszono już po tym wydarzeniu, 9 czerwca.

Jak podaje Google, system został zaprojektowany jako model speech-to-speech, który automatycznie rozpoznaje język i tłumaczy wypowiedzi w trakcie rozmowy. Według firmy obsługuje ponad 70 języków.

Tłumaczenie w czasie rzeczywistym i zachowanie naturalności mowy

Jednym z kluczowych elementów nowego rozwiązania jest opóźnienie ograniczone do kilku sekund względem mówiącego. Google deklaruje, że system jest na tyle szybki, aby nadążać za normalną rozmową. Co istotne, tłumaczona mowa ma zachowywać cechy oryginalnego głosu – w tym intonację, tempo i wysokość. W praktyce oznacza to bardziej naturalne brzmienie niż w klasycznych systemach syntezujących głos, które często brzmią mechanicznie.

Gemini 3.5 Live Translate trafia do kilku części ekosystemu Google. Wybrani klienci biznesowi korzystający z Google Workspace uzyskają dostęp do funkcji tłumaczeń w Google Meet jeszcze w tym miesiącu w ramach prywatnego podglądu, zanim nastąpi szersze wdrożenie – planowane na późniejszy okres tego roku.

Równocześnie Google udostępnia publiczny podgląd API w Gemini Live API oraz AI Studio, co pozwala deweloperom na implementację tłumaczeń bez konieczności ręcznej konfiguracji języków. Model ma również automatycznie radzić sobie z hałasem tła w trudnych warunkach akustycznych.

Rozszerzenie dla Google Translate na Androidzie i iOS

Najszerszą zmianą dla użytkowników indywidualnych jest integracja z Google Translate na Androidzie i iOS – model jest już dostępny globalnie w aplikacji od dnia ogłoszenia, aczkolwiek w polskiej wersji nie udało mi się go jeszcze aktywować – zapewne aktualizacje wdrażane są stopniowo w kolejnych regionach.

Tym niemniej korzystanie z funkcji Live Translate wymaga podłączenia słuchawek. Wyjątkiem jest nowy tryb „listening mode” na Androidzie, który pozwala przyłożyć telefon do ucha i odsłuchać tłumaczenie bezpośrednio przez głośnik douszny – bez potrzeby używania słuchawek.

Znaki wodne SynthID w każdej transmisji

Google podkreśla, że wszystkie strumienie audio generowane przez Gemini 3.5 Live Translate będą zawierały niewidoczne znaki wodne SynthID osadzone bezpośrednio w strumieniu audio. Mają one identyfikować treści jako wygenerowane przez sztuczną inteligencję i pomagać w zapobieganiu dezinformacji.

Gemini 3.5 Live Translate to kolejny krok w kierunku pełnej integracji tłumaczeń w czasie rzeczywistym w usługach Google. Firma stopniowo rozszerza dostępność technologii, która wcześniej była ograniczona do wybranych urządzeń i scenariuszy, teraz kierując ją do szerokiego ekosystemu aplikacji, deweloperów i użytkowników końcowych.