Výzkumníci z Brém a Grenoblu pracují na technologii, která umožní tiché telefonování, bez iritování okolí a sdělování soukromých detailů.
V tu chvíli ztratil nervy a začal na mě řvát. Prostě hrůza.“ Zachytíme-li třeba v tramvaji podobné útržky telefonického hovoru, ihned zpozorníme. Začínáme bezděčně naslouchat, i když slušné chování si stále vyžaduje odstup. Také volajícímu někdy může připadat hloupé, když se okolí účastní jeho zcela soukromých záležitostí.
Technicky je možné najít dokonalé řešení - telefonování bez hlasu. Přístroj dokáže zaznamenat pohyby svalů obličeje a rozpoznat vyjádřená slova. Na veřejnosti by tato obličejová gymnastika také mohla vyvolat nazlobené pohledy. Znamená to ale brzdu pro tuto technologii? Dlouhou dobu jsme si zvykali na telefonování s handsfree, dnes už ale sotvakdo považuje druhého za šílence, když zdánlivě vede rozhovor sám se sebou. Kromě toho, rozhovory by byly důvěrnější a dorozumění v hlasitém prostředí snazší.
Otevři dveře, zavři dveře
Vědci z univerzity v Brémách přilepují pokusným osobám několik elektrod na čelist pod bradu, aby zaznamenali jejich bezhlasé mluvení. Senzory zachycují jemné změny elektrického napětí, k nimž dochází při pohybech svalů. Proměna takto bezhlase řečených vět do textu již dnes funguje velmi dobře. Text pak může předčítat software pro syntézu řeči. Oklika přes text však způsobuje zpoždění mezi zachycováním řeči senzory a její reprodukcí, kvůli čemuž by mohly vznikat dlouhé pauzy v rozhovoru. Výzkumníci proto pracují na přímém převodu řeči bez zpoždění - chtějí zaznamenané impulzy z obličejové mimiky bezprostředně reprodukovat jako hlásky.
Pouhým okem není možné na tzv. elektromyografických signálech nic rozpoznat. Jsou-li však vyhodnoceny počítačem, dá se bezpečně odlišit třeba hláska „a“ od „o“ nebo „e“. Počítačový systém vědců z Brém dokáže věty zaznamenat a vyslovit v reálném čase. Například sentenci „Otevři dveře“ dokáže systém odlišit a reprodukovat od příkazu „Zavři dveře“.
Systém si však ještě stále nedokáže příliš dobře poradit s dlouhými sledy slov a rozsáhlejší slovní zásobou. Brémský elektroinženýr Lorenz Diener proto pracuje na algoritmech, díky nimž se systém učí na výslovnosti uživatele a stále se zlepšuje.
Propojení mimiky a jazyka
To samotné ale nestačí. Diener plánuje přidat ještě další prvek lidského řečového aparátu - a sice jazyk. Proto pravidelně jezdí do francouzského Grenoblu. V tamním výzkumném centru CNRS výzkumníci měří prostor úst ultrazvukem, aby zachytili pohyby jazyka při mluvení. Mnozí přirovnávají techniku k ultrazvukovému monitorování při těhotenství, přístroj ale není umístěný na břiše, ale pod bradou. Hlásky „h“ a „a“ není možné u této metody rozlišit, protože jazyk se pohybuje podobným způsobem. Výzkumníci proto následně kamerou sledují pohyby rtů. Teprve oba pohybové vzorce sestavené dohromady prozradí, co uživatel sděluje. Systém nyní správně reprodukuje 85 procent hlásek, a to v angličtině nebo francouzštině.
Thomas Hueber z Grenoblu a Lorenz Diener z Brém nyní plánují, jak své metody propojit. Počítají s tím, že se takto značně zlepší překlad bezhlasé mluvy do řečené. „V naší laboratoři disponujeme velmi dobrými informacemi o pohybech svalů tváře a rtů,“ uvádí Diener. „Zatímco kolegové v Grenoblu zase mají velmi přesná data o pohybu jazyka. Obojí se nyní pokoušíme spojit dohromady.“
Hlas jako Darth Vader
Syntetický hlas nyní zní trochu roboticky, jako hlasité šeptání, bez rytmu a intonace. Podle výzkumníků vzniká zdůraznění v řeči teprve v tom případě, když hlasivky vibrují. Mluvíme-li bezhlase, právě toto chybí. Tento nedostatek je závažný, nejde čistě o věc vkusu. Důležité informace mohou být ztraceny, protože zdůraznění významu věty může její celkový význam zcela změnit. Kromě toho má nástroj obtíže při reprodukci podobných slov.
Pro alespoň částečné řešení těchto problémů vědci svoje programy zásobují pravidly. Například dodávají informaci, že po slovech „My name“ s nejvyšší pravděpodobností následuje „is“, a nikoli „it“. Anebo systém učí, že se říká „puding se jí“, a nikoli „puding je“. Bezhlasé překladače tak mohou v budoucnosti určovat správné slovo, podobně jako to praktikuje komerční řečový software.
Rytířská výzbroj
První aplikace je možné vymyslet už dnes, i když technika zatím nefunguje perfektně. Například v medicíně umožní hovor pacientům, kteří kvůli nádoru na hlavě nebo v krku ztratili hlas. Je pro to potřeba nosit dost neohrabanou techniku - v případě nástroje týmu v Grenoblu je ultrazvukový přístroj a kamera umístěna na přilbě, která připomíná rytířskou výzbroj. V Brémách přilepují senzory na tvář. Hueber a Diener doufají, že bude možné technologii integrovat do smartphonu. Zaznamenání pohybů jazyka by například mohlo být realizováno díky nasměrování reproduktoru, elektrické senzory pro svaly by byly umístěné na displeji, který uživatel při telefonování beztak drží na tváři. Výzkumníci z Brém a Grenoblu se zatím příliš nezabývali atraktivním designem - v centru jejich pozornosti stojí především řešení technických obtíží při uskutečnění bezhlasé komunikace.
***
Pomoc pro neslyšící
V současnosti existují také systémy, které dokážou odečítat slova ze rtů. Systém LipNet, který vyvinula univerzita v Oxfordu, využívá techniku hlubinného učení. Software sledoval videozáznamy 33 tisíc vět pronesených člověkem snímaným kamerou. Modrou barvou označí oblasti v tváři, které jsou typické pro určité hlásky. Z nich pak vytvoří zjednodušené vzorce, tzv. vizémy, které mu umožní přiřadit obraz tváře zvukům. Zatímco trojice neslyšících odezírala v testu úspěšně v průměru z 52 procent, LipNet se dostal až na 95 procent. Systém je třeba ještě trénovat na datech z reálného světa, do budoucna však nabízí zajímavé možnosti: „Asistentka Siri nebude potřebovat slyšet váš hlas, bude odečítat ze rtů,“ říká autor systému Yannis Assael z univerzity v Oxfordu. To se může hodit třeba na hlučných místech. Podle počítačového specialisty Ladislava Kratochvíla z České unie neslyšících však slabina spočívá zatím v tom, že umělá inteligence LipNetu se učila na záběrech snímaných zepředu a za plného osvětlení, kdežto v reálném životě se odezírá z různých vzdáleností a úhlů. „Nicméně je to první vlaštovka a podle mě by přibližně za pět let mohl být podobný systém použitelný v praxi,“ domnívá se Kratochvíl. Nástroj by pomáhal neslyšícím a uplatnil by se také v biometrické identifikaci - i mimika člověka je totiž důležitým identifikačním znakem. Zároveň ale vyvolávají podobné techniky obavy, že by se jejich pomocí dal odezírat hovor lidí zachycených kamerami snímajícími veřejná místa - automaticky a mnohem přesněji, než to dokáže člověk.
Foto popis| Dlouhou dobu jsme si zvykali na osoby používající sady pro telefonování, které na ulici často působily jako podivíni, rozmlouvající sami se sebou.
Foto popis| Podobný výzkum tiché komunikace probíhá i v NASA. Tamní vědci používají několik senzorů přilepených na krk, které zachytí signály z nervů. Počítačový program je pak převede do slov.
Foto popis| Mimika obličeje při mluvení je snímána elektrodami na tváři. Vědci se zatím nezabývali atraktivním designem, v budoucnu ale chtějí techniku zabudovat do smartphonů.
O autorovi| MICHAL ČERNÝ, michalcerny.media@seznam.cz