Seriál Člověk proti stroji
Část 1: Porozumění řeči: Může s námi počítač komunikovat?
Část 2: Fotbalový zápas: Kopou roboti lépe než reprezentační jedenáctka?
Část 3: Zrakový test: Má počítač ostřejší zrak?
Část 4: Absolutní sluch: Kdo slyší více zvukových frekvencí?
Část 5: Perfektní čich: Cítí počítač jednotlivé molekuly?
Část 6: Úchopový test: Je stroj přesnější než naše ruka?
Prostorové slyšení
Ucho je náš nejrychlejší smyslový orgán, navíc zdroje zvuku zaměřuje s přesností až na několik stupňů. Dokáže stroj tento výkon překonat?
MANUEL SCHREIBER
Lidské ucho je vysoce komplexní systém a neuvěřitelně precizní měřicí přístroj. Se svými cca 15 500 vláskovými buňkami v jednom uchu rozlišuje člověk asi 400 000 tónů – školené ucho určí dokonce exaktní výšku tónu (absolutní sluch). A přece slyší člověk podstatně méně než umělý systém. Tak například "zpěv" velryb může zachytit jen pomocí speciálních podvodních mikrofonů, neboť tato zvířata vyluzují tóny o frekvencích až 280 kHz. Lidské ucho však slyší pouze kmitočty mezi 16 Hz a maximálně 20 kHz. Aparatura jako podvodní mikrofon zaznamená frekvencí více ale lépe neslyší. Chybí jí schopnost, která je pro člověka úplnou samozřejmostí: ucho se dokáže na určité zvuky soustředit a především je přesně lokalizovat. Například láhev, která dopadne na zem ve vzdálenosti deseti metrů, zaregistruje člověk s přesností menší než jeden metr.
Vidění ušima: Prostorová orientace
Ať přichází hlas, který slyšíme, zepředu, zezadu, nebo ze strany – naše uši jednoznačně vnímají směr, a dokonce i vzdálenost. Rozhodující jsou zde dvě podstatné schopnosti binaurálního (obouušního) slyšení, které vědci využívají i u strojů (viz schéma nahoře). Sluch zaznamenává časové rozdíly mezi oběma ušima (Interaural Time Difference, ITD) a rozdíly zvukového tlaku (Interaural Intensity Difference, IID). Odlišnosti zvukového tlaku způsobuje naše hlava, která tvoří přirozenou překážku (a tvoří tzv. "hlavový stín"), od níž se zvuk odráží. Časový rozdíl udává interval mezi okamžiky, v nichž zvuk do kterého ucha dorazil. Přichází-li zvuk například zleva, dopadne nejprve do levého ucha – a to rychlostí kolem 340 metrů za sekundu. Tato rychlost zvuku není pro naše ucho žádný problém. "Časové diference rozpoznává ucho na deset mikrosekund přesně," vysvětluje Prof. Dr. Werner Hemmert, specialista na bioanalogové zpracování informací při technické univerzitě v německém Mnichově. Také stroj časově vyhodnocuje frekvence, ve srovnání s 0,01 ms u ucha je však software překvapivě pomalý. "Vyhodnocení zvládne jen každých 10 milisekund," říká Hemmert.
"Prostorový sluchový vjem člověka je ovlivněn také ušním boltcem a rameny," objasňuje Dr. Manfred Hild, ředitel laboratoře pro neurorobotiku při berlínské Humboldtově univerzitě. Tuto vlastnost lidského těla vědci záměrně využívají u některých umělých systémů. Pro laboratorní účely tak už vznikly stroje, které mají lidsky vytvarovanou hlavu s ušními boltci u mikrofonů, aby prostorový vjem zachytily co nejpřirozeněji. Jiný, hojně rozšířený postup, je čistě technický a výzkumníci při něm pro lokalizaci zdroje zvuku používají více mikrofonů (příklady viz dále, odstavec "Technika místo inteligence: Slyšení je kompromis").
Prostorová orientace na základě zvuků funguje u strojů skvěle – pokud se však nacházejí v testovacím prostředí speciálně připraveném právě k tomuto účelu. Jakmile se ale mají orientovat ve všednodenních situacích, jsou v koncích. Zásadní rozdíl oproti člověku spočívá v chybějící inteligenci. Známým scénářem je "problém koktejlové party" (cocktail party problem): Když se v jednom prostoru nahlas baví mnoho lidí a ještě k tomu duní muzika z reproboxů, člověk přesto dokáže při rozhovoru rozumět jednotlivým partnerům. Stroje jsou v takových situacích zcela bez šance, neboť už nevyfiltrují žádné relevantní frekvence. Pro ně pak existuje jen neidentifikovatelný hluk. Aby se robot mohl soustředit na určité zvuky, musel by vědět, který zdroj zvuku je právě zajímavý. Kromě toho by stroj musel umět všechny ostatní zvuky filtrovat a potlačit – tohle pro člověka není žádný problém.
Technika místo inteligence: Slyšení je kompromis
Podle aplikační oblasti proto vědci pracují s různými triky, aby strojům dopřáli lepší sluch. Inteligentní systémy totiž nejsou jenom výzkumná oblast. Také průmysl má velký zájem o v praxi použitelná řešení, mnohé produkty jsou už dokonce na trhu. "To je důležitý tematický okruh, poněvadž tato technika nachází uplatnění u mobilních telefonů, u ‚handsfree' zařízení v interiérech automobilů a u konferenčních systémů," říká neurorobotik Hild. Řešením by bylo odfiltrovat určité frekvence. To však není možné vždy, připomíná Hild: "V autě se hluk motoru nedá frekvenčním filtrem potlačit, neboť ruší v celém frekvenčním pásmu. Je proto nutné uchýlit se ke směrové analýze."
K tomu používaný postup se jmenuje "blind signal separation" (separace zdrojů signálů naslepo). Ve vozidle instalují výrobci mnoho oddělených mikrofonů, které slouží jen k zaznamenání a odfiltrování rušivých šumů – zůstane jenom samotný hlas řidiče. Tento princip využívají i výrobci smartphonů. Umísťují jeden mikrofon na přední a jeden na zadní stěnu přístroje a zachycené frekvence porovnávají. Je to velmi primitivní, k chybám náchylná metoda, neboť rušení, které oba mikrofony zaznamenají, nejsou filtrována. Žádné přelomové řešení není v dohledu, lituje Hemmert. "Vývoj stagnuje. Prostě se neví, proč člověk slyší o tolik lépe." Problémem je všednodenní šum, neboť umělý sluch se nedá nastavit na rozdílné situace. Jestliže stroj například v bezdozvukovém prostoru hluky bez potíží lokalizuje, při stejné konfiguraci by třeba v prázdné hale narazil na své hranice, poněvadž na takové podmínky nebyl optimalizován.
Jednodušší systémy, jako programy pro rozpoznávání řeči, to zde mají lehčí – mikrofon se drží přímo u úst. "Systém rozpozná toho, kdo mluví nejhlasitěji," popisuje Hemmert. Zato mají tyto programy úplně jiný sluchový problém: musí poznat, že se v řečovém vstupu jedná o hlas, a ten správně interpretovat. Zejména u systémů nezávislých na mluvčím, jako jsou navigační systémy, je taková transformace obtížná (více o tématu rozpoznávání řeči jsme psali v rámci tohoto seriálu Člověk proti stroji v Chipu 7/11, str. 67).
Závěr: Než budou roboti schopni se ve všedním světě orientovat pomocí sluchu, potrvá to ještě dlouho. Manfred Hild vidí vývoj kriticky: "Muselo by se vlastně ustoupit o krok zpátky a systému umožnit, aby se učil." Přelom očekává až tehdy, kdy budou roboti všechny signály zpracovávat paralelně. Stroje by tedy musely umět inteligentně slučovat motorické, zvukové a vizuální informace. Vždyť ani člověk neposlouchá jenom ušima – na svého partnera při rozhovoru upřeně hledí a pohybuje hlavou, aby lépe zaměřil zdroje zvuku.
AUTOR@CHIP.CZ
Člověk
JAK SLYŠÍ ČLOVĚK
Ušní boltec směruje zvukové vlny dovnitř ucha, kde se proměny tlaku vzduchu přenášejí na tekutinu v uchu a převádějí na nervové impulzy.
Transformace zvuku
Díky tvaru ušního boltce slyší člověk prostorově i jen jedním uchem. Bubínek umístěný na konci zvukovodu slouží jako membrána.
Sluchové kůstky zesilují výkyvy tlaku a přenášejí je na tekutinu ve vnitřním uchu.
Hlemýžď obsahuje kanálky naplněné tekutinou (endolymfou), která se působením tlaku rozvlní, čímž rozechvěje vláskové buňky.
Sluchový nerv sestává asi z 30 000 vláken přenášejících do mozku signály o chvění vláskových buněk. Každá z buněk je vyhrazena pro jednu frekvenci.
Vnější vláskové buňky v hlemýždi slouží k zesilování zvuku, zatímco vnitřní přetvářejí signál na nervové impulzy.
Přednosti a slabiny
+ velmi rychlá transformace na nervové impulzy
+ zaměření přesné až na několik stupňů
+ velmi dobré potlačení šumu
- vnímá jen v malém frekvenčním pásmu
- výkon ve stáří klesá
Stroj
JAK SLYŠÍ ROBOT
Aby se stroj mohl v prostoru orientovat sluchem, potřebuje minimálně dva mikrofony, aby z rozdílů jimi zachycených vln dokázal usuzovat na polohu zdroje.
Prostorové snímání
Zvuk dopadá ničím neomezen na levý mikrofon. Vlivem hlavového stínu dorazí signál do pravého mikrofonu později a zeslaben.
Zvuková karta převádí analogový signál na digitální a určuje přesnost časového měření. Většina karet pracuje se vzorkovací frekvencí 44,1 kHz (CD kvalita) – to je přesnost 22,67 mikrosekundy.
Křížová korelace zaměřuje zdroj zvuku. Algoritmus za tím účelem zjišťuje frekvence obou kanálů a měří jejich časový posun. Potom stroj na základě rozdílu úrovní signálů vypočítá lokalizační úhel.
Jak funguje kondenzátorový mikrofon
Změny zvukového tlaku rozvibrují membránu, čímž se mění její odstup od protilehlé elektrody – a tím také napětí na kondenzátoru, které ovládá výstupní signál.
Přednosti a slabiny
+ Q slyší velké frekvenční rozsahy
- zaměřuje na několik stupňů přesně jenom v laboratorních podmínkách
- ve všednodenním hluku nefunguje prostorová orientace
- pomale zpracování signálů
- špatné potlačení šumu