Přejít k hlavnímu obsahu

Na kus řeči s počítačem

Seriál Člověk proti stroji

Část 1: Porozumění řeči: Může s námi počítač komunikovat?
Část 2: Fotbalový zápas: Kopou roboti lépe než reprezentační jedenáctka?
Část 3: Zrakový test: Má počítač ostřejší zrak?
Část 4: Absolutní sluch: Kdo slyší více zvukových frekvencí?
Část 5: Perfektní čich: Cítí počítač jednotlivé molekuly?
Část 6: Úchopový test: Je stroj přesnější než naše ruka?

Na kus řeči s počítačem

Stroj dokáže interpretovat stále více příkazů v lidském jazyce. Ale jak dobře řeči rozumí inteligentní počítač v porovnání s mozkem?
MANUEL SCHREIBER

Člověk potřeboval tisíce let, aby zvládl jazyk, počítač se to učí teprve nějakých padesát roků – a za tuto krátkou dobu udělal udivující pokrok. Například počítač firmy IBM "Watson" dokáže rozšifrovat dokonce i komplexní jazykové souvislosti a je tak dnes jedním z nejinteligentnějších systémů. Své schopnosti dokázal letos v únoru, když při hře Jeopardy nastoupil proti nejlepším lidským soupeřům – a vyhrál na celé čáře. Byla to senzace, neboť porozumění řeči patří k nejsložitějším pochodům v mozku. Jenomže... Skutečně "Watson" rozumí tomu, co mu člověk říká, nebo jen obratně vyvolává uložená fakta?
Mezi člověkem a strojem existuje při zpracování řeči více paralel, než by se na první pohled zdálo. Skutečně rozhodující jsou ale různé způsoby přístupu k interpretaci jazyka. I ten nejsložitější počítač totiž pracuje spíše sekvenčně, zatímco mozek vlastně představuje vysoce integrovanou síť.

Příjem: Zachycení řeči a její analýza

Zachytit mluvenou větu je dnes pro počítač jednoduchý úkol, specializované programy jako "Dragon NaturallySpeaking" jsou už k dostání zhruba za 100 eur. Za rozpoznáváním řeči se však skrývá nesmírně složitý systém, který musí z vyslovených hlásek nakonec sestavit slova a věty.
Má-li být řeč správně zachycena, po převedení na digitální signál se nejprve analyzuje a upravuje: Systém odfiltruje všechny okolní šumy, aby mohl zpracovávat jenom čistý hlasový projev. Tento krok je velice důležitý, neboť bez filtrace by počítač smísil všechny zvuky dohromady a "nerozuměl" pak jedinému slovu. Podobně to probíhá u člověka. I on musí zvukové vlny přetransformovat na elektrické signály a ty pak přefiltrovat. Dělá to ovšem podstatně komplexněji než počítač – dokonce i když mnoho lidí mluví jeden přes druhého (tzv."koktejlparty efekt"), dokáže člověk rozpoznat jednotlivé hlasy a správně na ně reagovat; šumy pozadí jsou přitom potlačeny až o 15 decibelů. Naproti tomu počítač zde takto nerozlišuje. S každým hlasovým signálem zachází stejně, filtrování už pro stroj v tomto případě není možné.
Aby mohl být přefiltrovaný řečový signál zpracován, vytváří si jak počítač tak člověk frekvenční spektrum. U člověka se tento proces odehrává v uchu, stroj k tomu používá "rychlou Fourierovu transformaci". Při ní se frekvence dále analyzují pomocí "skrytého Markovova modelu" (viz grafiky nahoře), který v krátkých časových úsecích zkoumá frekvence, aby identifikoval jednotlivé fonémy (hlásky) a smysluplně z nich sestavil slova a věty. Aby přitom stroj dokázal rozlišit i stejně znějící (homofonní) slova jako "výr" a "vír", "bidlo" a "bydlo" nebo "led" a "let", obrací se na databanku, gramatické modely a příklady vět, jejichž pomocí kontroluje plauzibilitu svých větných konstrukcí.
Za optimálních podmínek rozpozná počítač řeč asi z 98 % – přinejmenším tehdy, když uživatel program trénuje tak, že mu manuálně koriguje nerozpoznané jazykové jevy. S dialekty a hovorovou řečí má však software potíže neustále – úplně opačně než člověk, jemuž nečiní žádné problémy rychle se partnerovi v konverzaci přizpůsobit, správně zařadit tónové frekvence a mimo jiné je porovnat s již známými výrazy.

Interpretace: Rozpoznávání souvislostí

Mnoho problémů strojového zachycování respektive rozpoznávání řeči se dá řešit, například ještě rozsáhlejšími databankami, ukládáním určitých tónových frekvencí a nasazením mnoha mikrofonů, které vytvářejí prostorový obraz řeči. Naproti tomu při hledání smyslu řečeného naráží stroj na zásadní problém: Jak má být řeč interpretována? Počítač nejedná vědomě, jen se chová podle daných pravidel – a čím komplexnější jsou tato pravidla, tím lepší je jeho porozumění řeči.
Aby stroj řeči porozuměl, přistupuje k sémantické síti, která sestává z "uzlů" a "hran". Na otázku "Jak teplo je dnes v Praze?" dokáže odpovědět, jsou-li v databance uložené pojmy (uzly) svázány s významovými kategoriemi. V našem příkladu tak musí být například slovo "dnes" spojeno s "časový údaj" a "Praha" s "místní údaj". V této struktuře jsou podchyceny také vzájemné vztahy (hrany) uzlů, umožňující třeba rozpoznat různé významy jednoho slova. Tak stroj pomocí těchto hran podle kontextu rozlišuje "myš" jako počítačovou komponentu a "myš" jako živočicha. Kontextové vztahy jsou pro stroj určující také při odpovídání. Když počítač dostane výše uvedenou otázku, může se pustit do jejího řešení třeba tak, že nabídne vyvolání aktuálních informací o Praze. Počítač je také schopen vyložit historii města, určit počet jeho obyvatel a vyjmenovat všechny ulice.
Co do faktických vědomostí proto počítač člověka jasně předčí. Naposledy to dokázal nový král hry Jeopardy počítač "Watson", jenž má k dispozici celkem 100 GB čistě textového materiálu, který sestává mj. z encyklopedií a slovníků. Pro zvýšení pravděpodobnosti správného výsledku používá software paralelně stovky různých algoritmů. Odpověď, která byla těmito algoritmy vypočítána nejčastěji a z hlediska vztahů (hran) se jeví jako logická, nakonec program vydá jako výstup – a díky strojovým učicím postupům si může počítač denně ukládat nové poznatky a vzájemně je propojovat. Je to tedy supermozek? Ani náhodou, vždyť víc než vyvolávat fakta a vkládat je do vzájemných vztahů neumí.
Na rozdíl od člověka nezná stroj žádné víceznačnosti, prostě jen vypočítává řešení. Naproti tomu lidský mozek pracuje "v síti", neboť do svých úvah zahrnuje asociace, aktuální události, osobní odhady a okolní prostor. Přitom mozek vnímá okolí jen selektivně, zatímco počítač ukládá všechno.
ZÁVĚR  Ani při rozpoznávání řeči ani při její interpretaci nemůže stroj s člověkem držet krok. Když řeč zpracovává mozek, aby slyšenému správně porozuměl, hraje roli mnohem více faktorů než jenom naučené znalosti. Člověk přemýšlí v daleko širším kontextu a může proto podle momentální situace na svého partnera v rozhovoru reagovat úplně odlišně – mezi ním a okolím totiž probíhá trvalá výměna informací.
Jedinou předností počítače je jeho databanka, v níž může principiálně shromažďovat, organizovat a kdykoliv vyvolávat všechna fakta – dokonce i nejbezvýznamnější poznámku při okraji. Naproti tomu u člověka z toho všeho pronikne do povědomí pouhý zlomek. A mnohé z toho je zase brzy zapomenuto
AUTOR@CHIP.CZ


Stroj
JAK NAŠI ŘEČ ZPRACOVÁVÁ POČÍTAČ
Počítač porovnává vyslechnutou informaci se slovníky, aby rozšifroval její obsah. Přitom přijímá nefiltrovaně každou informaci, aniž by rozlišoval mezi důležitými a nedůležitými údaji.
ZVUKOVÁ VLNA
Digitalizace  Stroj nejprve musí převést zvukovou vlnu na posloupnost bitů.
Potlačení šumu  Aby počítač mohl hlas přijmout korektně, odfiltrují se všechny rušivé zvuky.
Frekvenční spektrum  K analýze řeči potřebuje počítač obsažené frekvence.
Rychlá Fourierova transformace  Tento algoritmus převádí signály v krátkých časových úsecích na frekvenční spektrum.
Rozpoznávání řeči  Software transformuje řeč na text. Srozumitelnost textu kontrolují gramatické modely a větné příklady.
Skryté Markovovy modely  Algoritmus interpretuje frekvence jako jednotlivé hlásky a sestavuje z nich slova a věty.
Dekódování smyslu  Počítač porovnává slyšené se svou databankou a snaží se na základě vzájemných vztahů pojmů porozumět kontextu. Díky strojovým učicím postupům své vědomosti stále prohlubuje.
Databanka  Databanka obsahuje slovníky a encyklopedie. Představuje paměť.

Přednosti a slabiny

+ Neomezené vědomosti
+ Vždy pozorný
- Filtrování selhává, hovoří-li více osob současně
- Omezené rozpoznávání řeči
- Velmi omezená interpretace



Člověk
JAK NAŠI ŘEČ ZPRACOVÁVÁ MOZEK
Mozek pracuje jako široce rozvětvená síť, v níž se na interpretaci řeči podílí řada mozkových oblastí. Ne všechny informace však proniknou do povědomí – mozek pracuje velice selektivně.
ZVUKOVÁ VLNA
Sluchová kůra  V této oblasti se elektrické signály interpretují jako fonémy a odfiltrovávají se nerelevantní hlásky.
Wernickeho oblast  Zde se analyzují a interpretují slova, aby jim mohl být přiřazen smysl.
Corpus Striatum  Tato oblast zodpovídá za emoce a kognitivní procesy a ovlivňuje motivaci k poslechu řeči.
Talamus  Zde se rozhoduje, které signály člověk vědomě vnímá.
Brocova oblast  V této části mozku se vytvářejí odpovědi a předávají dále.
Zpracování zvuku v uchu  Ucho převádí zvukové vlny na frekvence, které se pak jako elektrické signály přes sluchový nerv dostávají do mozku.

Přednosti a slabiny

+ Výborné filtrování a potlačení šumu
+ Výborné rozpoznávání řeči
+ Situačně podmíněná interpretace díky pozorování okolí
- Omezená pozornost
- Omezené vědomosti