Přejít k hlavnímu obsahu

Rozpoznávání řeči

Rozpoznávání řeči

Smartphony rozumí otázkám a inteligentně na ně odpovídají. Slabým článkem v celém systému je kvalita rozpoznávání řeči.
FABIAN VON KEUDELL

4 000 000 iPhonů 4S prodal Apple během prvních čtyř dnů. Hlavní prodejní argument: Siri – asistentka, která rozumí uživateli a dokáže inteligentně odpovídat na dotazy svého majitele. Aby to fungovalo, musí na pozadí telefonu probíhat množství výpočtů (viz infografika vpravo). Vizionáři ale věří, že v hlasovém ovládání je budoucnost. Siri je první vlaštovkou toho, jak budeme v budoucnosti komunikovat s  technikou. I  Bill Gates předpovídá hlasovému ovládání velkou budoucnost, a to již poměrně dlouhou dobu. Microsoft má dávno v  záloze konkurenci pro Siri. Službu nazývá »Tellme« a  představil ji dávno před Applem. Proč o ní nevíte  Jednak ji Microsoft nedokázal tak dobře „marketingově“ prodat, jednak není tak dokonalá jako Siri.
5 000 slov dokázal v  roce 1984 rozpoznat systém od IBM. Nevýhodou bylo, že každé rozpoznání trvalo déle než minutu. Současné systémy dokážou rozpoznat až 300 000 slov a  proces rozpoznání trvá sotva několik sekund. Systémy rozpoznají přes 99 % slov, s  českým jazykem jsou však velké problémy. Čeština používá velké množství slov, navíc skloňovaných. Kdo mluví anglicky, ten si běžně vystačí s 800 slovíčky, a skloňování zde fakticky neexistuje. Navíc je čeština bohatá na homonyma (slova s různým významem, ale stejně znějící), což je pro inteligentní rozpoznávací systémy problém.
3 sekundy potřebuje geniální počítač Watson od společnosti IBM pro nalezení odpovědi. Proslavil se v americké televizní show Jeopardy, kde svými znalostmi pokořil lidské protihráče. Jak vlastně funguje  Prvním krokem, se kterým se musel David Ferrucci, vývojář Watsonu, poprat, bylo rozpoznávání řeči. Zde hraje roli statistická a  sémantická analýza. Jen tak mohou elektronické přístroje porozumět mluvené řeči a zjistit, co vlastně požadujete.


Jak nám telefon rozumí
Asistentka Siri v nových iPhonech nejenže rozumí mluvené řeči, ale dokáže ji i interpretovat. Ukážeme vám, jak tato funkce funguje.

1. Digitalizace
Mikrofon snímá zvukové vlny, ty jsou vzorkovány na digitální signál. Hluk v pozadí je vymaskován tím, že telefon má druhý mikrofon, který snímá jen okolní hluk.
2. Frekvenční analýza
Frekvenční spektrum je analyzováno rychlou Fouriérovou transformací.
3. Rozpoznávání slov
Skryté markovské modely (Hidden Markov Model – zkratka HMM) slouží k analýze časových řad a používají se právě při rozpoznávání řeči. Vyslovené slovo se porovnává s databankou, dochází k vyhledání nejlepší shody. Zde se projeví výpočetní kapacita počítače nebo serveru. Současné systémy mají takový výkon, že mohou rozpoznávat mluvenou řeč v reálném čase.
4. Porozumění významu
Počítač se pokouší porozumět kontextu. Přitom se porovnávají skupiny čtyř slov. Pokud se vyskytne slovo „schůzka“, Siri předpokládá, že v dalších slovech bude pravděpodobně následovat údaj o čase a účastníkovi.
5. Nalezení odpovědi
Počítač dále hledá vztahy mezi nalezenými slovy. Siri tak ví, že „táta“ je kontakt v telefonním seznamu. Pak už vyhledá, co s tímto kontaktem chcete provést.
Upozornění: Siri nekomunikuje v českém jazyce, grafika je pouze ilustrativní.

ČASOVÁ OSA: ROZPOZNÁVÁNÍ ŘEČI

První počítač pro rozpoznávání řeči uměl jen několik slov. Dnes zvládají různé systémy kolem 300 000 slovíček, do budoucna nám budou zařízení běžně rozumět.

„Verze 1.0“
1961 // IBM Shoebox
Rozpoznal 19 slov a?9 číslic. Systém pracoval pouze s?výškou vyřčeného slova.
„Verze 2.0“
1984 // IBM

Počítač zvládá 5 000 slovíček. Jako první systém na světě rozpoznává slovíčka i?podle kontextu – tedy podle častých slovních spojení.
„Verze 3.0“
1997 // První zákaznické řešení:

Dragon Naturally Speaking 1.0 přichází na trh. Současná verze rozpozná kolem 300 000 slovíček.
„Verze 4.0“
2011 // Apple Siri:

Asistentka Siri integrovaná do iPhonu 4S rozumí otázkám a?dokáže na ně odpovídat.
„Verze 5.0“
2015 // Hlasový interface je standardem:

Smartphony od Googlu, Microsoftu a?Applu rozumí mluvené řeči.


KOMERČNÍ APLIKACE

Diktovací software

Konec psaní textu na klávesnici  To slibuje program Dragon Naturally Speaking. Jakékoliv psaní textů s tímto programem odpadá, stačí jen diktovat a software vše převádí na psaný text v reálném čase. Úspěšnost je vysoká – kolem 99 %, pokud nepoužíváte odborné výrazy, které nejsou součástí slovníku. Česká jazyková verze ale dostupná není. Program rozumí anglicky, německy, holandsky a francouzsky.

Automobily

Mercedes, Audi, Ford a Fiat již nabízí systémy pro hlasové ovládání některých palubních systémů. Podobně jako Siri jsou i tyto systémy inteligentní a můžete jim zadávat příkazy, třeba zadat cíl navigaci nebo nechat „vytočit“ jméno z telefonního seznamu. Díky omezenému množství příkazů je rozpoznávání velmi úspěšné.

Google

Na český jazyk nezapomíná společnost Google, která podporuje rozpoznávání hlasu v češtině již několik let. Původní verze sloužila jen pro vyhledávání slovních spojení, současná verze slouží třeba i k diktování SMS zpráv nebo e­mailů. Rozpoznávání řeči je na výborné úrovni, dokonce si Google bez potíží poradí i se skloňovanými slovy. Mluvíte­li zřetelně, nebudete mít žádný problém. Možnosti hlasového vstupu umí Google pořádně využít – třeba při překladu. Stačí vzít do ruky telefon s operačním systémem Android a diktovat text. Aplikace Google Translate pak v reálném čase překládá text do zvoleného jazyka. Překlad sice není dokonalý, ale pro porozumění je více než luxusní.


FAKTA O SIRI
Výmysl armády
V roce 2003 dostala DARPA (Defense Advanced Research Projects Agency) za úkol vyvinout inteligentního agenta. Dostal označení CALO (Cognitive Agent that Learns and Organizes). Náklady: cca 175 milionů USD. V roce 2008 byla vyvinuta verze pro veřejnost – Siri.  V roce 2010 agenta Siri převzal Apple.
I na jiných iOS zařízeních
Standardně je agent Siri určen jen pro nejnovější iPhone. Hackerům se jej však podařilo dostat i na iPhone 4 a na iPod Touch. Je k tomu ale třeba jailbreak.
Přenos
Rozpoznání řeči neprobíhá v telefonu, ale na serverech Applu. Průměrně se s každým dotazem posílá 37 kB dat.