Porozuměním řeči, odezíráním slov ze rtů nebo manipulací s lidským hlasem - tím vším se dnes zabývá bouřlivě se rozvíjející obor umělé inteligence. Čím více se umělá inteligence přibližuje té lidské, tím užitečnějšími - současně ale i nebezpečnějšími - se stroje stávají.
Na první pohled působí analýza výzkumníka Emilia Ferrary uklidňujícím dojmem. Tento vědec, který působí na Univerzitě Jižní Kalifornie, rozpoznal na službě Twitter kolem 400 tisíc inteligentních generátorů automatického textu - takzvaných sociálních botů. Síť Twitter měla na konci roku 2016 celkem 317 milionů aktivních uživatelů, takže 400 tisíc se nejeví jako příliš vysoké číslo. Když si však uvědomíme, že tito sociální boti vytvářejí kolem dvaceti procent všech tweetů týkajících se amerických voleb, vypadá věc už zcela jinak. Dosud také nikdo neví, kdo tyto boty programoval - pravděpodobně však převažují republikáni, protože 75 procent všech tweetů podporovalo Donalda Trumpa.
Do jaké míry mohou boti ovlivňovat veřejné mínění? Podle aktuálních čísel organizace Pew Research Center se 62 procent dospělých Američanů informuje o světovém dění především ze sociálních sítí. Sociální boti se dokonce začínají adaptovat na lidské chování, simulují i průběh dne člověka s přestávkami na jídlo a spánek. Díky své umělé inteligenci mohou vést smysluplnější dialog a získávají tak na vlivu a uvěřitelnosti.
Počítač jako psychoanalytik
Zatím jsou však textoví boti odkázáni na předem připravené textové stavební kameny, které propojují podle určitých pravidel. Umění spočívá v tom, jak z těchto základních kamenů vytvořit zcela nové poselství. Příkladem může být Markovbot od psychologa Oxfordské univerzity Edwina Dalmaijera. Software analyzuje v předem zadaném textu, s jakou pravděpodobností následuje jedno slovo za druhým a jak na něm závisí. Pokud se tedy Markovbot nakrmí díly Sigmunda Freuda, jím vytvořené tweety působí jako hlubokomyslné výroky rakouského psychoanalytika.
Současně ale použití takového textového robota naráží na své hranice. To, co v angličtině zní dobře, může v češtině vést k podivuhodným větám ve stylu „Tedy dvě odpovědi ve smyslu a v důsledku toho lépe poznat jako každý jednotlivý sám o sobě.“
Cesta k umělé inteligenci, která by vytvářela zcela nová poselství, je ještě dlouhá. Tyto nástroje mají schopnost analyzovat obrovské datové objemy, smysl a význam slov však zatím nerozpoznají. Software, který by stisknutím tlačítka vyrobil propagandu na míru, zatím není na dohled.
Vítězství ve hře Go
Filozof Hubert Dreyfus z Kalifornské univerzity v roce 1972 popsal ve své knize Hranice umělé inteligence - co počítače neumějí hlavní problém takto: člověk je vybaven schopností instinktivní inteligence, která se tak docela nedá vtěsnat do příkazů a pravidel.
Výzkumníci přesto začali pracovat na technologiích, které měly stroje vybavit právě takovým druhem intelektu. Inspirovali se neurovědami a začali dělat experimenty s umělými neuronovými sítěmi. V devadesátých letech se stalo běžným automatické čtení bankovních šeků a schopnost číst psané písmo se tak ukázala jako použitelná v praxi. Umělé neuronové sítě se pak staly daleko komplexnějšími a výkonnějšími a nyní dokážou i to, co vědci až dosud považovali za nemožné - například porazit lidské protivníky v deskové hře Go. Právě to se podařilo dceřiné společnosti Googlu Deep Mind na začátku roku 2016.
Takovéto sítě, vybavené technikou hlubinného učení (deep learning), se také s úspěchem zaměřují na rozpoznávání obrazů. Různé vrstvy sítě reagují na vlastnosti obrazu, jako jsou okraje, textury nebo barvy. Tyto systémy tak rozpoznají objekty, zvířata nebo obličeje s přesností, která konkuruje lidem.
LipNet překonává i neslyšící
Nástroje vybavené umělou inteligencí mohou znamenat konkurenci pro své lidské protivníky i v dalších oborech zpracování jazyka či obrazů. Nedávno například proběhla médii zpráva o novém systému s názvem LipNet, který se zaměřuje na strojové odezírání řeči ze rtů. Počítačový nástroj byl vyvinut Oxfordskou univerzitou ve spolupráci se společností Google.
Podle autorů je umělá inteligence systému LipNet, který používá techniky deep learning, v odezírání řeči z úst dokonce úspěšnější než lidé. V testu soutěžil LipNet se třemi neslyšícími. Byla využita omezená gramatická sada, která sestává z databáze 33 tisíc vět. Trojice pokusných osob dosáhla průměrné úspěšnosti rozpoznání 52 procent, kdežto LipNet se dostal až na 88 procent. „To může znamenat přelom v oboru odezírání ze rtů,“ uvádějí autoři systému Yannis Assael a Brendan Shillingford z Oxfordské univerzity. „Musíme však dodat, že zatím jsme použili pouze omezenou gramatickou datovou sadu. Naším současným cílem je založit LipNet na větších gramatických korpusech a trénovat ho na datech z reálného světa.“
Podle počítačového specialisty Ladislava Kratochvíla z Unie neslyšících v Praze zatím problém spočívá v tom, že umělá inteligence LipNet byla trénována na videozáběrech snímaných zepředu a s plným osvětlením, kdežto v reálném životě se běžně odezírá z různých vzdáleností a úhlů. „Nicméně je to první vlaštovka a přibližně za pět let by mohl být LipNet zcela použitelný v praxi,“ domnívá se Ladislav Kratochvíl. Systém by pak našel využití především v pomoci neslyšícím, tichém diktování na veřejných místech (např. asistentka Siri v mobilním telefonu by nepotřebovala slyšet hlas uživatele a jen by odezírala ze rtů), rozpoznání řeči v hlučném prostředí či biometrické identifikaci.
Spory o etiku
Pokud by byl další vývoj systému pro odezírání řeči ze rtů úspěšný, vyvolává obavy z možného zneužití tajnými službami a z přílišného zasahování do soukromí občanů - jeho pomocí by se dal například odezírat hovor osob v záznamech z veřejných míst. V nedávné době také vyvolal značný rozruch nástroj s názvem VoCo (voice conversion), jehož autorem je společnost Adobe. Umožňuje upravovat slova na nahrávce podobně snadno jako v textovém editoru. Software potřebuje přibližně deset minut nahraných vzorků mluvčího, které pomocí umělé inteligence analyzuje. Uživatel pak může podobně jako v textovém editoru měnit vyřčená slova.
VoCo také vyvolává některé etické otázky -mohly by například potom být použity odposlechy hovorů jako důkaz? Nebo bude možné například takto oživovat hlas již zesnulých lidí?
Obor umělé inteligence dnes prochází bouřlivým rozvojem, i když v mnoha případech naráží na své hranice, ať už technologické, nebo etické. Otázkou je, zda stroje jednou dosáhnou dokonalosti lidského intelektu. Podle psychologa Noaha Goodmana ze Stanfordovy univerzity je to v budoucnosti principiálně možné. „Snažím se najít cestu, jak ve stroji simulovat myšlenky,“ uvádí. Jednoho dne bychom se tak poprvé mohli strojů zeptat, co si skutečně myslí.
***
Aplikace HealthTap používá umělou inteligenci ke stanovení diagnózy.
Foto popis| Vědci z univerzity v Šanghaji vycvičili neuronovou síť pro rozpoznávání tváří. Umělá inteligence dokáže rozpoznat lidi se zločinným chováním s přesností 89,5 procenta. Zohledňuje přitom tři definované rysy v obličeji, které jsou pro lidi s kriminálními sklony charakteristické.
Foto popis| Systém LipNet, jehož autorem je Oxfordská univerzita ve spolupráci s Googlem, se zaměřuje na strojové odezírání řeči ze rtů. Modré skvrny ukazují oblasti v tváři typické pro určité hlásky.
Foto popis| Společnost Google vyvinula nové řešení pro zvětšování obrázků s názvem RAISR (Rapid and Accurate Image Super-Resolution). Pomocí techniky hlubinného učení si RAISR vybuduje vědomostní základnu, kterou může použít na libovolný obraz s nízkým rozlišením. Výsledek je rychlejší a přesnější než současné metody převzorkování.
O autorovi| MICHAL ČERNÝ, michalcerny.media@seznam.cz