Přejít k hlavnímu obsahu

Řízení pocitem

Jsou počítače jen kovové bedny bez citů? Ale kdepak! Právě teď se učí, jak u lidí rozpoznat zlomené srdce, radost nebo hněv.

Pokud jsme šťastní, je to na nás vidět. Když jsme naštvaní, každý si toho všimne. Také smutek se odráží na našich tvářích. Tyto pocity se většinou nevyjadřují slovy, ale výrazem tváře, což prozrazuje více, než si většina lidí připouští. Platí to i tehdy, když skutečně nechceme odhalit, jak to s námi doopravdy je - pokud jsme v cizím prostředí, během pohovoru nebo výslechu. Prozradí nás totiž řeč těla, výraz tváře. 90 procent komunikace probíhá neverbálně -pro laika ohromující základní pravidlo vědců zabývajících se komunikací. Mnohé z těchto signálů ani nemůžeme ovládat, jsou bezděčné a nezávislé na našem původu nebo kulturním charakteru. To platí zejména pro mikrovýrazy - výrazy tváře, které projdou přes obličej jen na zlomek vteřiny a jsou mimo vědomou kontrolu. Jsou navíc velmi obtížně napodobitelné, a proto jsou považovány za poměrně spolehlivý systém emočních signálů. Pro nezkušené lidské oko jsou obvykle těžko viditelné, ale kamera je snadno zachytí. Zde přicházejí ke slovu algoritmy pro takzvaný affective computing, analyzující tváře podle emočních výrazů, které jsou obvykle rozděleny do šesti nebo sedmi kategorií. Podle Facial Action Coding Systemu (FACS), vyvinutého v 70. letech Paulem Ekmanem a Wallacem Friesenem, k nim patří hněv a úzkost, rozhořčení a znechucení, smutek, překvapení a štěstí. Vyspělejší systémy používají ještě více než dvacet dalších metrik. Podle Ekmana nejsou mimika a emoce v obličeji závislé na kulturních faktorech, jak dokládá jeho výzkum obyvatel Papuy-Nové Guiney, daleko od médií a kulturních vlivů jiných zemí. Naopak jsou vyjadřovány stejně po celém světě, jsou univerzální a vrozené.

Identifikace podezřelých teroristů pomocí AI?

O praktické nasazení se snaží vědci a technici po celém světě už několik let. V roce 2015 získal Microsoft se svým projektem Oxford několik ocenění. Zájemci mohli nahrávat obrázky a nechat je prověřit na existující emocionální výrazy. Mezitím programy postoupily tak daleko, že jsou nyní připraveny vyhodnocovat záběry v reálném čase, což otevírá širokou škálu možného využití. Americký vládní úřad pro bezpečnost v dopravě (TSA) testuje od začátku roku v pilotním programu biometrické technologie pro rozpoznávání tváří a zkouší porovnávání totožnosti cestujících s jejich cestovními doklady. Není obtížné si představit, že by AI mohla být použita také k tomu, aby identifikovala mezi cestujícími například potenciální teroristy. Firmy už dnes využívají rozpoznávání emocí, aby zlepšily své obchodní výsledky. Apple představil novou funkci pro iPhone X s názvem Animoji, díky které mohou uživatelé získat počítačově generované emotikony napodobující jejich mimiku. Filmová společnost Disney využívá rozpoznávání obličeje k posouzení emočních reakcí publika.

Emocionální prognóza u trikových filmů

Je však zapotřebí tvrdé práce před konečným vstupem do tohoto poněkud temného světa pozorování. Stejně jako u každého problému se strojovým učením jsou výsledky jen tak dobré, jak dobrá jsou stávající data - pokud stroj nenakrmíte spolehlivými daty, nedostanete ani pořádné výsledky. Affective computing ale musí řešit problémy, které sahají hlouběji než k nedostatku kategorizovaných tréninkových údajů. Pro zmíněný projekt společnosti Disney shromažďovali výzkumníci údaje z obličejů při prohlížení celých sérií (jak jinak než) Disney filmů. Na základě těchto údajů pak byli vědci schopni v reálném čase předpovídat výraz, který by se na dané tváři v daném okamžiku měl objevit. Téměř emoční předpověď - viz rámeček vpravo.

Kromě výrazu obličeje a držení těla je to hlas, který nám o naší emoční rovnováze hodně prozradí. Důvod, proč vědci po celém světě i v této oblasti pracují na možnostech automatického rozpoznávání emocí. Již v roce 2016 Matthew Fernandez a Akash Krishnan, dva studenti z MIT a Stanfordovy univerzity, vyvinuli algoritmus, který dokáže identifikovat desítky emocí v lidské řeči. Takzvaný Simple-EmotionAlgorithmus (jednoduchý emoční algoritmus) sleduje akustické rysy v řeči - například hlasové frekvence, hlasitost a změny zvuku - a porovnává je s knihovnou zvuků a tónů. Identifikuje emoce tím, že najde nejbližší shodu v katalogu.

Tóny dělají hudbu

Tyto nástroje analýzy řeči mohou být zajímavé pro společnosti, které chtějí zlepšit své služby zákazníkům. Jak známo, volajícím z horké linky je daleko příjemnější, když po úspěšném prolomení čekací smyčky mohou promluvit s nezaujatým zaměstnancem call centra spíše než s robotem. Ten se není schopen vcítit do situace volajícího, jehož frustrace a zloba se touto zkušeností většinou ještě prohloubí. Algoritmus zde zasahuje tím, že poskytuje v reálném čase zpětnou vazbu o emocionálním stavu volajícího. To by mohlo v konečném důsledku dát volajícím dojem, že jsou bráni vážně a že je pracovník chápe. Pro zaměstnance call centra by to zároveň znamenalo menší stres. Nástroj může být také použit pro účely zajištění kvality a ke školením.

Trochu obtížnější je situace s texty. Jak je možné z napsaných slov a vět odvozovat přesné pocity, když v tom často selhávají i lidští čtenáři (jen pomyslete na obtíže, které mnozí mají s rozpoznáním a pochopením koncepce ironie)? Bjarke Felbo, dánský stipendista na MIT, navrhl v roce 2017 mimořádně originální způsob, jak by umělá inteligence mohla číst „mezi řádky“. Jeho nejdůležitějšími pomůckami jsou přitom emodži (anglicky emoji). Malé žluté šklebící se a smějící tvářičky jsou neodmyslitelnou součástí nespočetných příspěvků a komentářů, které jsou každý den zveřejňovány na sociálních sítích. Felbo chtěl vlastně původně vyvinout systém, který by na Twitteru lépe rozpoznal rasistické příspěvky. Rychle si ale uvědomil, že mnoho příspěvků bez porozumění jejich ironii nebo sarkasmu nemůže být správně interpretováno. Vzhledem k tomu, uživatelé Twitteru nemají jak jinak komunikovat pomocí výrazů obličeje, řeči těla a tónu hlasu, potřebují nějakou jinou pomůcku, aby dali svým příspěvkům ten správný šmrnc: používají proto emodži, vysvětluje Iyad Rahwan, Felbův studijní vedoucí na MIT. „Neuronová síť se naučila spojení mezi určitým způsobem vyjádření a emodži.“

Emodži: Pozor, sarkasmus!

Pomocí algoritmu nazvaného DeepMoji analyzovali výzkumníci 1,2 milionu tweetů obsahujících celkem 64 různých emodži. Nejprve trénovali systém, aby předpovídal, které emodži budou použity v určité zprávě, v závislosti na tom, zda byla veselá, smutná, humorná nebo jakkoliv jiná. Poté byl systém učen k identifikaci sarkasmu na základě existující sady odpovídajících příkladů. Výzkumníci dokonce věnovali umělé inteligenci vlastní webové stránky (deepmoji. mit.edu), aby demonstrovali část systému pracujícího s emodži. Program automaticky přidá jeden nebo více odpovídajících smajlíků do anglického textu a zdá se, že funguje celkem dobře. Těžké to je jen s tweety od Donalda Trumpa, což ale zjevně mate DeepMoji stejně jako i všechny ostatní čtenáře z masa a kostí.

Účel a smysl rozpoznání vzoru

Po zklidnění fascinace z technicky proveditelných řešení zůstává přirozeně otázka, v čem vlastně spočívá hlubší smysl rozpoznání pocitů. Vždyť stroje vybavené takovou umělou inteligencí přece nevyvíjejí žádné pocity, ani jim nerozumí. Ony pouze tvrdohlavě a neúprosně analyzují nekonečné řady čísel. Nejrozmanitější formy vyjadřování jsou pro algoritmy rozděleny na obrázky a grafy, které jsou zkoumány technikami rozpoznání obrazu na vzory a abnormality. To může dát lidským uživatelům iluzi, že mají co dělat s chápavým protějškem. Takové programy nepochybně brzy projdou každým Turingovým testem. Tento úspěch je však v neposlední řadě způsoben tím, že i lidské vnímání je založeno na rozpoznávání vzorů a chce objevit něco známého i v něčem cizím. Na tomto základě pracuje každý Rorschachův test. Zůstává tedy obava, že tohle všechno je jen základem pro ještě větší kontrolu nebo ještě obratnější manipulaci. Nebo naděje, že smysluplné využití se ještě najde.

***

Jak Disney předem ví, kdy se diváci budou smát

Pro zkoumání výrazů obličeje lidí, kteří sledují filmy, byl vyvinut algoritmus nazvaný factorized variational autoencoders (FVAE). Už po deseti minutách analýzy tváře určitého diváka je možné předpovídat budoucí výrazy jeho tváře v dalším průběhu představení. FVAE rozděluje obrazy obličeje filmových diváků podle určitých vlastností do číselných řad: jedno číslo pro úsměv jedné tváře, jiné pro šířku očí a tak dále. Tým společnosti Disney použil FVAE na více než 3 000 divácích při několika filmech a zaznamenával 68 měřicích bodů na obličeji, nakonec tak vzniklo 16 milionů snímků obličeje. S dostatečným množstvím informací může systém přesně předpovědět reakce člověka po několika minutách pozorování. Mimochodem, tato technologie není omezena pouze na tváře. FVAE by například mohl také analyzovat, jak stromy v závislosti na jejich druhu a velikosti reagují na vítr.

***

Pocit - AI už dlouho přichází do každodenního života

Pro svůj nejnovější model mobilního telefonu iPhone představil Apple Animojis. V aplikaci Zprávy mohou uživatelé vytvářet a sdílet animované postavičky, které mluví jejich hlasem a mají s nimi shodnou mimiku. Fotoaparát iPhonu X analyzuje výrazy jejich obličeje a zrcadlí je v tuctu různých postaviček Animojis v aplikaci Novinky.

Foto popis| Šest pocitů Americký psycholog Paul Ekman představil rozdíl mezi šesti základními emocemi. Nejsou naučené, ale jsou vrozené.
Foto popis| úzkost
Foto popis| zlost
Foto popis| smutek
Foto popis| radost
Foto popis| znechucení
Foto popis| překvapení
Foto popis| Při analýze algoritmus zachycuje v každé tváři pevně dané body a zkoumá jejich změny.
Foto popis| „Nikdo nás neškolil mluvit vlastní tváří. Naproti tomu slova nás učili.“ Profesor Paul Ekman americký antropolog a psycholog
Foto popis| Namísto na hlas nebo výraz tváře sází náramek Moxo na elektrický odpor snímaný z kůže. Jeho změny poskytují, stejně jako v případě detektoru lži, informace o převažujících emocích. Měřicí zařízení by mělo být používáno především při průzkumech trhu.

O autorovi| RICHARD MEUSERS VON WISSMANN, autor@chip.cz

Příbuzná témata: