U nových technologií falšování videa nebo řeči bude stále obtížnější rozpoznat, jestli jde o podvrh. Jak s tím máme do budoucna zacházet?
Představme si, že by na internetu začalo kolovat video, v němž Andrej Babiš pronáší větu: „Naším cílem je islamizace České republiky.“ Něco takového by bezpochyby vyvolalo poprask, a to nejenom u odpůrců migrace z arabských zemí. Této větě by však nikdo neměl věřit - protože nikdy nezazněla.
Věřit svým očím a uším bude v roce 2018 obtížnější než kdykoli předtím. Výzkumníci z Graphics and Imaging Lab (GRAIL) z univerzity ve Washingtonu v červnu minulého roku představili metodu využívající umělou inteligenci, která dokáže zvukový záznam řeči převést do pohybu rtů. Software dokáže politikům, od starosty až po prezidenta, vložit do úst slova, která nikdo z nich neřekl. V nadcházejícím roce by tak mohly falešné zprávy dostat novou dimenzi.
Výzkumník Googlu a expert na umělou inteligenci Ian Goodfellow na konferenci EmTech již na začátku listopadu loňského roku varoval, že pokud jde o zprávy, měli bychom být mnohem opatrnější. Možná bychom si dokonce měli zvyknout, že většině multimediálních obsahů se už nedá věřit, uvedl Goodfellow. „Nevěř žádné informaci, kterou jsi sám nefalšoval“ - tak by mohl znít cynický závěr.
Umělá mimika
Tyto zneklidňující věci bude možné provádět pomocí neuronových sítí. Tým kolem mladého informatika Supasorna Suwajanakorna analyzoval kolem 14 hodin záznamu řeči Baracka Obamy. Program se naučil do detailu, jak se při mluvení pohybují Obamovy rty, partie kolem úst a krku. Následně pak grafický software vytvoří obličej, jehož mimika přesně pasuje na zvukový projev. Tvář s umělou mimikou je pak možné vložit do jakéhokoli videa. Vědci sdělili, že nyní mohou před kamerou „přinutit“ někdejšího amerického prezidenta říct cokoli. To samé platí i pro běžné uživatele, protože americký software se může naučit pohybům rtů také z krátkých, neostrých záběrů ze Skypu, Apple Facetime nebo Google Hangouts.
Pomocí takových nástrojů bude možné vytvářet přesvědčivá falešná videa také mezi domácími uživateli, a proto se pravděpodobně bude zvyšovat dosud malé procento lidí, kteří takovým manipulacím uvěří. Thomas Gloe, šéf multimediální společnosti dence z Drážďan, to ukázal již na konci roku 2016 ve svém projektu Face2Face. Mimiku cizí osoby přenesl v reálném čase na záběry politiků, jako jsou George W. Bush, Vladimír Putin a Donald Trump.
Falšované pohyby rtů jsou samozřejmě jenom prvním krokem. Ještě schází nástroj, který by libovolné věty, vyťukané třeba do klávesnice počítače, reprodukoval jako mluvenou řeč, a to v jazykovém stylu mluvčího. Také to však již existuje - na konci roku 2016 americký softwarový koncern Adobe uvedl něco na způsob „Photoshopu pro zvuk.“
Čtení tweetů
Tento nástroj je vybaven umělou inteligencí a nese název Adobe VoCo (Voice Conversion). Je trénován na dvaceti minutách záznamu řeči osoby. Následně umí věrně napodobit libovolný hlas a vytvořit slova, která v tréninkovém materiálu vůbec nezazněla. Uživatel jednoduše naťuká do klávesnice text, program Adobe VoCo ho převede do mluvené řeči a vysloví. Zatím není úplně jasné, zda bude VoCo umět reprodukovat umělou řeč dostatečně kvalitně. Společnost Adobe však není jediná, která tuto technologii nabízí. Například kanadský start-up Lyrebird se pokouší o to podobné, a potřebuje dokonce pouze jednu minutu řečového záznamu. Vývojáři by chtěli pomocí své technologie propůjčit hlas lidem s řečovými omezeními anebo umožnit, aby digitální asistenti Alexa nebo Siri zněli lidštěji. Stejně jako audioknihy nebo podcasty bude možné například předčítat tweety hlasem odesílatele.
Pro odborníky jsou manipulace tohoto druhu stále rozpoznatelné. I při takto kvalitní syntéze vznikají artefakty, které se dají rozpoznat ve spektrogramu. Je možné to zjistit na znacích, jako jsou tvary vln anebo změny frekvencí. Rozpoznáváním podvrhů se zabývá mezi jinými společnost Nuance Communications, která však větší část svého know-how uchovává v tajemství. Pro běžné uživatele tyto metody nejsou k dispozici, alespoň ne v dohledné době. Pomocí takto vytvořených manipulací je možné snadno napálit mnoho lidí. Společnost Adobe proto chce řeč, která je vyprodukovaná pomocí nástroje VoCo, vybavit určitým druhem akustického vodoznaku.
In video veritas
Podobně to platí i pro video. Specializovaný analytický software najde chybu, která je pro pouhé oko neviditelná. Takové nástroje se dostávají na stopu manipulace rozborem kompresního vzorce nebo obrazových chyb v jednotlivých oblastech videa.
Projekt podporovaný Evropskou unií a nazvaný „InVID -In Video Veritas“ chce dát zpravodajským agenturám a vydavatelským domům k dispozici speciální software, aby tak měly možnost automaticky přezkoumávat uživatelská videa. Nástroj zkoumá, jestli denní čas nebo způsob oblečení pasují ke konkrétní události - a poskytuje tak rychlou informaci o signálech manipulace. Stejně tak odhalí nesoulad u fyzikálních zákonů, například nesprávné dráhy letu či pohyby objektů, které nejsou v realitě možné.
Běžní uživatelé však mají možnost rozlišení manipulací stále těžší, dosud nemají tato softwarová řešení k dispozici. Manipulátoři mají náskok - pokud se už podvrh na sociálních sítích rozšířil, je obtížné veřejnosti následně dokazovat, že se jedná o manipulaci. Nástroj YouTube DataViewer neziskové organizace Amnesty International umožňuje přinejmenším hrubé a rychlé zkontrolování videa a pravdivosti zpráv. Souboj mezi zdatnými počítačovými manipulátory a veřejností, která nechce být klamána, tak nabývá stále nových podob. Můžeme jen doufat, že i v budoucnu budeme schopni v multimediálních obsazích rozlišit pravdu od lži.
***
Třikrát jsem políbil Jordana
Na prezentaci v kalifornském San Diegu bylo v ten den nebývale živo a veselo. Výzkumník Zeyu Jin zde předvedl nástroj Adobe VoCo. Systém, který používá strojové učení, potřebuje záznam přibližně dvaceti minut řeči. Potom analyzuje tón a zabarvení hlasu, rozloží slova na jednotlivé hlásky a vytvoří zbrusu novou, umělou promluvu. Uživatel pak může měnit výroky podobně snadno, jako se mění slova v textovém editoru. Za potlesku a smíchu v sálu si Zeyu Jin pohrává se slůvky v angličtině a původní větu „Políbil jsem své tři psy a ženu“ proměňuje na výrok „Třikrát jsem políbil Jordana.“ Nástroj by se dal mimo jiné využít ve filmovém dabingu, kde by mohl zpočátku opravovat menší chyby. V budoucnu by pak herec možná už nemusel namlouvat větu po větě celý film, stačilo by mu nadiktovat do počítače dostatečně dlouhý záznam slov, ze kterého by poté stroj ve spolupráci s režisérem „umíchal“ vše potřebné.
Foto popis| Výzkumník Supasorn Suwajanakorn zkusil pomocí softwaru manipulovat projev Baracka Obamy. Nástroj analyzoval mimiku bývalého amerického prezidenta a vytvořil nové video.
Foto popis| Zobrazené zvukové vlny v nástroji Adobe VoCo, který bývá přezdíván „Photoshop pro zvuk“.
Foto popis| On-line nástroj neziskové organizace Amnesty International vydá zprávu o tom, jestli se konkrétnímu videu dá věřit.
O autorovi| MICHAL ČERNÝ, michalcerny.media@seznam.cz