Přejít k hlavnímu obsahu

Skrytá moc dat

Jen sedmdesát lajků na Facebooku stačí strojům na to, aby o vás věděly více než vaši vlastní přátelé. Právě analýza velkých dat pomohla Donaldu Trumpovi vyhrát boj o Bílý dům.

Plavete rádi, používáte počítače Mac, máte rádi kosmetiku a smažené bramborové spirály? Pak jste homosexuální intelektuál, který si užívá života. Jste fanouškem Kurta Cobaina, nosíte adidasky a studujete biologii? Pak jste bezpochyby heterosexuální neurotická žena s mnoha přáteli.

Myslíte, že vás jen zahrnujeme předsudky, které vycházejí z obecně tradovaných stereotypů? Velmi se mýlíte, protože výše uvedené závěry vycházejí z korelace - vysledovaného vztahu mezi vnějšími znaky, vlastnostmi a okolními podmínkami. S nárůstem možností analýzy velkých dat vzkvétá i koncept korelace zjištěných závěrů. Jelikož se celosvětový objem dat každé dva roky zdvojnásobuje a stejně rychle roste i výpočetní kapacita, mohou být prakticky jakákoli data pokládána do vzájemných souvislostí pro odhalení vztahů a korelací a s využitím strojové analýzy dat je možné vytvářet stále kvalitnější předpovědi.

Pokud například vydavatel platebních karet analyzuje miliardy nebo biliony datových sad z nákupu svých zákazníků po celém světě, může na základě získaných výsledků činit naprosto úžasné predikce budoucích událostí - a to prakticky v reálném čase. Ze stylu nakupování lze například s vysokou pravděpodobností odhadnout, že si manželský pár zrovna prochází krizí, muž nakupující určité věci se necítí komfortně ve svém mužském těle nebo že konkrétní žena během následujících tří měsíců těžce onemocní.

Digitální stopy jsou na prodej

Historie plateb kartami byla vždy extrémně zajímavá a odhalovala obrovské množství informací. Díky stále rychlejším počítačům a lepším algoritmům je dnes pro sběrače dat stále atraktivnější. Navíc díky smartphonům, tabletům, senzorům a kamerám jsou digitální stopy lidí doslova všudypřítomné. Jejich skutečná hodnota pak spočívá v jejich vzájemné korelaci. Při správné kombinaci datových zdrojů lze v lidech číst jako v otevřených knihách. A co víc, datoví analytici mohou v těchto knihách nejen číst, ale také rovnou psát některé kapitoly, když lidem chytře podstrčí jiné názory a potřeby.

Mnoho lidí věří, že právě to je způsob, jakým se Donaldovi Trumpovi podařilo vyhrát americké prezidentské volby. Michal Kosinski kombinuje analýzu velkých dat s psychometrikou, vědním oborem, který se zabývá měřením psychických jevů. Vědec, který v současnosti přednáší na Stanfordově univerzitě, byl dříve zástupcem ředitele psychometrického centra v Cambridge. Od roku 2007 studuje korelace mezi digitálními stopami a osobnostními profily. Tehdy mezi svými 150 facebookovými přáteli sdílel psychologické dotazníky (dostupné na webu discovermyprofile.com), které byly následně na doporučení vyplněny tisíci dalších lidí. Zájemci o vyplnění dotazníků se prostě bavili vyplňováním dotazníků, podobných těm v ženských magazínech. Není náhodou, že dvě třetiny účastníků byly právě ženy.

O čtyři roky později dosáhl počet vyplněných dotazníků šesti milionů a dnes je to již kolem osmi milionů. Testy jsou založeny na pětifaktorovém modelu osobnosti (tzv. Big five nebo Ocean model). Tento model byl mezinárodně standardizován pro výzkum osobnosti již před třiceti lety. Předpokládá, že každá osobnost může být popsána pěti rozměry, zastoupenými v různé míře: otevřenost, svědomitost, extraverze, přívětivost a neuroticismus.

Ukaž mi, co se ti líbí, a já ti řeknu, kdo jsi

Během krátké doby získal psycholog a filozof Kosinski stovky tisíc psychogramů. Pak vzal vzorek 58 000 testovaných osob z USA a hledal korelace mezi výsledky modelu Big five lidí, kteří vyplnili dotazníky, a jejich facebookovými profily. Kromě pěti faktorů osobnosti byly zahrnuty rovněž další informace o zástupcích testovaného vzorku, jako je například věk, pohlaví, sexuální orientace, politické preference, konzumace drog nebo inteligence.

Obzvláště užitečné však byly především lajky z Facebooku, ke kterým měla Kosinského výzkumná skupina se svolením účastníků průzkumu přístup. Jejich korelace s výsledky pětifaktorového modelu osobnosti se ukázala jako velmi silná. Jakmile se podíváme, co účastník průzkumu lajkoval na Facebooku, můžeme učinit jednoznačné závěry o jeho charakteristických rysech a dalších požadovaných vlastnostech - a platí to i naopak. Z klikání na tlačítko »To se mi líbí« lze odvodit specifické vlastnosti dané osoby, což je velmi přínosné pro cílené reklamní kampaně. Pouhých deset lajků stačilo pro mnohem přesnější zhodnocení dané osoby, než jakého byli schopni Kosinského kolegové pomocí tradičních metod. Ani blízcí přátelé nemohou držet krok s analýzou provedenou na základě 70 lajků, a jen 150 lajků vede dokonce k lepšímu poznání zkoumané osoby, než jak ji znají rodinní příslušníci. Když výzkumníci analyzovali 300 lajků z Facebooku, věděli o svém testovaném subjektu více než jeho životní partner.

Analýza chování na Facebooku má samozřejmě největší efekt jen v případě, že se podaří zkombinovat co největší množství informací. I tak se ale zpravidla objevují jednotlivé lajky, jejichž korelace nemusí být nutně kauzálně vysvětlitelná - jde o typický fenomén analýzy velkých dat.

To nás vrací na začátek, kdy jsme konstatovali, že pokud má někdo rád plavání, je často velmi spokojen se svým životem. A že ten, kdo rád jí smažené bramborové spirály, bude pravděpodobně patřit k inteligentním lidem. To ale samozřejmě neznamená, že se někomu zvýší inteligence jen díky tomu, že bude soustavně na Facebooku lajkovat fotografie nebo profily výrobců této bramborové pochoutky. A už vůbec ne, když ji začne také jíst.

Nicméně pokud fotografie a další příspěvky kolem plavání na Facebooku nejen lajkujete, ale zároveň chodíte pravidelně plavat, je možné, že opravdu vedete spokojený život. Michal Kosinski je jedním z vědců, kteří soustavně upozorňují na nebezpečí, které hrozí v případě, že se takovýto zlatý důl plný dat dostane do špatných rukou. V tomto ohledu se jeho teorie o aspektu analýzy velkých dat při zvolení Donalda Trumpa jeví celkem uvěřitelně: Kosinski je totiž přesvědčený, že jedna britská firma z oblasti datové analytiky ukradla jeho model pro analýzu osobnosti na základě facebookových profilů a aplikovala jej při ovlivnění amerických voličů. Tato firma se jmenuje Cambridge Analytica (CA), přičemž její název odráží skutečnost, že tato společnost, založená v roce 2013, získávala zaměstnance právě z univerzity v Cambridge.

Spouštěč politického zemětřesení

Se vznesenými obviněními konfrontoval Chip Alexandera Taylera, vrchního správce dat ve společnosti CA. Podle něj ve firmě slyšeli o „vědci Kosinském“ až v prosinci 2016, kdy firmu veřejně obvinil ve švýcarském titulu Das Magazin. Tayler
později dodal: „Jsme v kontaktu s některými lidmi z jeho fakulty, ale nikoli přímo s ním.“ Prohlášení, že v CA Kosinského neznají, přestože byl zástupcem ředitele malého institutu, který tato firma využívala pro získávání zaměstnanců a pravděpodobně i obsahu, ale nezní zrovna přesvědčivě. V každém případě je veřejný obraz firmy CA velmi vágní a různé zvěsti společnost nijak nekomentuje - to vše živí spekulace o její činnosti. Například stále není úplně jasné, jak silný vliv na výsledek hlasování měla kampaň CA kolem referenda o vystoupení Velké Británie z Evropské unie. Spíše se zdá, že firma CA opravdu může stát za politickými zemětřeseními, jako byl Brexit a zvolení Donalda Trumpa.

Ale také Taylerova vyjádření je třeba brát s rezervou, protože CA nepoužila informace z Facebooku, jelikož „jde o majetek Facebooku“. To je jistě pravda, ale otázkou zůstává, zda společnost CA nepoužila data uživatelů (a jejich nic netušících facebookových přátel), když tito zpřístupnili svůj soukromý profil při vyplňování dotazníků. Britských deník The Guardian v roce 2015 konfrontoval firmu CA s podobnými výsledky svého průzkumu, ale nedostalo se mu žádné odpovědi. CA údajně spoléhá na mix různých zdrojů: „Data, se kterými pracujeme, se liší podle konkrétní země. V Německu mohou být osobní data ukládána pouze na základě předchozího souhlasu a výhradně pro specifické účely. Ve Spojených státech je situace poněkud jiná. Zde si můžeme licencovat data od hlavních agregátorů, jako je například Acxiom, Experian a Aristotle.“

Tyto společnosti sbírají osobní data všech typů, pocházející například z různých bonusových programů, od společností vydávajících kreditní karty nebo například z prodeje časopisů. Například společnost Acxiom v roce 2013 uváděla, že disponuje databází detailních informací o 800 milionech lidí. V Německu pak Acxiom drží poštovní adresy přibližně 90 procent všech domácností. Ukládání těchto dat je přitom možné pouze v případě, že k němu daná osoba nemá výhrady. Právě z toho důvodů Acxiom podle svého vyjádření v Německu nevytváří samostatné databáze.

Německé a obecně evropské zákony a regulace ohledně soukromých dat mohou být účinnou ochranou před firmami jako CA nebo Aristotle, které mají v portfoliu svých služeb i politické kampaně. Pokud ale sami v různých on-line objednávkách, průzkumech nebo třeba soutěžích souhlasíte s „využitím vašich dat pro marketingové účely“, můžete si být naprosto jisti, že se stanete cílem manipulace v rámci produktové reklamy, nebo dokonce politické propagandy.

Použití psychologických triků pro vítězství ve volbách

Nemůže být pochyb o tom, že firma CA podpořila volební kampaň Donalda Trumpa použitím psychometrických metod a digitálních nástrojů. Tato společnost použila pětifaktorový model osobnosti a „vytvořila psychologický profil každého dospělého spotřebitele v USA“, jak nám řekl Tayler. A co to tedy přesně znamená? „Máme k dispozici psychologické profily stovek tisíc různých lidí, které zkombinujeme se základní databází.“ Tato základní databáze pokrývá všech 220 milionů dospělých Američanů a byla vytvořena společnostmi zaměřenými na sběr a vytěžení dat, jako jsou výše zmíněné agregátory, a licencována firmě CA. Tímto způsobem firma získala demografické informace i informace o životním stylu a spotřebitelském chování. Tyto informace se přidají k datům získaným vlastním výzkumem firmy. Pomocí strojového učení pak CA extrapoluje psychologické profily pro každého jednotlivého obyvatele USA.

Trumpova kampaň realizovaná firmou CA byla neuvěřitelně efektivní. Firma CA se nicméně soustředila pouze na sedmnáct států, ve kterých nebyl výsledek voleb jasně předvídatelný. A díky tomu, že společnost CA neznala jen politické směřování a některé další preference amerických občanů, ale také jejich psychologickou povahu, mohla velmi přesně odhadnout, které lidi je třeba oslovit - a také s jakým sdělením. Pomocí mobilní aplikace pak byli pracovníci Trumpova volebního týmu provázeni ulicemi dům od domu, přesně k lidem, které bylo možné přesvědčit, aby hlasovali pro jejich kandidáta. Do svého smartphonu předem obdrželi informace o charakteru člověka, se kterým se mají setkat, a o jakém tématu se s ním mají bavit. Po osobním setkání mohli tito pěšáci prezidentské kampaně prostřednictvím mobilní aplikace odesílat zpětnou vazbu a tím přispívat k další optimalizaci celého systému.

Americký prezident jako loutka velkých dat

Při distribuci svých sdělení spoléhal Trumpův tým především na Facebook. Uživatelé této sociální sítě byli adresáty zpráv, připravených přesně na míru jejich profilům. Toto detailní zacílení a rozesílání zpráv s často velmi pochybným obsahem se přitom vůbec nesoustředilo na politické názory daného kandidáta, ale jen na to, co chce jeho potenciální volič slyšet. Proto neexistovalo jen jedno Trumpovo sdělení voličům, ale nekonečně množství zpráv, směrovaných přesně podle preferencí jejich příjemců. Donald Trump sdělil každému přesně to, co chtěl dotyčný slyšet - jako loutka na šňůrách datové analytiky. Alexander Tayler z firmy CA ale nevidí zásadní rozdíl mezi politickou kampaní a produktovou reklamou: „Jde nám především o zvýšení efektivity, na kterou se soustředíme. Správná reklama musí být zacílena na konkrétní osobu, které přinese takovou zprávu, že se daná osoba rozhodne pro náš produkt.“

Pozornost reklamních strategií automaticky přitahuje úplně každý, kdo se pohybuje na internetu. Může to být iritující, ale je třeba se s tím smířit, především pokud jsme si zvykli používat bezplatně dostupné internetové služby. Většina lidí na oslabení ochrany svého soukromí výměnou za bezplatné služby přistoupí, protože za diktátem konzumu nevidí hrozbu orwellovského sledování na každém kroku. Ostatně, pokud se analýzy našich digitálních stop nechopí skutečně temná síla, která získaná data zneužije k politickým manipulacím, stigmatizaci a dalším formám diskriminace, může se zdát, že nejde o nic vážného a můžeme si užívat všech výhod digitálního, úzce provázeného světa. Zatím poslední americké prezidentské volby ale jasně ukazují, že riziko zneužití a manipulací je opravdu obrovské.

I kdybychom nijak nepřeceňovali význam firmy CA při zvolení Donalda Trumpa prezidentem Spojených států, musíme přinejmenším zpozornět, když zjistíme, že má nová americká vláda k dispozici přinejmenším nepřímý přístup k databázi psychogramů všech amerických občanů. Tato data navíc obsahují i velmi citlivé informace, jako je sexuální orientace nebo politické a náboženské preference.

Ultrapravičák v pozadí

Zde vchází do hry Steve Bannon, čelní představitel ultrapravice ve Spojených státech, často spojovaný s antisemitskými a rasistickými postoji. Bannon vedl Tumpovu prezidentskou kampaň a nyní je hlavním poradcem amerického prezidenta a do nedávna byl i členem Národní bezpečnostní rady. A nejen to: získal rovněž důležitou kontrolní funkci v představenstvu firmy CA. Společnost CA to sice zatím nepotvrdila, ale ani tuto zprávu nevyvrátila.

Právě Bannonovi jsou přitom připisovány nápady, jako je databáze všech muslimů nebo komunikační strategie prezidenta, založená na analýze velkých dat. A kdo by tyto nápady mohl uvést v život lépe než „jeho“ firma CA? Nejde jen o řečnickou otázku, protože i společnost Palantir, spolufinancovaná z fondů CIA, se zabývá datovou analytikou s politickými účely. Je aktivní především v oblasti zpravodajských služeb: uvádí se například, že její prediktivní analytika pomohla USA s odhalením úkrytu Usámy bin Ládina. Největším akcionářem společnosti Palantir je Peter Thiel, původem německý investor, který hraje velkou roli v Trumpově týmu. Díky příspěvku v řádu milionů dolarů se významně podílel i na financování volební kampaně a má na nového amerického prezidenta velký vliv.

Ale Thiel není považován za Bannonova oponenta jen kvůli obchodním zájmům společnosti Palantir. Tento miliardář byl totiž současně i prvním investorem Facebooku a je členem představenstva této sociální sítě. Jestli Marka Zuckerberga může těšit blízkost Thiela k Trumpovi, je jedna věc. Ale zakladatel Facebooku asi nebude jen tiše přihlížet, až bude firma CA vykonávat sporné příkazy vlády s využitím dat získaných pochybným způsobem z Facebooku. A jistě se mu také nebude líbit, když bude Facebook opět zahlcen falešnými zprávami, pod taktovkou Steva Bannona v jeho dvojí roli jako člena představenstva firmy CA a našeptávače Donalda Trumpa. Ale bez ohledu na to, kdo vyhraje, je jisté, že se nový americký prezident nachází pod vlivem zástupců dvou společností, které mají v úmyslu používat vysoce citlivé osobní údaje k politickým cílům.

Big data kampaně v Evropě

Důležité volby se samozřejmě chystají také v Evropě. Alexander Tayler například uvádí, že kampaň zaměřenou na detailní cílení na konkrétní voliče lze realizovat třeba i v sousedním Německu: „Musely by však být použity odlišné nástroje než ve Spojených státech. Celá kampaň by pak pravděpodobně byla o něco méně personalizovaná.“ Ochrana osobních dat je v rámci Evropské unie stále mnohem silnější, než je tomu v Americe, přesto zde firmy jako CA jistě rády nabídnou své služby politickým stranám nebo třeba prezidentským kandidátům. Další americký prezident ale data a analytické služby specializovaných firem možná vůbec nebude potřebovat. Facebook má totiž v současné době na svých serverech osobní data více než miliardy lidí z celého světa, která navíc podle podmínek použití této sociální sítě nepatří uživatelům, ale přímo Facebooku. Pokud by tedy Mark Zuckerberg chtěl, bude mít v prezidentských volbách v roce 2020 opravdu velkou šanci na úspěch.

Foto popis| Model Big five Podle pětifaktorového modelu osobnostní psychologie, známého také jako model Big five, lze osobnost každého jedince popsat pomocí pěti různých faktorů. Celkový charakter je pak určen silnou, nebo naopak slabou přítomností jednotlivých faktorů.
Foto popis| Michal Kosinski vytvořil metodu, se kterou můžeme velmi přesně identifikovat osobnostní profil člověka pomocí analýzy jeho lajků na Facebooku.
Foto popis| Otestujte se Osobnostní test s dle metody Big five si můžete vyzkoušet na webu discovermyprofile.com - i s využitím svého facebookového profilu.
Foto popis| Loutkař Steve Bannon, vrchní stratég Trumpovy kampaně, je označován za vůdce americké krajní pravice a je zainteresován i ve firmě Cambridge Analytica.
Foto popis| Big five se protíná s Big daty Firma Cambridge Analytica, specializující se na analýzu velkých dat, využívá obrovská množství dat a psychologické algoritmy pro posuzování osobnosti amerických voličů -a díky tomu dostala Donalda Trumpa do Bílého domu.
Foto popis| Cambridge Analytica propaguje svoje služby jako „mocný a jedinečný nástroj“, který odhaluje „motivy chování“.
Foto popis| „Namodelovali jsme psychiku všech spotřebitelů v Americe.“ Alexander Tayler vrchní správce dat ve společnosti Cambridge Analytica

O autorovi| BENJAMIN HARTLMAIER, ROMAN LEIPOLD, RADEK KUBEŠ, autor@chip.cz

Příbuzná témata: