Přejít k hlavnímu obsahu

Jak s námi web manipuluje

Jak s námi web manipuluje

Google, Facebook a spol. shromažďují naše osobní údaje a pak jimi krmí své algoritmy. Vypočítají si, jak přemýšlíme, a pak se rozhodnou, co uvidíme.
MARKUS MANDAU

Mnoho činností provádíme zcela automaticky, aniž bychom o nich moc přemýšleli – ať už jde například o čištění zubů, nebo o vyhledávání. Většina uživatelů používá následující postup: otevře prohlížeč, zadá adresu Googlu, napíše dotaz a klikne na odkaz, který vypadá "slibně".
Na jedné straně tedy sedíte u klávesnice a zadáváte úkol, který má Google splnit, a na druhé straně je vyhledávač, který vám zobrazí výsledky. Tak to ale funguje pouze teoreticky – v praxi je celý proces mnohem složitější.
Jak to funguje? Při vašem požadavku získá Google cookie, která se přidá do databáze. V ní je uloženo nejen to, jaký prohlížeč uživatel používá, jaký je jeho jazyk a odkud je, ale také jaké byly jeho předchozí požadavky na vyhledávání a na jaké výsledky uživatel klikl. V tuto chvíli začne algoritmus PageRank s kalkulacemi. Třídí texty podle toho, jak dobře jsou propojeny – často odkazované články na vysoce hodnocených webových stránkách jsou umísťovány na vrchol výsledkové "listiny". Následně další algoritmus zpracovává výsledek PageRanku a porovnává informace o surfujícím uživateli. Na základě těchto údajů změní pořadí vyhledaných výsledků tak, aby "teoreticky" co nejlépe vyhovoval uživateli, surfujícímu z konkrétního místa, se zadanými preferencemi.
To v praxi znamená, že to, co Google prezentuje surfujícímu uživateli, nejsou "čisté", ale subjektivně upravené výsledky vyhledávání. Nepříjemné na tom je, že zatímco například u cílené reklamy o "manipulaci" uživatelé vědí, o zmiňované úpravě výsledků tuší jen málokdo. Pouze zkušení uživatelé například vědí, že pokud chtějí uspět, musí své stránky "optimalizovat" pro vyhledávače, nebo že internetové společnosti využívají cookies pro zobrazování cílené reklamy. Proto si mohou ve svých "hlavách" připravit filtry, aby se této manipulaci vyhnuli.

Filtry nastavují neviditelné hranice

Podle Eli Parisera je tento filtr (v naší mysli) nahrazen při běžném vyhledávání jiným, kterého si většinou nevšimneme. Pariser kritizuje, že personalizovaný web surfujícímu uživateli zatajuje nové a nepříjemné informace a ukazuje mu pouze to, o čem se domnívá, že bude surfaři vyhovovat. Tato manipulace má své důsledky: jen obtížně se budeme zabývat závažnými tématy a dostávat se ke kritickým informacím. To, co se nyní "vyžaduje", je pocit pohody, který pomalu převažuje nad výzvami k myšlení – personalizovaný web "cenzuruje" odvážné surfaře a zásobuje uživatele co nejvíce dobrými zprávami.
                                                                     "Algoritmus filtruje informace a rozhoduje, jaké zprávy dostaneme…"
                                                                                                                                                                   Eli Pariser, autor knihy "The Filter Bubble"
Tento jev je bohužel globální, protože kromě Googlu využívá svou vlastní verzi "subjektivního filtru" i mnoho dalších webových velikánů (jako jsou Facebook, YouTube a Amazon) nebo i menších internetových obchodů. V jeho jádru jsou algoritmy, řady složitých vzorců, které vypočítávají, co z uživatelských dat, které mají k dispozici, by měla webová služba uživateli ukázat – ať už je to doporučení k nákupu, zprávy od přátel, nebo dokonce personalizované výsledky vyhledávání. Tyto algoritmy tvoří hodnotu webových služeb, srovnatelnou též se zdrojovým kódem Windows. O důležitosti kvalitního kódu svědčí i nedávná "soutěž", kterou vyhlásila největší on-line videopůjčovna Netflix, která chtěla zlepšit svůj systém doporučení. Vývojář algoritmu, kterému by se podařilo dosáhnout deseti procent navýšení podílu doporučení, by vyhrál jeden milion dolarů. Tuto peněžní odměnu nakonec získal tým vědců: ti navzájem zkombinovali své algoritmy.
Pokud tedy použijete některou z on-line služeb, jako jsou Gmail či Yahoo, i vaše data budou "zpracována" několika algoritmy s neuvěřitelnými schopnostmi. A zároveň i platí, že čím více dat o vás mají, tím více se o vás dozví.
Pomocí tří největších internetových portálů vám Chip ukáže, jak tyto algoritmy pracují a jak sofistikovaná jsou jejich doporučení. Závěrečnou otázku, zda doporučíme používat personalizovaný web, nebo si dokonce do něj zadáme své informace, necháme bez odpovědi. To by si měl na základě těchto informací každý člověk rozhodnout sám za sebe.

Amazon
Tato rovnice Amazonu říká, které produkty se vám líbí.
Apple
Genius Podle této zásady vám Apple třídí i oblíbené hity z iTunes
YouTube
Podle tohoto vzorce YouTube vypočítá, která videa se vám líbí
Facebook
Z tohoto součtu Facebook vypočítá, kteří přátelé jsou pro vás důležití
Google+
Tento algoritmus Googlu určuje, kteří uživatelé sdílejí vaše zájmy

Google: "Já vím, co vás zajímá"

Personalizace je trend, na který můžete narazit na všech hlavních vyhledávačích. To znamená, že zčásti rozhodují za vás a že každý uživatel získá výsledky a zprávy, které jsou speciálně přizpůsobeny pro něj.

Jen málo uživatelů si všimlo, že se 4. prosince 2009 internet změnil: v tento den Google představil personalizované vyhledávání pro všechny surfaře. To znamená, že se každému surfujícímu uživateli zobrazují odlišné výsledky hledání. Rádi nakupujete na Amazonu? Hledáte něco nového o destinaci vaší příští dovolené nebo je vaším koníčkem hledání informací na internetu? Všechny tyto faktory mají vliv na to, co vám Google nakonec zobrazí. Vyhledávač registruje, na jaké odkazy kliknete, a výsledky odpovídajícím způsobem upraví.
Personalizované hledání pro všechny funguje i bez nutnosti přihlášení se k účtu Googlu – surfaře s databází propojí ID cookie Googlu. Pokud tuto cookie nesmažete, zůstane ve vašem systému aktivní po dobu 180 dnů. Zajímavé také je, že ačkoliv funkci personalizovaného vyhledávání lze vypnout na hlavní stránce, Google bude i po vypnutí pomocí cookies nadále nahrávat vaše aktivity.
Chcete-li změnit své osobní výsledky hledání, musíte se nejprve přihlásit ke svému účtu u Googlu. Tam můžete odstranit záznamy o vaší historii vyhledávání – jinými slovy změnit databázi, na základě které algoritmus funguje. Vzhledem k tomu, že Google podrobnosti o svém algoritmu neodhalí, nezbývá než sledovat jeho účinky. A právě to udělali angličtí výzkumníci. Podle nich se podíl upravených výsledků hledání zvyšuje už od počátku asi o 10 procent až na více než 50 procent, a to v závislosti na tom, jak algoritmus pokračuje v poznávání našeho vzoru vyhledávání. Pokud vám tento fakt vadí, asi vás nepotěšíme zprávou, že nepomůže ani přechod na jiný web. Například od počátku letošního roku výsledky hledání personalizuje i Bing.

Algoritmy předvídají kliknutí uživatele

Zprávy na Googlu (Google News) nabízejí hlubší pohled na to, jak Google chápe personalizaci. Pokud aktivujete funkci webového protokolu na svém účtu Googlu, Google pro vás vytvoří samostatný sloupek se zpravodajskými informacemi. Zároveň ale registruje každé kliknutí, které na této stránce uděláte.
                                                                                                         "Personalizace je jen jemná – uživatel si ničeho nevšimne."
                                                                                                                               Sepandar Kamvar, vývojář personalizovaného vyhledávání Googlu
Tři algoritmy pak začnou počítat a vyhodnocovat každou zprávu s ohledem na to, co jste chtěli číst. Dva z nich porovnají čtenářský vzor pozorovaného uživatele se vzorem jiných uživatelů a hledají podobnosti. Třetí analyzuje, jaké zprávy preferujete, a intenzitu zájmu o čtení obsahu. Zároveň se algoritmy učí ze zpětné vazby, a to zda skutečně čtete zprávy, které jsou vám doporučeny. Algoritmu s nejvyšším počtem "zásahů" se v budoucnosti dostane většího významu. Zde je tedy důležité, zda čteme podobně jako ostatní, nebo zda jdeme vlastní cestou. Po aplikaci všech algoritmů zaplní Google ve finále svou stránku pouze těmi zprávami, kterým dáváme při čtení přednost.
Tuto taktiku však nepoužívá jen Google. Také základní algoritmus portálu Yahoo svou zpravodajskou stránku organizuje podle preferencí uživatelů. Podle Yahoo 35 milionů návštěvníků vygeneruje měsíčně 45 000 různých variant zpravodajských stránek.
Vědci z Microsoft Research zkoumali, zda stejný princip lze použít i pro vyhledávání. Algoritmus se snaží předpovědět, na který výsledek vyhledávání kliknete. Poměr správných výsledků je stále ještě pod hranicí 20 procent, ale jasně se ukazuje, že čím víc údajů algoritmus má, tím přesnější předpovědi nabízí. Možná že jednoho dne zadáme do Googlu klíčové slovo, a vyhledávač automaticky otevře tu "správnou" stránku. Je to příjemný výhled na příští roky, nebo spíše děsivá budoucnost? To záleží na vašem úhlu pohledu…


JAK GOOGLE URČUJE, KTERÉ ZPRÁVY UVIDÍTE
Jakmile povolíte u svého účtu Google webovou historii, algoritmus se učí, jaká témata vás zajímají – a podle toho pro vás "zpracovává" příslušné zprávy.
1. Webová historie zaznamenává vaše kliknutí
2. Tři algoritmy analyzují vaši webovou historii
3. Výsledky algoritmu jsou navzájem propojeny
4. Na základě toho je vytvořen seznam zpráv

Facebook: "Vím, koho máš rád"

Sociální sítě analyzují, jak dobré jsou vztahy mezi jednotlivými uživateli. Takže Facebook a Google + se dozvědí, s kým raději komunikujete a o kom byste se chtěli dozvědět něco nového, a tak si budují "hodnocení".

Facebook jako největší sociální síť zkoumá hranice naší představivosti. Tuto síť tvoří více než 700 milionů uživatelů, a tudíž i stránek profilů, které vedou k miliardovým počtům návštěv webových stránek za měsíc.
Počet "osobních přátel", které má individuální uživatel, se v průměru pohybuje mezi 120 a 130. Každý přítel produkuje přibližně 90 akcí měsíčně, od těch nejjednodušších (jako je kliknutí na tlačítko) až po ty složitější (jako je vytvoření příspěvku). To znamená, že v "kruhu přátel" je každý měsíc provedeno více než 11 000 akcí. Je tedy téměř nemožné udržet si o všech aktivitách přehled, zejména v případě, kdy uživatel stráví na Facebooku v průměru pouze asi hodinu denně.
Ani toto však není neřešitelný problém – algoritmus Edgerank tuto práci udělá za vás. Vytřídí zpravodajskou náplň od aktivit vašich přátel a rozhodne, které zprávy jsou důležité, a které skutečně nechcete číst. Algoritmus nejprve sleduje a vyhodnocuje, s jakou intenzitou sledujete aktivity přátel: jak často čtete příspěvky a komentujete je nebo zda pravidelně navštěvujete jejich stránky. Hodnocení je také podroben typ zasílaného příspěvku. Například příspěvek s několika interakcemi, který často obsahuje odkaz nebo video, dostává od algoritmu vyšší hodnocení než krátký text. Pravidla algoritmu Edgerank nakonec vytřídí nejen to, co nakonec na Facebooku uvidíme, ale také zjistí, s kým a jak komunikujeme.
Z pohledu vašich přátel: Pokud chcete být co nelépe vnímán a postoupit v žebříčku svých přátel výš i jako zdroj informací, pak je důležité, aby vaše příspěvky měly co možná nejvíce reakcí. Tímto faktorem Edgerank udržuje pod kontrolou podmínky pro "společenský úspěch" – odměňuje určitý typ chování a trestá lenost. Teoreticky lze říci, že podobný vzorec funguje i v normální společnosti – čím více jste aktivní, tím více máte přátel.
Je ale překvapivé, že tato praxe funguje i na sociálních sítích. Jak prohlásil jeden expert z Klurig Analytics: "Jestliže nerozumíte algoritmu, jste ztraceni – zůstanete jen vy sám mezi 700 miliony lidí."

Sítě určují naše přátele

Jakmile aktivujete přes nabídku "Sorted entry" funkci Google Mail Priority Inbox, začne se Google snažit zjistit, s kým chcete komunikovat. Od té chvíle Google Mail již nebude třídit zprávy podle data, ale místo toho se algoritmus snaží zjistit, které maily jsou pro vás důležité, a ty "protlačí" na vrchol seznamu nepřečtené pošty. Na umístění v žebříčku má vedle několika set faktorů vliv i sociální faktor, jakým je například intenzita komunikace mezi odesílatelem a příjemcem. Kromě toho je pošta prohledávána na klíčová slova, na která okamžitě reagujete. Algoritmus také zaznamená, jak dlouho e-mailová konverzace trvá a kdo ji inicioval. Do této rovnice mají též přístup informace z konfigurace účtu Google Mail. Nakonec algoritmus posoudí, do jaké míry se vaše chování liší od globálního modelu (tedy od průměrného uživatele), a podle toho upravuje hodnotu, jež je přiřazena ke každému faktoru. Na základě analýzy vašeho chování vás vaše "poštovní schránka" pozná lépe a může postupně "optimalizovat" své parametry.
Od dubna tohoto roku šel ale Google Mail ještě o krok dále. Například když napíšete e-mail, nabídne vám adresy z vašich kontaktů, o kterých si myslí, že by pro ně byl váš mail zajímavý. Navíc Google Mail kontroluje, zda e-mail neodesíláte někomu nechtěně. Algoritmus například dokáže prostřednictvím analýzy rozlišit profesní kontakty od těch osobních. Poměr úspěšnosti se podle Googlu pohybuje kolem 70 procent. Za touto funkcí se skrývá systém Implicit Social Graph, který činí z každého uživatele Google Mailu uzlový bod v obrovské matici. Stejně jako Facebook i Google monitoruje aktivity mezi uživateli a hodnotí je. Graf pak vytváří model pro každého uživatele, ve kterém se uživatel ocitá ve středu své "egocentrické sítě". Algoritmus nazvaný "Friend Suggest" používá graf ke sdružování lidi se stejnými zájmy. Je-li graf integrován do Google+, má zhruba stejný efekt jako tlačítko "Like" na Facebooku.


JAK FACEBOOK TŘÍDÍ VAŠE SOCIÁLNÍ KONTAKTY
Nové příspěvky vašich přátel jsou uvedeny u hlavních zpráv. Ty, které zůstávají na vrcholu a které z nich jsou pro vás důležité, to je určeno pomocí algoritmu Edgerank.
Edgerank hodnotí příspěvky pomocí vašich předchozích aktivit spojených se zprávou. Za tímto účelem jsou nejprve do algoritmu vloženy tři druhy informací:
ue = Blízkost: Jak silný je vztah uživatele čtoucího příspěvek k jeho autorovi, stejně jako k uživatelům, kteří tento příspěvek komentovali. Tento vztah je posuzován pouze v jednom směru: Jak důležitý je autor příspěvku pro uživatele – ne naopak.
we = Důležitost: Jaké jsou hlavní složky příspěvku (například text, foto, video, odkazy…). Každý prvek má odlišnou hodnotu, v závislosti na počtu kliknutí, které "vyprodukuje". Více kliknutí znamená vyšší hodnotu
de = Čas: Kolik času uplynulo od doby vytvoření.

Foto: 1. Edgerank hodnotí ...
Foto: 2. ... a poté seřadí zprávy od našich přátel


Amazon: "Vím, co se ti líbí"

Doporučení k nákupu šitá na míru podle potřeb zákazníka jsou klíčem k úspěchu a růstu podnikání velkých internetových obchodů. Proto algoritmy monitorují zákazníky, analyzují jejich preference a porovnávají je s jejich okolím.

Americký patent s identifikačním číslem 6266649 označuje zrození "doporučovacího" algoritmu na webu. Popisuje speciální algoritmus, který z Amazonu učinil největšího on-line prodejce na světě. Tento algoritmus zjišťuje, které produkty jednotliví zákazníci kupují společně a jak vysoko je hodnotili. Zákazník jako takový není pro algoritmus v centru zájmu, klíčový je tzv. okolní model každého produktu: čím více podobných produktů, tím vyšší skóre.
A jak se zdá, tato taktika skutečně funguje. Společnost pro průzkum trhu Nielsen Company provedla rozsáhlou studii, ve které zjistila, že téměř 60 procent kupujících objeví a posléze i koupí něco nového navíc k tomu, co hledají. Když Amazon tento systém před deseti lety spustil, měl tu výhodu, že jste mohli výpočty provádět off-line. Navíc funguje, aniž byste museli složitě vytvářet podrobné profily zákazníků. To je důvod, proč i YouTube na principu Amazonu v současné době doporučuje podobná videa.
Další vynikající výpočetní model, označený jako Collaborative Filtering, je také zákazníky velmi využíván – umožní odpovídat na "dotazy", co si podobní zákazníci doporučují či kupují. Například algoritmus Cinematch, který do roku 2009 používala firma Netflix, největší on-line DVD půjčovna, dosahoval poměru výsledků nejméně 60 procent. Moderní algoritmy kombinují oba vzorce a vypočítávají "okolní modely" jak pro zákazníky, tak i pro výrobky, které vzájemně porovnávají s ohledem na odlišnosti.

Diagram třídí zákazníky

V současné době doporučení Netflixu řídí výpočetní model Matrix Factorization. Ten roztřídí uživatele a filmy do diagramu, který je rozčleněn do kategorií jako "vážné", "únikové" nebo vhodné pro muže či ženy. Výsledek je překvapivý: např. dětský film "Čaroděj ze země Oz" s potěšením zhlédli i ti, kteří dávají přednost "Mlčení jehňátek".
                                                               "Vyděláváme peníze, když pomáháme lidem, aby se při nákupu rozhodli "
                                                                                                                                                                                   Jeff Bezos, zakladatel Amazonu
Model Matrix Factorization vychází ze široké báze údajů o činnostech uživatelů. Nejen že měří, jak vysoko uživatel daný výrobek hodnotí, ale i jeho chování na webových stránkách – od položek ve vyhledávacím menu až po pohyb myši. Důsledek: počet zákazníků, kteří přijímají doporučení, se v porovnání s algoritmem Cinematch zvýšil o více než 10 procent.
Model Persuasion Profiling jde ještě o krok dále. Chce zjistit, komu skutečně můžeme věřit v otázce doporučování výrobku. Podle výzkumníků ze Stanfordovy univerzity se jedná o stejnou "instituci", bez ohledu na to, zda jde o auta, dětské kočárky, či pračky. Mnoho kupujících nedá dopustit na seznamy "the best" těch nejlepších, jiní důvěřují posudkům profesionálů nebo i originálním reklamním sloganům. Vy musíte zjistit pouze to, která instituce je vhodná pro určitého zákazníka, a tak budete mít možnost ho ovlivnit. Doporučující algoritmy se stoprocentním podílem "zásahů" nejsou jen předmětem úvah, ale už se nachází v oblasti výzkumu. Buďme ale rádi za současný stav – vždyť kdo by si nechtěl zachovat svou svobodnou vůli?


JAK AMAZON URČUJE VAŠE PREFERENCE
Na webových stránkách a v e-mailech z on-line prodeje dostanete doporučení produktů, které by vás mohly zaujmout. Systém pro doporučování se určuje ve třech krocích.

1. Výrobky (b), které preferují podobné typy zákazníků, jsou vybírány z databáze (a).
2. Z údajů je odvozen model "sousedů": Jak "daleko" je kupující od jiných zákazníků (a)? A jak dobře se "hodí" do okolí (b)?
3. To má za následek dvě doporučení: v případě méně dat jsou zvoleny nejvhodnější produkty z okolí (a), v případě speciálních nákupních tipů je systém vytváří na základě přání podobného zákazníka (similarity) (b).

Foto: 1. Extrakce dat
Foto: 2. Srovnání podobných kupujících
Foto: 3. Výpočet doporučení
Foto: 4. Návrh nákupu zboží