Nové triky proti spamu
V oblasti ochrany před spamem doposud vývojáři jen reagovali na útoky. Nový bezpečnostní software však nyní využívá výsledky z teorie her, díky čemuž může být neustále o krok před útočníky.
TOBIAS SCHEFFER
Spamové filtry chrání počítačové systémy od nepříjemné záplavy reklam a nebezpečných phishingových zpráv, speciální software odhaluje útoky na servery a rozlišuje mezi podvodnými transakcemi uskutečněnými prostřednictvím kreditní karty a legitimními platbami. Vývoj bezpečnostního softwaru je výjimečná výzva pro softwarové inženýry, protože na "opačné straně barikády" stojí stejně kvalitní odborníci, kteří se snaží nové ochranné mechanismy obejít. Programátoři, kteří pracují pro internetovou mafii, zakládají stále nové podvodné stránky, vytvářejí nástroje pro rozesílání spamu a programují software pro botnety, které útočí na jiné sítě. Své nástroje neustále vylepšují, čímž ztěžují identifikaci spamu a DOS útoků, a učí se i lépe maskovat podvodné transakce s kreditními kartami, aby bylo co nejtěžší odlišit je od běžného "datového provozu".
Doposud platilo, že po určitých časových úsecích přebírají autoři spamu iniciativu, zatímco vývojáři bezpečnostního softwaru se zoufale snaží reagovat na nové triky, proti kterým aktuální nástroje nedokáží bojovat. Příkladem takového období byl přibližně počátek roku 2006, kdy se poprvé objevil "obrázkový spam" – někteří poskytovatelé tuto dobu označili jako "velkou obrázkovou bitvu". Jejich spamové filtry, které v té době používaly jen tři mechanismy (textové filtry na základě obsahu, "černé seznamy" [blacklisty] IP adres a černé seznamy známého spamu), byly proti obrázkovému spamu bezmocné. Jak tyto ochrany fungují?
Textové filtry analyzují obsah e-mailů (jak spamu, tak i normálních zpráv) a stanovují pro každé slovo tzv. "spam score" – číslo, které určuje, zda se slovo obvykle vyskytuje ve spamu. Nakonec se hodnota všech slov v mailu sečte, a pokud celkové skóre zprávy leží nad prahovou hodnotou, je zpráva klasifikována jako spam.
Černé seznamy IP adres obsahují informace o známých serverech bez autentizačních mechanismů, neboť tyto veřejné servery jsou pravidelně zneužívány k rozesílání spamu. V tomto seznamu však najdete i rozsahy adres, které mají k dispozici velcí internetoví provideři pro své zákazníky (např. využívající dial-up nebo ADSL) a ze kterých častokrát také proudí velké množství spamu. Tyto seznamy jsou pravidelně aktualizovány pomocí tzv.honeypotů, e-mailových účtů, které neslouží k odesílání zpráv, ale jen jako lákadla pro spam.
Černé seznamy známého spamu obsahují databázi již známých spamových zpráv. U každé zprávy je vypočítán indetifikátor, jehož hodnota je poté porovnávána s příchozí poštou.
S těmito obrannými nástroji se snaží vývojáři spamu bojovat pomocí technických inovací, ve kterých hrají důležitou roli botnety. O těchto počítačích napadených viry, spojených do jedné obrovské sítě a ovládaných na dálku jsme se zmiňovali už v článcích o internetových útocích, v oblasti rozesílání spamu ale hrají klíčovou roli.
Provozovatel botnetu může pomocí jednoduchého rozhraní na dálku ovládat rozesílání spamu: po zadání příkazu si každý počítač v této síti nahraje vzorek "bezkontextové pravděpodobnostní gramatiky", která určí strukturu a obsah spamové kampaně. Poté každý ze zombie počítačů na základě tohoto vzorku vygeneruje a odešle několik zpráv.
Díky těmto technikám oklamou spammeři tři klasické ochranné mechanismy proti spamu:
1/ frekvenci – žádné dva ze spamových e-mailů nejsou stejné a díky tomu jsou neúčinné blacklisty známých spamových zpráv;
2/ IP adresy – vzhledem k tomu, že každý z počítačů posílá pouze několik zpráv, je blokování e-mailů na základě IP adresy nebo adresního rozsahu neúčinné;
3/ textové filtry – v tomto případě slouží ke zmatení tzv. dobrá slova – spamy obsahují pole, která obsahují náhodně vybrané a zdánlivě správné fragmenty vět. U problematických slov, která mají vysoké skóre, je kreativně (ale ještě pochopitelně) využito speciálních fontů, nebo alespoň podobných znaků. Například místo Viagra najdete častokrát ve spamu "V1@gra".
Textově založené filtry ale mohou být překonány pomocí obrázkového spamu: nástroje, jako je "Reactor Mailer", dokáží automaticky převádět zprávy na obrázky, které mohou být individuálně, ale náhodně generovány podle určeného vzoru. Zde by měla pomoci tzv. teorie her.
Z odborného hlediska je teorie her matematická disciplína, která rozvíjí modely konfliktní rozhodovací situace a snaží se nalézt optimální strategii z hlediska jednotlivých hráčů/konkurentů. V našem případě jsou těmito hráči na straně jedné poskytovatelé e-mailových služeb, na straně druhé internetová mafie rozesílající spam. Každý z těchto dvou protagonistů má cíl, který může být vyjádřen jako kritérium optimalizace. Poskytovatel e-mailových služeb chce co nejlépe filtrovat spam bez blokování legitimních zpráv. Na druhou stranu odesílatel spamu chce maximalizovat svůj zisk, tedy například aby mu přicházelo co nejvíce objednávek na léky nebo aby příjemce zadal své soukromé údaje na phishingových internetových stránkách.
Jediná potíž s touto "nekooperativní hrou na třídění e-mailů" vyplývá ze složitosti optimalizačních problémů. Ačkoliv cíle obou hráčů nejsou přesně protichůdné (kdyby byly, šlo by o tzv. hru s nulovým součtem), vzájemně si odporují v téměř neřešitelný konflikt. V této hře mají totiž oba hráči k dispozici velké množství strategií i "vojáků". V matematických pojmech: Každý hráč má "akční prostor". Poskytovatel tak může například přidat do textového filtru slova přímo označená jako spam. Odesílatel může upravit vzor, podle kterého bude zpráva vytvořena, nebo přímo změnit skutečný obsah zprávy a styl slov tak, že při vytváření zprávy určí více či méně intenzivní vliv náhodného vložení daného slova.
Akční prostor ve hře na klasifikaci e-mailů je nekonečný, např.ve srovnání s akčním prostorem u hry šachy. Poskytovatel e-mailových služeb může označit libovolný počet slov jako spam (případně upravit jejich skóre) a odesílatel nevyžádané pošty může vytvořit nový styl slova.
Oba hráči zkrátka znají nekonečný akční prostor, který má k dispozici soupeř.
Poskytovatelé "poštovních služeb" i odesílatelé nevyžádané pošty navíc vědí, jaké spamové e-maily byly již v minulosti zaslané, nebo dokonce znají výsledky "filtrace" těchto zpráv a s těmito informacemi i počítají ve svém myšlenkovém procesu. V teoretickém modelu hry musí oba hráči nasadit nový filtr (nebo odeslat nový vzorek spamu) ve stejnou dobu. To je zásadní rozdíl od klasického přístupu, ve kterém první čeká, až ten druhý provede nový tah. Existuje tedy strategie pro "hru na klasifikaci e-mailu", která je optimální pro obě strany?
Jak dobře spamový filtr splňuje cíle poskytovatele služby, to závisí na tom, jaké nové strategie zvolí odesílatel spamu. Jinými slovy, záleží na tom, jak se změní vzorek zpráv ve vztahu k minulosti. Na druhé straně dosažení cíle spamové kampaně (zisku) závisí na tom, jaké skóre přiřadí spamový filtr slovům obsaženým ve zprávách. Žádná z těchto dvou skutečností není známa předem, ale pouze jako možnost v rámci akčního prostoru. Myšlenkový proces při hledání optimální strategie tedy může hráče zavést do nekonečné rekurze: "Jestli si myslí, že si myslím, že si myslí, že..."
Geniální řešení pro takovéto dilema nalezl v roce 1950 matematik John Nash, který za něj dokonce získal Nobelovu cenu za ekonomii. Pokud se oba hráči chovají racionálně, každý z nich bude usilovat o řešení, které maximalizuje jeho osobní prospěch.
Jestliže se oba hráči spoléhají na skutečnost, že i ten druhý se bude chovat racionálně, pak optimální strategii pro každého z hráčů bude představovat tzv. Nashovo equilibrium (Nashova rovnováha) a jakákoliv jednostranná odchylka této rovnováhy vždy vede ke snížení zisku.
Zde je ale háček: ne každá hra má jasný bod Nashova equilibria. Jeho existence je závislá na možných akcích hráčů a na formě jimi použitých funkcí. U hry na klasifikaci e-mailů a u dalších podobných klasifikačních her (například u bezpečnostních IT programů) výzkumný tým prokázal, že Nashovo equilibrium existuje, pokud použité filtry a zisk útočníka splňují určité matematické vlastnosti.
Pro podrobnosti o zmiňované technice jsme pro vás na DVD připravili PDF "Nash Equilibria of Static Prediction Games". Řešení zmíněné nekonečné rekurze tedy reprezentuje čisté Nashovo equilibrium. Důkaz o jeho existenci je relativně snadný, ovšem pro jeho implementaci je nutné ho v konkrétním případě vypočítat. V praxi pro daný pár strategií (směřující k co největšímu zisku nebo k blokování co nejvíce spamu) může hráč nejvíce získat, pokud se odchýlí od své strategie. V případě použití Nashova equilibria ale už žádný hráč nemůže získat nic navíc, ani zlepšováním strategie.
Jak lze tyto informace použít v praxi? Místo toho, aby se u filtru upravovalo "spam skóre" tak, aby filtr fungoval dobře u již obdržených e-mailů, nový Nashův filtr používá pro určení Nashovo equilibrum tzv. vzestupný proces. Pokud současně "krmíte" tréninkovými daty normální spamový filtr a Nashův filtr, uvidíte, že oba dva pracují téměř stejně (viz schéma vpravo nahoře). Rozpoznávání spamových zpráv u klasického filtru se časem nezvyšuje a po uplynutí jednoho až tří měsíců klesá až k počátečním hodnotám před tréninkem – odesílatelé nevyžádané pošty totiž zmátli filtr novými triky (jiným typem spamových zpráv). Na druhé straně Nashův filtr zůstává schopen detekce mnohem delší dobu. Přijme možné nové varianty známých stylů, a dokonce rozpozná nové spamové ukazatele. Nashův filtr je nutné aktualizovat pomocí nových testovacích dat až po mnohem delší době.
Pochopitelně že při testování nového typu filtru nezůstane jen u laboratorních experimentů. Dalším krokem bude zlepšování účinnosti matematické optimalizace řízení tak, že Nashův filtr bude nasazen u partnera výzkumů – v tomto případě u webhosterské firmy Strato. Výsledky testování budou v budoucnu užitečné nejen k identifikaci spamu, ale i k včasnému odhalení DOS útoků a umožní uživatelům být o krok před odesílateli nevyžádané pošty a útočníky.
AUTOR@CHIP.CZ
PROF. DR. TOBIAS SCHEFFER
Potsdam University
Tobias Scheffer je profesorem informačních věd a pracuje na výzkumu v oblasti učících se strojů. Od roku 2005 spolupracuje jeho tým s internetovým webhosterem Strato. Tato firma používá technologie vyvinuté v této spolupráci, které se snaží detekovat spam, phishing, viry a zneužití serverové infrastruktury.
Co nového přináší Nashův filtr?
Výzkumná skupina autora testovala přesnost, se kterou nový Nashův filtr detekuje spamové e-maily, a porovnala ho s klasickým filtrem. Nejprve byly oba filtry trénovány se vzorkem 6 000 spamů a poté použity na 65 000 veřejných a 40 000 soukromých e-mailů. Úroveň detekce se v průběhu času snížila, jak spammeři odeslali nové vzorky. Ovšem Nashův filtr tyto vzorky částečně odstranil a díky tomu si udržel vysokou úroveň detekce.
Co je Nashovo equilibrium?
"Hra" mezi spammery a poskytovateli se scvrkává na závody ve zbrojení i z pohledu teorie her. Útočník může svůj záměr realizovat přímou cestou, která odpovídá určitému zisku pouze v případě špatné obrany, nebo vymyslí útok, který si poradí i s optimální obranou. V Nashovo equilibrium se oběť připravuje na útok tak, aby se mohla bránit, ale s tím počítá i útočník. Pokud se hráč od této taktiky odchýlí, jeho zisk se sníží. V reálném světě je to obvykle následující proces: spammer zlepšuje svou techniku, na což poskytovatel reaguje, a dokonce i mění vlastní techniku. Na druhou stranu v teorii her může každý z nich provést volbu strategie, tj. techniky. To je síla nového Nashova filtru: zlepšuje dobu odezvy poskytovatele a zároveň již bere v úvahu a integruje do obrany další technický rozvoj spammerů. Díky tomu je okamžitě dosaženo tzv. Nashovo equilibrium. To rozhodně není dokonalá ochrana proti spamu, ale je mnohem lepší než ta stávající.
Závody ve zbrojení: V Nashově equilibriu se obránce chrání před optimálním útokem a útočník očekává optimální obranu. Pokud se jeden z hráčů od této strategie odchýlí, získá méně peněz nebo odfiltruje méně spamu.
Foto: Vzorec obrany: Lepší obrana proti spamu je už nyní možná jen díky matematice.