Google hacking: cíl zaměřen
Google hacking je tématem desítek článků, které najdete na internetu, i celé řady tištěných knih. Několikrát jsme se o něm již zmínili i v Chipu. Nyní se ale na to, co TENTO POJEM PŘEDSTAVUJE, podíváme podrobněji…
PETR KRATOCHVÍL
Pokud jste o Google hackingu až doposud neslyšeli, měli bychom vás hned v úvodu upozornit, že nejde o žádnou tajuplnou techniku, pomocí níž položíte světoznámý server na lopatky a vyluxujete konto Sergeye Brina. Naopak, jde o „mírumilovnou nauku“ vedoucí k dokonalému ovládnutí rozsáhlých možností dotazů v rámci tohoto vyhledávače. I proto označují někteří uživatelé popisované techniky jako „Google data mining“, tedy jako získávání dat pomocí Googlu.
Dříve než se pustíme do prohledávání hlubin databází Googlu, musíme zopakovat několik základních pravidel, která platí pro většinu vyhledávání (Google má své „speciality“ a výjimky, na které vás upozorníme). Základní vyhledávání na Googlu je stejné jako dýchání - jednoduché a přirozené. I díky tomu najde požadované informace rychle i začátečník. My vám ale nejprve nabídneme triky, které vás dovedou o kousek dál…
Základní pravidla čmuchání
Google nerozlišuje velikost písma - při hledání informací o Chipu nezáleží na tom, jestli zadáte Chip nebo CHIP. Pokud do vyhledávače zadáte dva pojmy, například [chip časopis], vyhledají se stránky obsahující oba výrazy. Ty se mohou nacházet kdekoliv na stránce (i dál od sebe) a mohou být i v jiném tvaru (například „časopise“ nebo „časopisů“). Dalším důležitým pomocníkem při hledání jsou uvozovky - zadáte-li do vyhledávače více výrazů v uvozovkách, budou vyhledány pouze stránky obsahující přesně tyto výrazy (pozor, záleží i na pořadí).
Vyzkoušejte si: Zadejte do vyhledávače ["časopis chip"] a ["chip časopis"] a zjistíte, že nalezené stránky jsou naprosto odlišné! Dalším prvkem usnadňujícím hledání je parametr „site“. Umožňuje vyhledávání v rámci jedné domény. V praxi se využívá především v případech, kdy konkrétnímu webu chybí kvalitní vyhledávání. Posledním prvkem, který patří do základní výzbroje běžných uživatelů, je operátor „-“. Ten určuje, které výsledky by se ve vyhledávání objevit neměly. Například pokud hledáte informace o našem časopise (a zadáte jeho název), nemalá část odkazů se zabývá tzv. chip tuningem automobilů. Pokud chcete tyto výsledky eliminovat, lze použít například příkaz
[chip -tuning].
Další vlastnosti stránek
Pomocí výše uvedených pravidel lze nalézt většinu důležitých informací a pro běžné uživatele jsou tyto informace naprosto dostačující. Pokud ale od Googlu čekáte více, pomohou vám parametry (označované také jako operátory), které umožňují hledání ve struktuře stránek. Ty neberou v potaz jen obsah stránky, ale zajímají se i o její „stavbu“. Jejich používání nevyžaduje znalost jazyka HTML, ale předpokládá alespoň základní znalosti struktury stránky.
INURL: Operátor umožňující hledání přímo v adrese (URL) stránky.
Dotaz [inurl:koupaliště] vyhledá stránky, které mají slovo koupaliště přímo v adrese tedy například „cs.wikipedia.org/wiki/Koupaliště“.
POZOR: Tento operátor bude ignorovat stránky, které mají slovo koupaliště v samotné stránce nebo i v titulu (například www.raft.cz/koupani/).
POUŽITÍ V PRAXI: Šikovný pro hledání určitých typů dat či informací, ukládaných do speciálně pojmenovaných složek. Pokud víte, že hledaná informace se nachází ve složce administrátora, může mít parametr ve vyhledávači následující podobu:
[inurl:"/admin/"]
Hledáte-li složku s videoobsahem určeným pro mobily, lze použít operátor tímto způsobem:
[inurl:3gp]
ALLINURL: Pokročilejší varianta předchozího příkazu - parametrem může být více výrazů. Pozor, záleží i na jejich pořadí!
INTITLE: Tento parametr se naopak „zabývá“ pouze titulem stránky. Tedy - abychom byli přesní - hledá v textu, který je ve struktuře stránky ukryt mezi značkami
POUŽITÍ V PRAXI: Hodí se jak pro vyhledávání obecných informací (kde titulek obvykle shrnuje obsah stránky), tak i pro hledání specifických dat. Ve druhém případě se obvykle využívá skutečnosti, že některé programy vytváří složky s určitým typem dat a jejich název pak přidají do titulu. Vyzkoušejte například tento příkaz:
[intitle:"Index of /foto"]
ALLINTITLE: Opět pokročilejší varianta předchozího příkazu, která umožňuje zadání více parametrů…
Mezi námi soubory
Už hodně dlouhou dobu nemá Google ve svých databázích zaindexovány jen samotné WWW stránky, ale také obrovské množství souborů „k nim přiložených“. Mezi pomocníky usnadňujícími vyhledávání tak nechybí ani příkaz ulehčující orientaci v tomto „chaosu“. Je jím příkaz „filetype“, který dokáže omezit hledání na několik vybraných typů souborů.
Zde je přehled těch nejpoužívanějších:
DOC: dokument Microsoft Word;
PPT: prezentace Microsoft PowerPoint;
PDF: Adobe Portable Dokument;
XLS: tabulka Microsoft Excel;
TXT: dokument ve formátu txt;
RTF: dokument ve formátu Rich Text Format.
POUŽITÍ V PRAXI: Tento příkaz se hodí v případě, že tušíte, v jakém typu dokumentu se nachází hledaná informace. Typickým příkladem jsou návody k přístrojům. Pokud zadáte do Googlu značku a typ přístroje, objeví se obrovské množství stránek zabývajících se jeho prodejem nebo servisem. Jestliže ale víte, že návody obvykle najdete ve formátu pdf, je vaše hledání podstatně jednodušší. Tímto způsobem lze například snadno najít manuál k mobilnímu telefonu:
[návod k850i +filetype:pdf]
Slídění pro pokročilé
Další úroveň „Google hackingu“ už sice vyžaduje jisté znalosti, základní „triky“ si však může vyzkoušet každý. Důležitou informací, kterou by měl internetový čmuchal znát, je systém obecné „organizace“ složek na webu. Pro začátek stačí vědět, že první, často snadno „odhalitelnou“ informací je výpis adresářů. Na jeho základě lze zjistit, co se v hlubinách webu (na první „WWW pohled“ nepřístupných) doopravdy nachází. V databázích Googlu jsou stránky s těmito výpisy odhalitelné pomocí frází „parent directory“ a „index of“. Právě této skutečnosti využívá oblíbený příkaz pro hledání skladeb ve formátu MP3
[allintitle:Index of /mp3]
který najde stovky tisíc webů se složkami obsahujícími audio ve formátu MP3. Zkušenější uživatelé pak používají jeho alternativu v podobě
[intitle:"index.of" mp3 interpret]
Pokud jste zvědavější než Rákosníček a chtěli byste se podívat tam, kam by vás administrátor bez hesla nepustil, můžete vyzkoušet následující příkaz:
[index.of inurl:"admin/"]
Internet, to ale nejsou jen WWW stránky. Nabídka je mnohem bohatší a my můžeme s úspěchem využít skutečnosti, že Google indexuje také například ftp servery. Při hledání využijeme faktu, že v „adrese“ musí být slovo „ftp“ a výraz „parent directory“. Finální dotaz pak může vypadat i takto:
["inurl:ftp" "parent directory" mp3 interpret]
Pochopitelně lze tímto způsobem hledat i další typy souborů - a to nejen soubory multimediální. Těch ale na různých ftp serverech obvykle najdete nejvíce…
Tajné, tajnější, nejtajnější…
Co by to bylo za článek o „hackingu“, kdybychom se nevydali hledat například tajné dokumenty o Oblasti 51 („tajný film“ o ní najdete i na našem DVD) nebo supertajné seznamy slušných českých politiků (na Chip DVD ve složce ghack). Pátrání po tajných dokumentech začneme dokumenty firemními. Nenajdete na nich nálepku „top secret“, ale bývají s oblibou označeny jako „for internal use only“ nebo „only for top management“ - možností je více. Pak už stačí jen odhadnout, ve kterém formátu by měl dokument být (obvykle doc, pdf nebo ppt), a tomu přizpůsobit dotaz:
[filetype:doc "for internal use only"]
Vzhledem k tomu, že jde o poměrně starý „trik“, příliš mnoho zajímavých dokumentů tímto způsobem nenajdete. Záleží ale jen na vaší trpělivosti a nápadech, které uplatníte při úpravách tohoto dotazu a které vám ve finále určitě nabídnou zajímavé výsledky.
Voyeuři a jiní zvědavci…
Poslední specifickou kategorií je „Google hacking“ zařízení. V současné době už nejsou tiskárny nebo kopírky jen bezduchými stroji, ale komplikovanými zařízeními s vlastním webovým rozhraním. Jeho zabezpečení (pokud vůbec nějaké je) bývá poměrně často velmi ubohé, což z něj dělá pro „Google hackery“ lákavý cíl. Jediné, co zvědavý čmuchal potřebuje znát, jsou řetězce specifické pro určité vybrané zařízení. Například zadáním
[inurl:hp/devi ce/this. LCDis patcher]
najdete stránky specifické pro tiskárny HP. Pokud vás „hrátky“ s tiskárnami zaujaly, doporučujeme navštívit stránku www.irongeek.com/i.php?page=security/networkprinterhacking, kde je tato problematika popsána podrobně.
Cílem „čmuchalů“ ale nemusí být jen tiskárny a kopírky - možnosti jsou mnohem rozsáhlejší. Za nejlákavější cíl jsou považovány webkamery (pochopitelně nikoliv ty volně dostupné), které lze nalézt podobným způsobem jako předchozí zařízení. Například dotazem
[intitle:liveapplet inurl:LvAppl]
inurl:8080 najdete kamery Canon Webview. A jak zjistit identifikátory pro jiná zařízení? S Googlem je to opět hračka - stačí jen zadat za řetězec „google hack“ název zařízení. Identifikátor pro webkamery Axis najdete například takto:
[google hack webcam Axis]
Pokud jste zvědaví, ale nemáte trpělivost „prokousávat“ se desítkami odkazů a hledat ten správný, navštivte rovnou stránky Opentopia (www.opentopia.com/hiddencam.php), kde najdete pravidelně aktualizovaný seznam „hacknutých“ kamer i s náhledy a možností třídění podle zemí.
Do počtu…
Aby byly naše informace o používání Googlu úplné, nesmíme zapomenout ani na některé méně používané příkazy. Jedním z nich je například operátor OR, který funguje jako „logické NEBO“. Pokud zadáte do vyhledávače příkaz
[žárovka OR zářivka]
Google bude hledat stránky, na kterých se nachází buď slovo žárovka, NEBO slovo zářivka. Tedy stránky obsahující pouze jeden z argumentů.
Mezi méně využívané patří také příkaz „Link“. Jeho pomocí lze nalézt všechny stránky odkazující na link v parametru příkazu. Například příkaz
[link:www.chip.cz]
odhalí stránky, ze kterých vedou odkazy na web Chipu.
Pomocnou ruku při hledání „příbuzných“ stránek podá příkaz „related“. Dokáže totiž k zadaným WWW stránkám najít podobné (z hlediska jejich obsahu). Příkaz
[related:www.chip.cz]
tak například najde další weby věnované počítačům a moderním technologiím. Dalším z „alternativních“ příkazů je „cache“. Jeho pomocí lze vyhledávat přímo v zaindexovaných „cached“ stránkách -tak lze často najít informace, které již na aktuálních stránkách nejsou. Pokud vám zlý administrátor smazal v diskusi příspěvek, lze ho obvykle dohledat pomocí příkazu
[cache:www.adresawebu.cz něco_z_příspěvku]
A aby byl výčet našich „skoro zbytečných“ kouzel kompletní, nemůžeme zapomenout na „žolíky“. Pamětníci kouzlení v systému MS-DOS určitě dojetím zamáčknou slzu nad zástupným znakem „*“. Ten nahrazuje celý řetězec (například slovo) a lze ho ve vyhledávacím dotazu opakovat několikrát. Dotaz
[komorní * těleso]
tak najde stránky zabývající se jak komorními smyčcovými tělesy, tak i tělesy pěveckými nebo symfonickými.
To byl stručný přehled některých schopností Googlu. Informace o pokročilejších metodách hledání a jejich „následcích“ najdete v některém z příštích Chipů.
PETR.KRATOCHVIL@CHIP.CZ
UPOZORNĚNÍ
Námi popisované techniky doporučujeme použít především pro testování ochrany informací na vlastních webech. Je také důležité si uvědomit, že jejich zneužití může být v rozporu se zákonem: Jednání pachatele trestného činu podle § 257a TrZ spočívá v získání přístupu k nosiči informací a zároveň: v neoprávněném užití informací (§ 257a odst. 1a); ve zničení, poškození nebo učinění informací neupotřebitelnými (§ 257a odst. 1b); v zásahu do technického nebo programového vybavení počítače (§ 257a odst. 1c).
VÍTE, ŽE…
* američtí vědci zjistili, že vyhledáním libovolného výrazu na Googlu spotřebujete přibližně 7 gramů CO2?
* nejvíce dotazů Googlu je dvouslovných (23 %) a tříslovných (21 %)? Komplikovanější dotazy tvoří jen zlomek.
* největším uznávaným odborníkem na Google hacking je administrátor serveru johnny.ihackstuff.com a i-hacked.com?
* celá řada stránek před vámi zůstane utajena, pokud máte nastaveno, aby Google výsledky filtroval na „nebezpečný obsah“?
* Google svůj vyhledávač upravuje i pro další obyvatele vesmíru? Například verzi v klingonštině najdete na www.google.com/intl/xx-klingon/.
ZAJÍMAVÉ ODKAZY
http://johnny.ihackstuff.com/
http://jobabroad.sweb.cz/google.htm
www.opentopia.com/hiddencam.php
www.irongeek.com
INFO
Pasti pro příliš odvážné
Stejně jako Gangsta rap, BMW E30 MHC a kalhoty s rozkrokem u kolenou se i Google hacking stal na určitou dobu módní záležitostí. Tisíce nadšených teenagerů rozpalovaly servery Googlu do běla a hledaly na internetu „zajímavá data a informace“. Smutným faktem je, že mnoho internetových serverů zasáhla tato vlna nepřipravených - líní a nepořádní administrátoři jen zírali, jak se jejich data (a přístupové údaje) ztrácejí jako pára nad hrncem. Ale vzhledem k tomu, že schopnosti vyhledávačů zaskočily i některé renomované firmy, bylo jen otázkou času, než se objevila adekvátní reakce.
Historicky prvním pokusem o omezení příliš zvědavých čmuchalů byl tzv. Robot Exclusion Standard, který měl „vyhledávacím“ robotům určit, kam mohou a kam ne - v souboru robots.txt lze definovat, které stránky (nebo jejich části) smějí indexovat. „Slušně vychovaný robot“ by tedy měl po navštívení stránky zjistit přítomnost tohoto souboru a na základě jeho obsahu postupovat dál.
Procento „čestných a korektních“ botů je však podobné jako u lidí, a tak musí zkušení webmasteři počítat i s návštěvou „těch druhých“ (o tom, že jich není málo, vás může přesvědčit i zajímavý seznam na www.kloth.net/internet/badbots.php).
Další z technik, které by měly administrátorům usnadnit boj s příliš „zvědavými“ surfaři, jsou tzv. honeypots (v tomto případě označované jako The Google Hack Honeypot). Více informací o těchto „pastech“, které lákají vetřelce na zajímavý obsah, najdete na adrese http://ghh.sourceforge.net/. Potenciál Google hackingu úspěšně využívá i internetová mafie - existuje celá řada serverů, které je objeví po zadání „hackerského dotazu“ na filmy či hudbu ve formátu MP3 (do této kategorie patří například i falešné složky „index of mp3“). Pokud se necháte nalákat a na odkaz s hledanou „zábavou“ kliknete, proběhne automatický pokus o útok na váš prohlížeč (počítač).
- Praxe - Google hacking: cíl zaměřen (1.3 MB) - Staženo 2914x