Vyhledávací roboti

jak spolupracovat s pavouky

Co jsou vyhledávače - Jak pracují vyhledávače - Robot prochází internetem - Jak přilákat roboty - Zakázání přístupu robotům - Robots.txt - Meta robots - Indexování - Klíčová slova - Vyhledávání - Příklady vyhledávačů - Trocha mytologie

Co jsou vyhledávače

Třeba Altavista nebo Google. Servery, které mají velikou databázi o tom, která stránka internetu obsahuje jaké slovo. Protože umějí hledat v celém textu stránek, říká se jim fulltextové. Také se jim říká pavouci, spiders nebo crawlers.

Takových serverů existují řádově stovky. Nepleťte si, prosím, fulltextové vyhledávače s katalogy (Yahoo, Seznam).

Jak pracují vyhledávače

Ve třech krocích:

  1. Roboti sbírají data
  2. Pak se to zpracuje do databáze (indexování)
  3. Nakonec se to zpřístupní návštěvníkům, aby mohli klást dotaz.

Robot prochází internetem

Většinou někde začne, třeba v nějakém katalogu. Najde odkaz a sleduje ho. Nalezenou stránku si stáhne pro zaindexování, zároveň hledá další odkazy, které případně opět sleduje, aby si to zase postahoval.

Z toho vyplývá, že robot nemůže odhalit stránku, na kterou nevede žádný odkaz. Musí přitom jít o klasický odkaz (na to obzvláště upozorňuji milovníky různých JavaScriptových parádiček).

Pokud na vaše stránky nebudou roboti chodit, žádný čtenář ty stránky nemůže najít vyhledávačem.

V praxi ale roboti najdou jenom zlomek stránek, které existují, protože to prostě všechno nestíhají. 

Jak přilákat roboty

Někteří přijdou sami po té, co se vaše stránka objeví v nějakém katalogu. Jiné roboty musíte popohnat. Většinou se to dělá na hlavní stránce vyhledávací služby (třeba Altavista) nenápadným odkazem (přidej odkaz, add a link, submit site, add site a podobně). Zadá se URL adresa (doporučuji kontrolovat), to je vše. Roboti časem přijdou.

Osobně jsem skeptický k programům, které slibují, že přidají odkaz do spousty zahraničních vyhledávačů. Jednak zahraniční vyhledávače nejsou tak důležité, jako české, druhak se říká, že ty programy stejně jenom schraňují informace o zadavateli, aby to mohli prodat. Opravdu důležitých vyhledávačů je jen málo, není třeba být ve všech špatných. Navíc například Altavista nedávno těmto programům zablokovala přístup. 

Zakázání přístupu robotům

Webmasteři mohou nastavit, aby na web roboti nechodili nebo chodili jenom někteří a někam. Nejčastějším důvodem pro tato opatření bývá velké zatížení linky nebo choulostivost informací. Existují dva základní způsoby, jak to udělat:

  1. Pro celý web najednou souborem robots.txt
  2. Pro každý soubor zvlášť pomocí meta tagu v hlavičce

Robots.txt

Každý robot, který přijde prohledávat váš server, by se měl napřed podívat do souboru robots.txt, zda nemá zakázaný vstup. Soubor robots.txt musí být psán malými písmeny a musí být umístěn v kořeni webu (to jest hned za .cz nebo .com nebo tak). Je to obyčejný texťák. Jednotlivé řádky říkají, který robot (User-agent) kam nesmí (Disallow).

Příklady

User-agent: *

Disallow: /php/

čili všichni roboti (to je ta hvězdička) nesmějí do adresáře /php (protože řetězcem "/php/" začíná relativní URL souborů v něm). Nebo:

User-agent: Scooter

Disallow:

 

User-agent: Gulliver

Disallow: /

Takový zápis říká, že Scooter smí všude a Gulliver nikam. Všimněte si povinného prázdného řádku mezi položkami. Nebo:

User-agent: *

Disallow: /cgi-bin/

Disallow: /in

Tento zápis zakázal všem robotům (hvězdička) vstupovat do adresáře /cgi-bin a načítat stránky, které začínají řetězcem "in". Takže třeba info.html, index.html a podobně. To je mimochodem i přesná definice položky Disallow: zakazuje sledovat cesty, které začínají vypsaným řetězcem.

Všimněte si, že za jedním řádkem User-agent se může vyskytovat více řádků zákazů.

Příklad mého souboru robots.txt.

User-agent

Co se tam dá psát kromě hvězdičky? Jméno robota. Žel, nepodobá se jménům služby a já těch jmen moc neznám. Informace se dají najít na stránce http://www.robotstxt.org/wc/active/html/index.html (anglicky), za odkaz děkuji Davidu Moravcovi. 

Problémy

Meta robots

Meta tag v hlavičce umožňuje zakázat robotům jednak indexování obsahu, jednak sledování odkazů. Důvody pro takové zákazy mi nejsou moc jasné, ale to neřeším. Ještě musím zmínit, že ne všichni roboti to berou na vědomí.

Do hlavičky se v HTML napíše tag:

<meta name="robots" content="noindex, nofollow">

Přípustné hodnoty:

noindex
Obsah stránky nebude indexován
index
Obsah stránky bude indexován (normální hodnota)
nofollow
Odkazy nebudou sledovány
follow
Odkazy budou sledovány (normál)

Je dost otrava, že se to musí psát do každé stránky znova. Naštěstí ne každý se setkává s problémem vlezlých robotů.

Indexování

Čili zpracování dat do databáze. Každý vyhledávač si žvýká nasbírané informace po svém. Nejčastěji si vypisuje všechna slova, počítá jejich váhu a dává je do relace s adresou stránky.

Váha (důležitost)

Při hledání slova vyplivne databáze napřed adresy stánek, na kterých má hledané slovo velkou váhu. Jak se váha počítá? Aneb jak se pozná, zda je slovo pro stránku charakteristické? Především tak, že se vyskytuje v titulku, klíčových slovech, v popisu a v nadpisech.

Co vyhledávače sledují Jak je to v HTML Důležitost (váha)
titulek <title>text titulku</title> obrovská
klíčová slova <meta name=keywords
content="slovo, slovo">
značná
popis (description) <meta name=description
content="Stručný popis">
různá
nadpis 1. úrovně <H1>Nadpis</h1> značná
ostatní nadpisy <Hn>Nadpis</hn> sporná
začátek stránky <body>Několik prvních slov ... větší než malá
adresa URL jméno souboru včetně cesty různá
text odkazů mířících na tu stránku z jiného serveru to většinou neovlivníte u některých robotů obrovská
alty u obrázků <img alt="zástupný text" ...> malá
text stránky prostě text malá

V tabulce jsem nastínil pouze nejčastější kritéria. Ještě jednou musím zdůraznit, že se různé vyhledávače v počítání váhy opravdu velmi liší. Existují totiž specializovaní roboti, kteří hledají třeba jenom obrázky nebo počet odkazů.

Klíčová slova

Velký význam bývá připisován klíčovým slovům (keywords) a popisu (description). Jejich popis mám u meta tagů.

Vyhledávání

Z hlediska autora stránek je vlastní vyhledávací mechanismus nezajímavý. Prostě se dotazuje databáze a vyhazuje to výsledky.

Forma výsledků

Je zajímavé popřemýšlet, jak se moje nalezená stránka zobrazí. Nejčastěji se zobrazuje titulek stránky (obsah tagu <title></title>), pod ním tři různé věci:

  1. Buďto obsah meta tagu description,
  2. nebo prvních několik slov ze začátku stránky
  3. nebo kusy textu kolem hledaného výrazu.

Nejčastěji je to právě description. Je dobré jej zadávat. Hlavně je ale třeba mít správně zadaný titulek stránky.

Čeština

S češtinou jsou spojeny dvě zásadní otázky, které spolu nesouvisejí:

  1. Jak vyhledávat háčkovaná a čárkovaná slova?
  2. Jak pozná vyhledávač, že je stránka česky? (Třeba Altavista nebo Google to umí poznat)

Háčky a čárky

Většinou je nutno zadávat dotaz dvakrát. Jednou bez diakritiky, podruhé s ní. Vyskytují-li se navíc ve slově znaky ž, š a ť, je třeba opakovat hledání v jiném kódování. Na českém webu se totiž vyskytují texty ve třech znakových sadách: win, iso a bez diakritiky. Vizte rozdíly kódování.

Roboti ale kódování češtiny ignorují a zapisují slova tak, jak je vidí v ascii kódu. To znamená, že třeba písmenko š si zapíšou jednou jako $185, jindy jako $154.

Proto při vyhledávání vždy kontrolujte, v jakém pracujete kódování (zobrazit - kódování).

Ze stejného důvodu je dobré zadávat klíčová slova nadvakrát -- jednou s a podruhé bez diakritiky. Nebo natřikrát (šžť). Více v popisu meta tagů.

Rozpoznání jazyka

Jak vyhledávače poznají, v jakém jazyce je text? Různě. Mají na to čtyři možné způsoby:

  1. hledají meta deklaraci jazyka: <meta http-equiv="Content-Language" content="cs">
  2. hledají atribut lang=cs v jakémoli tagu
  3. provádějí heuristickou analýzu, prostě čtou text a snaží se počítat slova charakteristická pro ten který jazyk (např. "se", "ale" nebo "je" pro češtinu).
  4. orientují se podle generické domény (.cz) což je ale velmi nespolehlivé

Protože žádná z popsaných metod není spolehlivá (označení jazyka ve většině stránek není, heuristická analýza je pracná), není divu, že se vyhledávače často v rozpoznání jazyka pletou.

Příklady vyhledávačů

Anglické: www.altavista.com, www.lycos.com, www.google.com, www.hotbot.com, www.monkeysweat.com, www.alltheweb.com, a stovky dalších.

České: www.redbox.cz (totéž, co google), www.megatext.cz, www.kompas.cz, www.atlas.cz, www.katedrala.cz, www.archon.cz, www.centrum.cz, www.empyreum.cz, www.najdito.cz

Trocha mytologie

Všechno, co jsem psal na této stránce, je do značné míry nejisté. Protože nejsem permanentně připojen na net, nemohu chování vyhledávačů testovat, stejně bych na to neměl čas. Většinu informací jsem někde četl nebo převzal ze specifikací. A v tom je právě problém.

Domnívám se, že každý, kdo popisuje meta tagy a vůbec chování vyhledávačů, také jenom odněkud opisuje, upravuje a přejímá. Obávám se, že skoro nikdo nedělá v oblasti vyhledávačů seriózní výzkum. Ono to také není moc dobře možné, když se musí měsíc čekat, než robot přijde.

Proto jsou informace na této stránce jistým druhem mýtu, který se předává z generace na generaci; pravdivé jádro v něm sice je, ale kdo ví, jak je to opravdu?

Vizte též: Katalogy, Meta tagy, správa souborů, nastavení serveru, čeština na webu
Odkazy mimo: Seznam českých vyhledávacích serverů Petra Kocny, O vyhledávacích službách

Píše Yuhů
dusan@pc-slany.cz
mail formulářem
Jak psát web O tvorbě, údržbě a zlepšování internetových stránek.

Základy HTML CSS FrontPage Hledání

Obsah

Hlavní stránka

Novinky

FAQ

Download

Zdroje

Hledání


Rozšířené

Základní kurs

Jak udělat stránku

Základy HTML

Publikování

Zásady psaní

Editory

Různé prohlížeče

Editory

FrontPage 2000

FP Editor 98

Word 97

FrontPage Express

HTML tipy

Příprava obrázků

Obrázky

Pozadí

Odkazy

Vychytávky odkazů

Záložky

Aktivní mail

Tabulky

Úprava tabulek

Novinky tabulek

Design tabulkami

Rámy

Formátování rámů

Rámy nepoužívat

Iframe

Formuláře

Formuláře v HTML

Dokonalé formuláře

Zápis barev

Definice

Formátovací chyby

Jak udělat levé menu

Vytěžování stránek

Provoz webu

Rychlost stránek

Vzdálené služby

Vyhledávače

Katalogy

Správa souborů

Ikona stránky

Obsah / forma

Čeština

Chyby češtiny

Tabulky kódování

Meta tagy

Nastavení serveru

Programování stránek

Začátky PHP

Možnosti PHP

Používání prohlížeče

CSS styly

CSS styly

Úvod do CSS

Struktura textu

CSS prakticky

PŘEHLED VLASTNOSTÍ CSS

Složitější deklarace

Délkové jednotky

Pozicování

Sloupce pozicováním

Okraje objektů

Odlišení prohlížečů

Omezení CSS

Odlišný tisk

Dynamické HTML

Filtry

Příklady filtrů

Různé barvy odkazů

Barva rolovací lišty

 


Jak psát web: http://dusan.pc-slany.cz/internet/

Píše Yuhů: autorova stránka, mail: dusan@pc-slany.cz

Poslední aktualizace 03.11.2001