O Google

Podle čeho Google řadí - Page Rank - Těžké začátky stránky na Google -Duplicitní obsah - Penalizace - Co Google nevidí - Proč je Google důležitý - Co umožňuje Google webmasterům - Meta tag googlebot - AdWords a AdSense

Tento text je určen provozovatelům stránek, kteří se chtějí trochu zorientovat v tom,

Podle čeho Google řadí

Je známa spousta faktorů. Nikdo sice neví úplně přesně, jak moc je které pravidlo důležité a podle čeho Google řadí výsledky hledání (Google drží jako tajemství), ale pár věcí je evidentních.

Budu hledat slovo W. Jak vysoko bude moje stránka A ve výsledcích? Co na to má vliv:

Page Rank

Page Rank je skalární číslo přiřazené každé stránce. Vyjadřuje něco jako věrohodnost nebo důležitost stránky, dosahuje hodnot od nuly do jedné. Google si Page Rank počítá (zjednodušeně řečeno) podle toho, kolik a jak důležitých stránek na tu počítanou stránku odkazuje. Existuje na to vzoreček.

Vzorec PageRanku

Je to trochu matiky, tak to kdyžtak přeskočte, není nutné to chápat detailně. PageRank stránky A označím jako PR(A). Vypočítá se z PageRanků stránek, které na ni odkazují. To jsou stránky T1 až Tn.

PR(A) = (1-d)/m + d * ( PR(T1)/C(T1) + ... + PR(Tn)/C(Tn) )

kde d je dampening faktor (nastavený pravděpodobně na 0,85), m je celkový počet zaindexovaných stránek. C(T) je počet odkazů vedoucích ze stránky T. Jako vstupní hodnoty PR(Ti) se berou hodnoty PageRanku stránek z minulé iterace. Vzoreček po několika iteracích dobře konverguje (tím lépe, čím je nižší d). Hodnoty PageRanku všech stránek se pohybují těsně nad nulou.

Originální dokumentace uvádí vzoreček trochu chybný:
PR(A) = (1-d) + d * (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) je to špatně, chybí tam to m.

A teď česky

Vzorec se dá zjednodušeně přetlumočit tak, že stránka předá část svého PageRanku stránkám, na které odkazuje. Čím víc obsahuje odkazů (hodnota C), tím méně každé stránce předá.

Tím, že stránka obsahuje odkazy, o svůj PR nepřichází. Spíše než o "předávání" bych měl mluvit o "kopírování" nebo "přeposílání" PageRanku. Čím méně má stránka odkazů, tím víc Page Ranku se každým odkazem přeposílá.

PageRank nijak nezávisí na hledaném slově (je to veličina skalární). Page Rank má každá jednotlivá stránka, nikoliv celý web dohromady (site, doména).

Čím má stránka vyšší PageRank, tím bude pravděpodobně výše ve výsledcích. Pozor! Page Rank zdaleka není jediné kritérium pro nalezení stránky v Google. Poslední dobou kolem Page Ranku vypukla na webu doslova hysterie. Page Rank je jistě velmi důležitý, ale jeho význam je podle mého názoru přeceňován.

Jak zjistit Page Rank

Nainstalujte si Google Toolbar, malý prográmek dostupný zdarma na Google (v létě 2003 byla uvolněna druhá verze). Kromě jednodušší práce s hledáním se pomocí Google Toolbar přibližně dozvíte, jak velký PR má právě prohlížená stránka.

Na toolbaru se objevuje měřítko Page Ranku od 0 do 10. Google Toolbar má velmi dobrou nápovědu (maká se na české verzi), ze které se dozvíte podrobnosti. Zejména to, že:

Vyčerpávající článek o Google Toolbar PageRanku jsem napsal pro Lupu.

Jak zvýšit svým stránkám PR

Postarejte se, aby na stránku vedlo co nejvíc odkazů ze stránek, které mají vysoký PR. Jinak to nejde. To se nejsnáze dělá v katalozích. Jakmile ale nemá vyhlédnutá stránka katalogu na toolbaru PR alespoň 4, je otázka, zda má cenu mít na takové stránce odkaz. Dobrý nápad je oslovovat spřízněné weby se žádostí o výměnu odkazů. Čím méně je na zdrojové stránce odkazů, tím je odkaz hodnotnější.

Existují matematické modely, které ukazují, jak se dá vzájemným prolinkováním stránek na určitých stránkách webu koncentrovat PR z jiných stránek. Nejčastěji se doporučuje mít na každé stránce odkaz na domovskou stránku. Je to jedna z mnoha metod a rozhodně není univerzální, někdy je dokonce kontraproduktivní (to když je na hlavní stránce málo hodnotného obsahu).

Jednoduchým výsledkem modelů je to, že by se na stránky mělo dávat co nejméně "odkazů pryč" mířících na cizí stránky ven z webu, aby se na stránkách koncentroval Page Rank. Podle mých výpočtů to ale není zas tak podstatné. Je to zbytečné škudlení. Mnohem lepšího výsledku než odstraněním vnějšího linku se dá dosáhnout přidáním další stránky s hodnotným (nejlépe unikátním) obsahem.

Larry Page, jeden ze zakladatelů GoogleCo to znamená Page Rank (nebo PageRank)

Rank znamená hodnocení. "Page" je příjmení jednoho ze zakladatelů Google (Larry Page a Sergey Brin). Takže Page Rank je to vlastně "Hodnocení pana Page". Často se uvádí výklad Page = angl. stránka, takže Page Rank = stránkový rank. To je špatné vysvětlení.

Těžké začátky stránky na Google

Když je stránka (tedy URL) úplně nová, tak o ní Google neví. Ale stačí, aby se na ni někde objevil odkaz nebo aby někdo stránku navštívil s nainstalovaným Google Toolbarem a Google se o ní tak dozví. V nouzi se dá stránka Googlu i vnutit.

Google robot (Googlebot) si přijde pro obsah stránky. Stránku si stáhne a někde uloží. Asi tak 40 hodin poté se stránka může začít objevovat ve výsledcích. Může, ale nemusí.

Hodně nových stránek se ale dostane do výsledků velmi rychle a jsou hodně nahoře. V tu chvíli si majitel mne ruce a bouchá šampaňské. Chyba.

Efekt Everflux

Everflux je označení pro aktuální databázi nových stránek. Jakmile je stránka nová, zobrazuje se na Google z této databáze. Robot, který stránku nasbíral, bývá označován jako freshbot.

Po pár dnech (tři, čtyři) ale stránka z databáze nových stránek zmizí. V tu chvíli není na Google k nalezení. To je situace, ve které lidé propadají panice. Nepropadejte panice.

Po několika dnech až týdnech (řekněme 12 dnů je tak asi průměr) se nová stránka ve výsledcích opět objeví. Tentokrát už je z hlavního indexu, nasbíral ji jiný robot označovaný jako deepbot. Sice stránka už není tak hodně nahoře jako původně, ale její situace je vcelku stabilní.

Málo zpětných odkazů

Může se ovšem stát, že stránka sice ve výsledcích chvíli byla, ale pak už vypadne a prostě není k nalezení. V takové situaci hodně pomáhá přidání zpětných odkazů, to mám docela vyzkoušené. Zpětné odkazy se shánějí špatně, ale měly by stačit odkazy z jiných vlastních stránek nebo registrace v několika katalozích.

Duplicitní obsah

Dost lidí má naprosto stejný obsah na různých stránkách nebo doménách. Kdyby vyhledávače neuměly rozeznat, že jde o stejný obsah, uživatelům by se to nelíbilo, protože by ve výsledcích dostávali mnoho naprosto stejných stránek. Možná si pamatujete, že se tak ještě nedávno mnoho vyhledávačů chovalo.

Takže vyhledávače mají algoritmy, kterými zjišťují, zda jde o stejný obsah. Dokonce jsou prý schopné poznat, že se stránka liší třeba jen navigací. Ty algoritmy asi nikdo přesně nezná. Pokud vyhledávače duplicitu zjistí, chovají se různě.

Google duplicitní stránky indexuje tak, že si vybere jednu stránku z mnoha stejných a ostatní ignoruje. To je dost rozumné chování. Je na to ale potřeba myslet, když obsah někam kopírujete, protože se vám může stát, že Google zaindexuje zcela jinou stránku, než chcete.

Zásadní doporučení proto zní: nekopírujte obsah zbytečně. Pokud musíte mít obsah na více místech, zvažte použití nějakého přesměrování na jednu stránku, nejlépe přesměrování na straně serveru.

Google počítá každé duplicitní stránce (url) PageRank zvlášť. Zní to logicky, ale je to nepříjemné u výchozích souborů (index, default apod.). Příklad: mám stránku

http://www.doména.cz/

Google ji chápe jako jinou stránku než

http://www.doména.cz/index.html

Z odkazů, které vedou do rootu /, počítá PageRank pro root, z odkazů, které vedou na index, se počít PageRank pro index.html. Co z toho plyne: rozhodněte se, jaké url budete prefereovat a na něj směřujte (a doporučte směřovat) všechny odkazy.

Penalizace

Na základě znalosti vzorečku pro Page Rank dají vytvořit "klikací farmy" (množiny navzájem prolinkovaných stránek s náhodným obsahem). Webmasteři používají ke zmatení vyhledávačů i skrytý text obsahující klíčová slova, neviditelné odkazy a jiné metody. To se Googlu nelíbí, a tak přistoupil k penalizaci takových praktik.

Pravděpodobně to dělají nějakým algoritmem, který podvodné stránky vyhledává. Pracovníci Google navíc sami takové stránky sami vyhledávají. Také se jim dá napovědět. Znáte-li stránku používající nějaké takové nekalé praktiky, můžete ji nabonzovat na stránce Spam report (anglicky). Pokud lidé z Google usoudí, že máte pravdu, podvodnou stránku z indexu vyřadí nebo jí nastaví nějakou jinou penalizaci. Dá se to použít na likvidaci nekalé konkurence :-)

Co Google nevidí

Jsou způsoby, jak zaručit (chtěně či nechtěně), aby na stránku Google nepřišel či ji nebral v úvahu:

  1. nenamířit na stránku žádný odkaz
  2. pomocí meta tagů robots nebo pomocí souboru robots.txt zakázat indexování
  3. udělat ji nějak zakódovanou nebo v blbém formátu (prezentace Powerpointu fakt není to pravé)
  4. dát do adresy za otazník proměnnou search=, find= nebo phpssesid=, např. http://cokoliv.cz/page.php?search=1235 Google pravděpodobně nezaindexuje, protože to search považuje za výsledky hledání.

Dříve (až do jara 2004) nebral Google v úvahu stránky, které obsahovaly parametr id=. Nyní už je v úvahu bere.

Dále se uvádí, že má Google nerad moc komplikované adresy, které mají za otazníkem příliš mnoho parametrů. Ale nyní (podzim 2003) je indexuje mnohem více než dříve. Na jaře 2004 začal indexovat adresy se třemi parametry.

Proč je Google důležitý

Přes vyhledávání Google chodí na české stránky už asi třetina lidí (psáno na jaře 2003, druhou třetinu zaujímá podle mých měření Seznam) a tento podíl se bude dále zvyšovat.

Google je důležitý nejen protože přes něj hledá strašně moc lidí, ale hlavně tím, že jej všechny vyhledávače budou napodobovat. I kdyby o svojí pozici nejlepšího vyhledávače přišel, jeho nástupci budou mít hodně podobné algoritmy a zásady. Např. nejlepší český vyhledávač Jyxo se částečně inspiruje Googlem a netají se tím.

Co Google umožňuje webmasterům

Znáte to většinou sami. Kromě normálního hledání:

Prohledání jednoho webu

Pro webmastery je právě klíčově důležité prohledávání jedné domény. Dá se tak udělat hledací formulář na vlastní stránky. Jsou dva způsoby:

Kde je registrace: Vše o Google Business Solutions > Google Web Search > Google Free WebSearch.

Odkliká se registrace a pokud si chcete nastavit vzhled výsledků (zejm. barvy), dá se to na Customizable Google Free WebSearch and SiteSearch.

Vizte příklad formuláře hledajícího na stránkách dusan.pc-slany.cz a příklad obarvených výsledků hledání slova "pokus".

Hlavní nevýhodou "googleovského prohledání webu" je to, že když je v adrese webu adresář, např. doména.cz/adresář/, tak Google pochopí jako web to doména.cz, hledá tam všude a na adresář nebere zřetel. Takže když má třeba někdo stránky na Swebu na adrese třeba www.sweb.cz/adresář/, tak má prostě smůlu a googleovský hledací formulář na prohledávání těch stránek použít nemůže, protože by to hledalo na celém www.sweb.cz. (Na prohledávání takového webu se dá použít Atomz.)

Když chcete něco najít na konkrétním cizím webu, nemusíte přes pokročilé hledání. Stačí do normálního hledání napsat třeba:

xhtml site:www.sovavsiti.cz

a bude to hledat informace o xhtml na serveru www.sovavsiti.cz. Nebo

Feynman site:cz

hledá infromace o nejgeniálnější bytosti dvacátého století v doméně cz. Pozor, to není totéž co hledat v češtině. Pozor, za dvojtečkou není mezera.

Hledání na vlastním serveru -- více informací a další možnosti.

Zpětné odkazy

Pokročilé hledání Google umožňuje zjistit, jaké stránky odkazují na tu vaši. Je tam možnost "najít stránky odkazující na stránku:" a místo pro zadání adresy. Nebo se to dá i z normálního hledání zápisem

link:http://ta.adresa.cz

najít stránky odkazující na konkrétní stránku. To je pro autory stránek velice zajímavá informace. Pozor, jsou vypisovány pouze důležité stránky. Pokud na nějakou stránku míří odkaz z nepodstatné stránky (PageRank menší než asi 4), Google ji nevypíše.

Meta tag googlebot

Kromě klasického meta tagu robots akceptuje indexovač Google jeden zvláštní meta tag googlebot

<meta name="googlebot" content="nosnippet,noarchive">

snippet / nosnippet

Vypisovat / nevypisovat úryvky (ukázky) ze stránky. Pokud je nastaven "nosnippet", nevypisuje Google žádné úryvky v textu stránky. Maximálně se jako popisek objeví popisek stránky -- to je obvykle text uvedený v <meta name="Description" content="popis stránek">, ale popisek musí obsahovat všechna hledaná slova.

archive / noarchive

Archivovat / nearchivovat verzi stránek v archivu (neboli cache) Google. Pokud dám noarchive, nedostanete se ke staré verzi mých stránek, pokud ji z webu odstraním. V opačném případě bude mít Google uchovanou kopii mých stránek a i když je z webu odstraním, tak například právě přes Google se na ně dostanu, přestože již fyzicky neexistují.

Yuhů: Osobně doporučuji meta tag googlebot moc nepoužívat. Když se nezadá, tak to Google chápe jako snippet,archive. Takové nastavení umožňuje přesnější vyhledávání (Google si udržuje cache kvůli přesnosti) a je větší šance, že si na to uživatel klikne, když uvidí hledané slovo v kontextu (snippet).

AdWords a AdSense

AdWords je reklamní produkt Google. Zobrazuje reklamní textové odkazy v pravém sloupečku vyhledaných výsledků. Do systému si můžete zadat i svoji reklamu. Stanovíte si klíčová slova, fráze a jazyk. Zvolíte maximální cenu, průměrnou cenu za kliknutí a celkový rozpočet. U málo frekventovaných slov se lze dostat na minimální cenu asi korunu čtyřicet za proklik. Rozhraní je zatím pouze v angličtině, ale lze do něj bez problémů zadávat české reklamy a texty.

Na důležitá klíčová slova má Google větší poptávku než nabídku (prostě nemá prostor), a tak spustil produkt AdSense. Ten umožňuje webmasterům (po registraci do Google) umístit určitý reklamní kód do stránky. Na místě reklamního kódu se bude zobrazovat textová reklama posílaná z Google, tematicky související s obsahem stránky. Jde o tatáž reklamní sdělení, která jsou zadána v AdWords. Pokud si čtenáři stránky na reklamu kliknou, dostává webmaster od Google provizi (a Google si započítá proklik na účet klienta, což je ovšem v pořádku). Výše provize mi není známa.

Každopádně AdSense nefungují pro stránky psané v češtině. Pokud se budete snažit přidat českou stránku do AdSense, tak to nepůjde. (Někteří chytráci si zaregistrují stránku v angličtině a pak si dávají reklamu i na české stránky, ale je to proti pravidlům.) V systému AdWords je totiž zatím příliš málo českých reklamních sdělení, než aby měl Google zájem pouštět je mimo výsledky hledání. Aspoň tak mi to vysvětlila manažerka pro Google in your language.

o tvorbě, údržbě a zlepšování internetových stránek

Návody HTML CSS JavaScript Články Ostatní

Základy Prvky stránek Barvy Provoz webu

Jak psát web píše Yuhů, Dušan Janovský. Kontakt. Poslední aktualizace 16. února 2005.