Pozorování JyxoRanku

Jak vzrůstá význam Jyxa na českém webu (hledá mj. na Atlasu), dal jsem si trochu práce se sledováním JyxoRanku. JyxoRank je k vidění na Jyxo Toolbaru, což je lišta, kterou si můžete nainstalovat do Exploreru. Je dlouho známé, že JyxoRank je číslo od 0 do 255 a Jyxo ho používá jako pomocnou proměnnou při řazení výsledků hledání. Méně už se ví, že podle Jyxo Ranku se řadí odkazy v sekcích na Seznamu a na Atlasu.

Jyxo Rank je většinou dáván do souvislostí s Google Page Rankem. Google Page Ranky existují vlastně dva: skutečný a odvozený, který je vidět na Google Toolbaru. O GPR zobrazovaném na toolbaru se traduje, že je logaritmicky odvozen od skutečného Page Ranku. Zatímco skutečný PageRank (jehož vzorec výpočtu je znám) dosahuje hodnot od nuly do jedné (většinou jsou to skoro nuly), zobrazovaný Page Rank se počítá od nuly do deseti.

O Jyxo Ranku se traduje, že zobrazovaný JR se od skutečného neliší. Má to určitou logiku. Číslo od nuly do 255 se totiž dá zapsat osmi bity, a tak se ušetří místo na disku. Zatím je to všechno jasné, nyní přijdou moje postřehy.

Zaprvé jsem si všimnul, že hodnoty JyxoRanku skáčou u některých webů jako hadr na holi. Například moje stránky Jak psát web měly na začátku minulého týdne JR 142. V půlce týdne klesl JR na 121 a v pátek ukazoval toolbar 168. Dá se to pozorovat u mnoha webů a komentoval to už ConBlog (Google cache). Martin Kopta vysvětloval plynulostí neustálého přepočtu. To je patrně správné vysvětlení, ale nic nemění na faktu, že JyxoRank je nestabilní a možná ani po mnoha iteracích nekonverguje. Z toho jsem usoudil, že vzorec Jyxa v sobě pravděpodobně neobsahuje dampening faktor, který z podstatné části zajišťuje konvergenci Google Page Ranku.

Druhé věci, které jsem si všimnul, je řazení sekcí katalogu Atlas.cz a odkazových sekcí Seznamu. Ačkoli je deklarováno, že jsou řazeny podle JyxoRanku, letmým proklikáváním sekcí se dá zjistit, že to řazení je jenom přibližné. Usuzuji z toho, že se sekce řadí podle dosti neaktuálního JyxoRanku.

Dále jsem studoval rozdělení JyxoRanku uvnitř jednotlivých domén. Téměř vždy má hlavní stránka JyxoRank z celého webu nejvyšší. Pro podstránku, která není odkazovaná z jiných domén, platí pravidlo: ze stránek, které na podstránku odkazují, se vybere ta s nejvyším JyxoRankem a vydělí se třemi (bez ohledu na to, kolik ze stránky vede odkazů). Kdyby tedy například hlavní stránka měla JR = 99, budou mít podstránky JR = 33. Z nich odkazované podstránky (ale neodkazované z hlavní stránky) budou mít JR = 11.

Po malém experimentu jsem zjistil, že algoritmus nevybírá nejvyšší JyxoRank jenom z domény, ale z celého serveru s unikátní IP adresou, přesně jak to programátor Jyxa Michal Illich naznačoval na Lupě. Když jsem totiž na hlavní stránku Jak psát web umístil testovací odkazy na stránky v jiné doméně, ale na témže serveru, třetiny se nesčítaly (nezvyšovaly), ale byla započítána pouze třetina JR nejlepší stránky ze serveru.

Trochu jiná je situace, pokud na podstránku vede odkaz i z nějaké cizí stránky (serveru). Pak se ty třetiny nějak "sčítají" . Nevím přesně jak. Každopádně výsledek je větší než třetina JR hlavní stránky a menší, než součet třetiny JR hlavní stránky a třetiny JR cizí stránky.

Tak a teď už budu psát spekulace :-) Je docela obtížné vymyslet vzoreček, který by zmíněné chování simuloval. Obzvláště pokud výsledné JR nesmí být větší než 255. To, že se JyxoRank na jednom webu vyskytuje skoro vždy v násobcích tří, téměř zaručuje, že vzorec je nějakým způsobem lineární nebo přinejhorším polynomální. Veškeré pokusy naroubovat na to logaritmy, exponenciálu, arcusTangens (je hezky omezený shora) nebo hyperbolický průběh selhaly právě proto, že z toho nikdy nevypadla trojka ani jiná konstanta. Nakonec jsem dospěl ke vzorci součtu čtverců. Pravděpodobně je chybný, ale berte ho jako moji teorii JyxoRanku:

JRstránky = SQRT( Suma( ( JRodkazujících stránek )^2 ) * kmax

Odkazující stránky jsou nafiltrovány tak, aby se z každého serveru počítala jenom jedna. Koeficient kmax je v několika cyklech konstantní. Momentálně se zrovna rovná přibližně jedné třetině (od toho ta trojka). Pravděpodobně je vypočítáván na základě hlavní stránky Seznamu:

kmax = 255 / ( SQRT( Suma( ( JRstránek odkazujících na Seznam )^2 ) )

Jinak řečeno je to koeficient, který lineárně všechno přepočítává tak, aby maximální stránka měla 255. Proč myslím, že je to počítáno podle Seznamu: protože Seznam.cz měl zatím vždy Jyxo Rank = 255, ačkoli to není nejodkazovanější česká stránka. Tou je buďto Toplist.cz, nebo CNW Counter, kterým Jyxo ukazuje také 255. Je málo pravděpodobné, aby měly tři stránky vypočítaný stejný rank. Toplistu a CNW Counteru pravděpodobně vychází JyxoRank vyšší než 255, ale je uměle srážen na 255.

Prosím neberte ten vzoreček moc vážně. Je to spíše výzva k přemýšlení. Obzvláště tápu v té odmocnině a druhé mocnině, prostě jsem od boku zkusil dvě inverzní funkce, u kterých mi to hezky vyšlo. Také se mi nelíbí, že by důležitý koeficient zrovna "náhodou" byl roven skoro přesně jedné třetině. Navíc je možné, že algoritmus se čas od času mění.

Reakce:

Článek Jyxo Rank a jiné ranky (Marek Horák, Sluníčko.net) uvádí, že hodně vařím z vody.

Příspěvek Pro koho mají psát bloggeři na Bloku Filipa Rožánka mě přiměl napsat Poslání bloggerů a posléze i vysvětlení K čemu je Jyxorank (oboje na tomto blogu).

Ono se řekne optimalizujte pro Jyxo (Internetový oříšek), příklad pozorování nestability.

Aktualizace 2004: je již evidentní, že jsem správný vzorec JyxoRanku neuhodl. A možná se i výpočet od doby publikování změnil.

 

Publikováno 13. září 2003

 

o tvorbě, údržbě a zlepšování internetových stránek

Návody HTML CSS JavaScript Články Ostatní

Články Katalog zdrojů Weblog

Jak psát web píše Yuhů, Dušan Janovský. Kontakt. Poslední aktualizace 13. února 2005.