Hledání na vlastním serveru

Cizí vyhledávač pro moje stránky - Google - Jyxo - Atomz - A další - Vlastní řešení vyhledávání

Možnosti, jak prohledávat vlastní stránky:

Cizí vyhledávač pro moje stránky

Jak to funguje:

Možná to vysvětluju moc složitě. Lepší budou příklady. Ukážu, jak pro prohledávání vlastních stránek nasadit Google, Jyxo nebo Atomz, což jsou varianty, které se běžně vídají. Pravděpodobně by se daly využít i jiné vyhledávače, ale ještě nikde jsem to neviděl, takže to asi nebude tak výhodné.

Google

Prohledávat vlastní stránky pomocí Google se dá v tom případě, že stránky zaplňují celou doménu. Mám-li například adresu stránek www.sweb.cz/yuhu/, tak ty Googlem prohledávat nemůžu, protože by mi prohledával celý www.sweb.cz a ne jenom to /yuhu/. (Sice na Google píšou, že řešení tohohle problému se má hledat ve FAQ, ale nic tam není. V takovém případě je nutno nasadit Atomz.) Aby Google něco na mých stránkách našel, musejí ty stránky být také trošku starší a musejí na ně vést odkazy z nějakých důležitých stránek, aby je Google vůbec znal.

Úplně nejjednodušší je udělat prostě parazitní formulář googlovského pokročilého hledání, například z tohoto dotazu:

http://www.google.com/search?as_q=pokus&as_sitesearch=jakpsatweb.cz&num=10

HTML kód formuláře:

<form action="http://www.google.com/search" target="_blank">
<input type="text" name="as_q" size=20>
<input type="hidden" name="as_sitesearch" value="jakpsatweb.cz">
<input type="hidden" name="num" value="10">
<input type="submit" value="Vyhledat">
</form> 

Bude se hledat na serveru jakpsatweb.cz. Vyhledávání na tomto serveru Googlem:

Když si změníte adresu, bude to prohledávat jiný server.

Obarvení výsledků Google - SiteSearch

Předchozí příklad vracel výsledky v normálním designu Google, modro-bílé. Dá se zařídit, aby to Google vracel v barvách, které si navolíte. Dělá se to na stránce Vše o Google > Search solutions > Free search > Sign me up for free search. Je potřeba zadat svojí doménu a navolit barvy (jdou případně změnit později). Do výsledků se dá přidat i vlastní logo. Google vzápětí poskytne kód formuláře (hodně prasáckej), který se po prostě vloží do stránky, ale je lepší ho vyčistit na něco takového:

<form action="http://www.google.com/custom">
<input type="text" name="q" size="31">
<input type="submit" value="Vyhledat Googlem na tomto webu">
<input type="hidden" name="cof" value="GIMP:#666666;T:black;LW:131;ALC:red;L:http://www.jakpsatweb.cz/images/jakpw.gif;GFNT:#44AA66;LC:#333366;LH:88;BGC:white;AH:center;VLC:#3344bb;GL:1;S:http://www.jakpsatweb.cz;GALT:#333366;AWFID:cd3b0da9086e6693;">
<input type="hidden" name="domains" value="jakpsatweb.cz">
<input type="hidden" name="sitesearch" value="jakpsatweb.cz">
</form>

Vyzkoušejte:

Ten šílený řádek name="cof" s tím mořem parametrů je pravděpodobně nastavení barev výsledku. Nehrál jsem si s tím, takže si nejsem jistý. Kdesi jsem se dočetl, že lze uvést kódování stránky s fomulářem, aby to memrvilo češtinu výsledků: <input type="hidden" name="ie" value="ISO-8859-2">

Výhodou hledání pomocí Google je zejména to, že řadí výsledky podle velmi propracovaných algoritmů (narozdíl od Atomz). Také častěji indexuje stránky, které se často mění. Více o Google.

Google API -- pro pokročilé

Mocnější nástroj než pouze přebarvení výsledků představuje Google API. Jedná se o možnost získávat výsledky hledání z Google v XML formátu. XML je potom možno na straně serveru online zpracovat do vlastních stránek. Takže kdo umíte PHP, tak se do toho můžete dát. Je na to potřeba také API klíč, který můžete získat po registraci do Google.

Pokud se s tím nechcete sami programovat, podívejte se na návod a řešení na stránku http://www.digitalpoint.com/tools/search/ (anglicky, odkaz via Mraveniště).

Websearch v Google AdSense

V rámci programu AdSense nabízí Google účastníkům programu podobnou službu jako je výše zmíněný SiteSearch. Jmenuje se to WebSearch. Naživo jsem to neviděl, ale co jsem se dočetl, tak hlavní výhodou programu (kromě větší přizpůsobitelnosti výsledků) je to, že za klikání na reklamy na stránkách výsledků dostáváte od Google zaplaceno.

Mrkněte na úvod do AdSense. Více na www.google.com/adsense.

Jyxo

Jyxo je asi nejlepší český vyhledávač (psáno 2003). Stejně jako Google umožňuje omezit hledání na doménu. Dělá to pomocí parametru d, který přidává do svého dotazu. Například pro jakpsatweb.cz je dotaz pro hledání slova "pokus":

http://jyxo.cz/search.php?s=pokus&stem=on&d=cz@jakpsatweb.cz

Z toho se dá uplácat jednoduchý formulář:

<form action="http://jyxo.cz/search.php" target="_blank">
Zadej dotaz: <input type="text" name="s">
<input type="hidden" name="stem" value="on"><!-- diakritika zapnuta -->
<input type="hidden" name="d" value="cz@jakpsatweb.cz">
<input type="submit" value="Jyxo hledá na tomto serveru">
</form>

Zadej dotaz:

Takže když přepíšete tu doménu na svojí, tak by to mělo fungovat. Na adrese http://jyxo.cz/doc.php?d=free se dá najít trochu hezčí verze formuláře. Nevím, zda se pomocí Jyxo dá prohledávat i stránka, která má v cestě lomítko a adresář, to jsem nezkoušel. Vlastní barvy a vzhled zatím do Jyxa zapracovat nejde, ale všiml jsem si, že když se napíše parametr look=sova, tak se v záhlaví hledání objeví logo Sovy v síti. Asi se tak Marek Prokop domluvil s autorem Jyxa Michalem Illichem.

Jyxo při hledání bere ohled na tvar českých slov. To je zejména u větších stránek s mnoha texty rozhodující výhoda. Jyxo má podle mých pozorování v českých stránkách větší index než Google, takže je dobrý pro ty stránky, které Google zatím ignoruje.

Atomz

Na serveru Atomz.com se lze zaregistrovat do trial programu, což je zdarma. Atomz potom prohledává moje stránky. Má to spoustu výhod:

A nevýhody:

Příklad formuláře, který hledá na těchto stránkách:

<form action="http://search.atomz.com/search" target="_blank">
<input type="hidden" value="00062d0d-sp00000000" name="sp-a">
<input type="hidden" value="0" name="sp-advanced">
<input type="hidden" value="1" name="sp-w-control">
<input type="hidden" name="sp-k">
<p>Hledání:<br>
<input class="text" name="sp-q" size="20">
<input class="submit" type="submit" value="hledej Atomzem"> </p>
</form>

Ten řetězec 00062d0d-sp00000000 je unikátní pro mou registraci (Atomz ví, že patří k mým stránkám). Při registraci dostanete svůj.

A další

Existují i jiné servery podobné Atomzu. Moc jich neznám. Napište mi prosím svoje zkušenosti s dalšími podobnými službami.

Freefind

Karol Bohm-Klein mi doporučil službu freefind.com:

Pro fulltextové prohledávání svých stránek používám službu freefind (www.freefind.com) - je také plně přizpůsobitelná, fulltextová, indexuje stránky každý den (pokud si to nastavíš). Také nabízí funkční mapu stránek (site map), která se dá také zcela upravit podle chuti. (Doporučil KBK, bylo to slovensky, přepsal jsem to.)

Příklad hledání službou FreeFind.com na tomto webu.

Websearch

O centrumácké službě www.websearch.cz mi napsal Marek a připojil pár heslovitých vlastností:

Nevýhoda: kdo má více jak 500 stránek, musí platit, ale to má málo kdo. V případě služby zdarma chtějí asi formulář se svým designem (lze zredukovat).

Pozn. Yuhů: Websearch jsem netestoval. S výjimkou českého rozhraní mi přijde stejný jako Atomz (leč vlastně dražší).

Morfeo

Milan Kryl udává návod na formulář vyhledávání na vyhledávači Morfeo:

<form action="http://morfeo.centrum.cz/index.php">
Hledat Morfeem na kryl.jikos.cz <input type="text" name="q">
<input type="hidden" name="q_host" value="kryl.jikos.cz">
<input type="submit" name="submit" value="Hledat">
</form>

Vlastní řešení vyhledávání

Na vlastním serveru můžete nainstalovat nějaké již existující vyhledávací řešení, nějaký hledací program. Žádný pořádný neznám, ale jsem si jist, že existují a fungují. Každý takový program má specifické omezení, takže na určitý server se dají nainstalovat jenom některá řešení. Je to dost komplikované a vím o tom málo.

Vlastní hledací řešení doporučuji volit jen na uzavřeném intranetu. Všude jinde se dá nasadit Atomz nebo Google. Jsou firmy, které se zabývají prohledáváním intranetu.

Příkladem existujícího vyhledávacího řešení (které uvádím, protože jsem to narozdíl od jiných viděl fungovat), je hledací FrontPage komponenta. Kdysi jsem se v tom hrabal. Hodně správců serverů se to ale bojí instalovat, protože FrontPage komponenty jsou dost pochybné a potenciálně nebezpečné. Pak také existují komerční řešení serverů se zabudovaným hledáním, je to většinou drahé.

Asi nejlacinější řešení je program Zoom search engine, což je prográmek pro windows. Po spuštění a nastavení prohledávaného adresáře nebo webu dokáže vytvořit vyhledávací index. Ten se může využít na serveru přes PHP či ASP, nebo na lokálu přes javascript. Do padesáti stránek je to zdarma, lepší verze stojí asi 50 dolarů. Po pravdě řečeno je ale řazení výsledků dost ubohé.

Zdatní programátoři si mohou napsat vlastní vyhledávač, třeba napojený na databázi. Ten by měl mít 3 moduly:

Nejjednodušší představitelná databáze má tři tabulky: tabulku slov, tabulku stránek a tabulku propojení, která říká, zda se slovo ve stránce vyskytuje. V praxi bývají databáze řádově mnohem složitější.

Jiný případ nastává, pokud je veškerý obsah serveru generovaný z databáze. Potom není potřeba psát crawler a indexovač, stačí trochu lépe indexovat data a prohledat databázi obsahů. Takhle to běžně dělají internetové obchody, zpravodajské servery a samozřejmě portály.

o tvorbě, údržbě a zlepšování internetových stránek

Návody HTML CSS JavaScript Články Ostatní

Základy Prvky stránek Barvy Provoz webu

Jak psát web píše Yuhů, Dušan Janovský. Kontakt. Poslední aktualizace 14. února 2005.