Vyhľadávače a katalógy
Bezhlavé používanie internetu najmä pri amatérskych ťuknutiach môže niekedy spôsobiť nemálo prebdených hodín pred počítačom. Hľadanie príslušnej informácie sa zmení na komplikované blúdenie po neznámych nič nehovoriacich adresách. Stretli ste však malého robota, ktorý keď mu zrozumiteľne rozpoviete kľúčové slová a stlačíte na kovovom hrudi správne gombíky Vás zavedie tam, kam ste sa dostať určite chceli. Príjemný výlet!
Čo sú to vlastne vyhľadávače? Servery, ktoré disponujú obrovskou databázou stránok s informáciami o tom, ktorá stránka internetu obsahuje aké slovo. Nazývame ich fulltextovými, pretože vedia prehľadávať celé texty stránok. Ich „pomocníkmi“ sú tzv. roboti, boti alebo crawleri, programy, ktoré zhromažďujú informácie. Ako pracujú vyhladávače? V troch kolách: 1.Roboti (crawleri) pozbierajú informácie. Väčšinou začnú v nejakom katalógu. Nájdu odkaz a sledujú ho. Stránku si stiahnu pre zaindexovanie a zároveň hľadajú ďalšie odkazy, ktoré však sledujú iba do určitej miery. Prezreté stránky si zapamätajú, aby tam znova nemuseli. 2.Informácie sa spracujú do databáze (tzv. indexovanie). Vyhľadávače si najčastejšie vypisujú všetky slová, spočíta ich váhu (dôležitosť) a dáva ich do relácie s adresou stránky.
3.Nakoniec sa to sprístupní návštevníkom Váha (dôležitosť) Ako sa slová „vážia“? Ako sa váha počíta? Ako sa spozná, že sa jedná o slovo pre stránku charakteristické? V prvom rade podľa toho, či sa slovo vôbec vyskytuje v titulku stránky, v kľúčových slovách, v popisu a v nadpisoch. Samozrejme každý vyhľadávač však ráta inak Kľúčové slová Veľký význam sa pripisuje kľúčovým slovám (keywords) a taktiež popisu (description). Zapisujú sa ako meta tagy. Keywords by mal byť zoznam slov charakteristických pre danú stránku. Page Rank Ďalšou metódou je tzv. Page Rank (PR) používaný mnohými vyhľadávačmi. PR vyjadruje niečo ako dôveryhodnosť alebo dôležitosť stránky.
A čo sú katalógy? Majú početnú databázu odkazov, usporiadanú do stromu. Umožňujú prechádzanie stromovou štruktúrou sekcií podľa odboru, vyhľadávanie a prezeranie odkazov podľa určitého slova alebo pridávanie odkazov do databázy. Tak isto ako vyhľadávačov (Google) aj katalógových serverov existuje mnoho (YAHOO!). Google
V roku 1996 dvaja študenti Univerzity v Standforde, Larry Page a Sergey Brin zostrojili teóriu systému – vyhladávača, ktorý by zakladal na matematických analýzach konekcií webstránok. Spočiatku niesol názov BackRub, pretože podľa počtov nájdených adries (ktoré sa vzťahovali na hľadanú stránku) prisudzoval dôležitosť danej stránke. Vďaka jednoduchému spôsobu vyhľadávania a relevantným výsledkom si Google získal dôveru mnohých používateľov. Jednou z jeho vymožeností je triediaci algoritmus zvaný Page Rank (podľa Lawrenca Pagea), slúžiaci na vytvorenie najvhodnejšieho poradia pre klienta. Hodnota Page Rank sa pohybuje v rámci stupnice Toolbar Google od 1 po 10. Ak sa na stránku viaže viac (podľa Google-u) hodnotných adries, samotnej stránke pridelí viac bodov. Názov je utvorený z pôvodného slova googol, ktoré vyjadruje najvyššie číslo, takto sa odvolávajúc na fakt, že jeho obsah tvorí nespočetné množstvo informácií.
Hľadanie v Google
·ALEBO - OR ·-slovo - výsledok nebude obsahovať dané slovo ·~slovo - hľadanie nie len samotného slova ale taktiež jeho synonyma ·“slovo1 slovo2 slovo3“- bude hľadať slová výlučne v takomto poradí ·* - používame namiesto slova, keď máme viac ako 32 výrazov ·intitle:slovo - bude hľadať slovíčko v názvoch adries ·allintitle:slovo1 slovo2 - všetky slová vyhľadá v názvoch ·inurl:slovo.php - môžeme prehľadať celý URL stránky, najmä pri hľadaní súborov s konkrétnymi názvami ·allinurl:slovo.php slovo - všetky slová hľadá v URL stránky ·site:slovo.sk - podobná možnosť ako inurl, výber je však zúžený na danú doménu ·intext:slovo - vyhľadáva výlučne v texte stránky ·allintext:slovo1 slovo2 - všetky slová hľadá výlučne v texte ·slovo filetype:pdf – vyhľadá konkrétne typy súborov (doc,ppt,exl,asp,php,cgi,html,htm,xml,rss,pdf,shtml,xhtml,dos,gif,png,pic) ·related:slovo.sk - snaží sa ponúknuť stránky s podobným tematickým zameraním
AltaVista AltaVista (v preklade „pohľad zhora“), skonštruovaný v jeseni 1995 expertmi Výskumného laboratória Výrobcov mikropočítačových systémov v kalifornskej Pasadene, predstavuje jeden z najvýznamnejších svetových rešeršných serverov (oproti iným vyhľadáva pri každom aj v metainformáciách aj fulltextovo). Ponúka dve možnosti vyhľadávania súborov: v rámci celej sieti - podľa rôznych parametrov (tzv. Advanced Web Search), akými sú napr. formát, časová súslednosť alebo krajina pôvodu, a taktiež v zaindexovaných položkách v kategóriách: Images (podľa formátu súboru, rozlíšenia obrazu, zdroja), MP3/Audio (formát, dĺžka trvania), Video (dĺžka a formát súboru), Directory (ďalšie kategórie rešerše podľa tém, ako napr. Umenie, Obchod, Veda a technika atď.), News (vlastný spravodajský server pod AltaVistou). Značnú invenciu predstavuje technológia viacjazyčného výskumu, zahrňujúca čínsky, japonský i kórejský jazyk. Translačná služba Babel Fish umožňuje preklad jednotlivých slov, textových blokov aj internetových stránok z aj do anglického, španielskeho, francúzskeho, nemeckého, talianskeho, ruského, holandského, gréckeho a portugalského jazyka. Hľadanie v AltaVista Základné hľadanie (basic) ·pri hľadaní mien (tzv. pri hľadaní viacerých slov nasledujúcich za sebou) s veľkými písmenami sú potrebné úvodzovky, bez nich na verzálkach nezáleží ·nepoužívajú sa slová AND, OR, NEAR, používa sa + pred slovo, ktoré stránka musí obsahovať a – pred slovo, ktoré stránka nesmie obsahovať Pokročilé vyhľadávanie (advanced) ·zápis slov za sebou bez úvodzoviek, hľadá celé slovné spojenie ·slová sa spojujú s AND, OR, NEAR, AND NOT a používajú sa aj zátvorky Oba spôsobmi resp. kľúčové slová hľadania ·anchor:slovo - odkaz musí obsahovať dané slovo, teda slovo musí byť medzi a ·domain:domena - hľadá sa len v danej doméne ·host:adresa serveru - hľadá sa len v danom serveru ·image:názov obrázku - hľadá stránky, ktoré obsahujú obrázok ·like:adresa - hľadá stránky súvisiace s daným odkazom ·link:adresa - hľadá stránky, ktoré odkazujú na danú adresu ·title:slovo - titulok musí obsahovať dané slovo ·text:slovo – hľadá stránky, kde sa nachádza slovo kdekoľvek v dokumentu, * môže nahradiť 1 až 5 písmen, ale až po 3 písmenách
YAHOO! YAHOO! je obsiahlym internetovým portálom a katalógom zároveň. Založený v januári 1994 dvoma ambicióznymi študentmi Univerzity v Stanforde, Davidom Filom a Jerrym Yangom. Prvotné YAHOO! nieslo meno „Akebono“, neskôr premenované na „Konishiki“, podľa legendárnych zápasníkov sumo. Konečný názov je akronymom pre „Yet Another Hierarchical Officious Oracle“ („Ďalšie neoficiálne hierarchické zjavenie“), ktorý podľa tvorcov najpresnejšie uvádza zovšeobecnenú definíciu systému t.j. „drzý, neskazený, nezvyklý“. V marci 1995 sa s pomocnou rukou firmy Sequoia Capital sformovala akciová spoločnosť a o mesiac sa rozbehla zo vstupnej investície dvoch miliónov dolárov. V súčasnosti je YAHOO! Inc. vedúcou internetovou komunikačnou, obchodnou a mediálnou sieťou s centrom v meste Sunnyville (California). Podľa prieskumov firmy Alexa Internet disponuje s najväčším počtom návštevníkov na svete. Jeho stránky počas októbra 2004 denne si pozrelo 3 miliardy ľudí.
Kto z koho? Jednoznačne najpresnejšia a najrýchlejšia lokomotíva, plná neskúsených pasažierov, rútiaca sa do zatiaľ neprebádaných zemí patrí korporácií zvanej Google. Konkurencia jej nehádže na koľaje staré železo, pretože sama sa v ňom zatiaľ topí, neznámym dôvodom. Potvrdil to aj nedávny výskum agentúry Keynote Research v ktorom dvetisíc konzumentov internetových „zboží“ testovalo piatich velikánov z brandže. Z cestujúcich firmy Google ostalo verných 92 percent, kým YAHOO! si vedelo udržať len 72 percent. V kategórii komplexného vyhľadávania však Google stratil svoju vedúcu pozíciu. Prekážky tvorili otázky typu aká je priemerná úmrtnosť určitej demografickej skupiny, z akých súčiastok sa skladá vybraný notebook alebo ako znie text istej piesne. Najviac prívržencov si aj tak udržal Google. Na nemenovanom diskusnom fóre český internetový fanúšik sa sťažuje: „Asi nejvíc mě překvapilo, že YAHOO! umí u českých slov hledaných bez dirakritiky doplnit čárky. Háčky a kroužky ne. Takže třeba když hledám "kava", najde mi "káva", ale když hledám "sunka", šunku nenajde“. Našťastie sa náš svet zdokonaľuje zo dňa na deň, držme palce, aby sa šunka vždy a pri každom objavila na tom správnom mieste.
|