SEO optimalizácia pre vyhľadávače a PPC reklama
Optimalizácia web stránok a tvorba reklamných stratégií

+421 915 82 82 31 info@optimalizaciaseo.sk
SEO Blog

Indexácia dokumentu vyhľadávačom

Článok je skôr popis ako návod pre začínajúcich študentov venujúcich sa vyhľadávaniu informácií (Information Retrieval) a pre marketérov vyhľadávania (Search Engine Marketer). Poslaním článku je oboznámiť marketérov vyhľadávania a SEO profesionálov so základmi pojmami a technikami spracovania informácii vyhľadávačmi.

Indexácia

Počas indexácie je dokument pripravený pre IR systém, čo znamená pripravenie čistého dokumentu bez akýchkoľvek zbytočností ako pri web stránkach napríklad Flash. Zjednodušene povedané ide o transformáciu dokumentu do textovej podoby. K transformácii dokumentu sa používajú:

  • knižnice alebo regulárne výrazy programovacích jazykov
  • parsery(HTML, XML, …)
  • zoznam stop slov
  • rôzne iné filtre

Linearizácia

Linearizácia dokumentu je proces, ktorý daný dokument redukuje do “prúdu” pojmov.

  • Odstránenie značkovania a formátu (štruktúrovania) je proces počas, ktorého sa odstránia značky a štruktúra charakteristickej pre daný dokument. Ako príklad poslúži dokument HTML, pri ktorom sa odstránia všetky značky(tagy) spolu s ich atribútmi, komentáre, scripty, štýly. V prípade vyhľadávačov sa ešte zvlášť zaznamenajú dôležitejšie texty pred ich odstránením ako obsah TITLE, META a rôznych iných, ktoré používa ich algoritmus k vyhodnocovaniu.
  • Tokenizácia je proces, pri ktorom sa celý text transformuje na malé písmená abecedy, odstránia bodky a čiarky. Závislosti od systému sas znak ako pomlčka zachová alebo zamení za medzeru.
  • Po procese linearizácie ostane len tok slov.

Filtrácia

Ide o proces rozhodovania, kde sa vyberú pojmy, ktoré najlepšie popisujú daný obsah dokumentu. Vybrané pojmy sa potom použijú:

  1. ako popis pre dokument
  2. na odlíšenie od ostatných kolekcií dokumentov

Čím viac dokumentov obsahuje rovnaký pojem, tým menej sa považuje za dôležitý pre popis dokumentu(informáciu tvoriaci) ako napríklad a, je, sú, ktoré spadajú do kategórie stop slov.

Odzrňovanie (z anglického Stemming)

Je proces redukovania pojmov k ich základnej, koreňovej podobe ako napríklad “počítač”, “počítanie”, “počítadlo” sa redukuje na “počíta”. Nie každý systém používa odzrňovač (stemmer). Napríklad pre angličtinu sa používa Martin Porterov Stemmer algoritmus. Napríklad preto Google pri zadaní slova počítač medzi výsledky zaradí aj pojem počítače

Vǎhovanie (z anglického Weighting)

Je všeobecne posledný proces vyhľadávania informácií, pri ktorom sa pojmov priradia váhy podľa daného váhovacieho modelu čo pozostáva z lokálneho alebo globálneho váhovania. Ak je použité lokálne váhovanie, tak ako váha sa zvyčajne priraďuje frekvencia opakovania pojmu.

Napísať komentár