Kontrola indexace stránek

SEO  |  4.6.2016

Indexace stránek je základ jakéhokoli úspěchu v SEO. Pokud vyhledávače o URL neví, nemůže ji ani používat v rámci výsledků vyhledávání. Často se stane, že vyhledávače některé stránky nebo segmenty webu neindexují. Pomocí fulltext index checkeru si může uživatel vložit ke kontrole dataset URL, zjistit, které z nich URL nejsou indexované a najít tak příčinu problémů.
Krok 1

Vložení URL, u kterých chce uživatel ověřit, zda jsou zaindexované

K vložení dat uživatel použije sekci URL Minerů, kam importuje dataset URL jednou z metod importu.

Ukázka vložení URL skrze clipboard v sekci URL Minerů

Report je dobré si pojmenovat kliknutím do pole Název datasetu tak, aby byl jednoduše identifikovatelný. V případě, že si uživatel chce vložený dataset uložit k pozdějšímu použití pro jiné účely, zaškrtne po změně názvu checkbox Uložit dataset.

Ukázka uložení datasetu

Stiskem tohoto tlačítka se poté uživatel dostává na výběr minerů.

Krok 2

Výběr minerů a získání dat

V sekci výběru minerů uživatel zvolí Fulltext Index Checker, což je miner, který se dotazuje na dané URL do vyhledávače ve spojení s operátorem info:, kterým kontroluje, zda je URL zaindexovaná a jestli vyhledávač na výstupu vrací stejnou URL, jako byla vložená (kontrola kanonizace,...).

Ukázka výběru Fulltext Index Checkeru

Uživatel poté stiskne tlačítko Získat data, které jej přesune do sekce zpracování dat. Podle objemu vstupních dat, se podklady zpracují na pozadí a po dokončení odešlou na email uživatele.

Ukázka výstupu

Popis sloupců

Detekce, zda je URL vyhledávačem indexována. Navrací buď TRUE (indexována) nebo FALSE (není indexována)
List: Data
Keyword/URLURL, jejíž indexace se kontrolovala
Google Index
URL in resultsInformace o tom, jaká URL při zadání operátoru info: byla vyhledávačem navrácena
Same as inputPorovnání, zda URL na výstupu vyhledávače je stejná, jako na vstupu. Může sloužit k identifikaci funkčnosti kanonizace a mnohé další.
Seznam.cz IndexDetekce, zda je URL vyhledávačem indexována. Navrací buď TRUE (indexována) nebo FALSE (není indexována)
Seznam.cz URL in resultsInformace o tom, jaká URL při zadání operátoru info: byla vyhledávačem navrácena
Seznam.cz Same as inputPorovnání, zda URL na výstupu vyhledávače je stejná, jako na vstupu. Může sloužit k identifikaci funkčnosti kanonizace a mnohé další.
Krok 3

Analýza výstupu

Kontrola neindexovaných stránek

Ve výstupu by měl uživatele zajímat primárně sloupec Google Index / Seznam Index, který indikuje, zda je daná URL indexována v daném vyhledávači (příznak TRUE/FALSE). Korektním postupem je vyfiltrovat si seznam neindexovaných stránek a na nich zjišťovat, proč se v indexu vyhledávačů neobjevují a jak by se taková situace dala změnit.

Kontrola kanonizace

Mohou nastat speciální případy, kdy se na výstupu, za použití operátoru link:, objeví jiná URL, než byla vložena. Jde o příznak toho, že vyhledávač o dané URL ví, ale ve výsledcích vyhledávání používá nějakou její kanonickou URL. K detekci těchto URL slouží sloupec Same as input, který vrací buď TRUE v případě, že je URL na výstupu shodná s vloženou nebo FALSE pokud ne.

Výstup poté může uživatel analyzovat pomocí nástrojů, které umí pracovat s XSLX výstupy. Pro námi doporučované naleznete návody a postupy analýzy níže:

Excel návodOdkaz ke stažení nástroje
OpenRefine návodOdkaz ke stažení nástroje
Tableau Public návodOdkaz ke stažení nástroje

Příklady použití v praxi

Níže naleznete postupy, které se s pomocí tohoto mineru dají aplikovat v praxi:

Kontrola indexace webu, identifikace a řešení problémů

Nejčastějším použitím mineru bude jeho využití při kontrole indexace celé struktury. To udělá uživatel pomocí volby vložení celé sitemap do Marketing Mineru (viz. předchozí návody) a zaškrtnutím mineru Fulltext index checker. Po získání dat je třeba výstup analyzovat a získat z něj přehled kategorií a typů stránek v hierarchii, které se neindexují a zjistit.

K tomu, abychom dokázali určit kritická místa indexace, je potřeba výstupní data analyzovat, což si v tomto případě vyzkoušíme v nástroji OpenRefine. Výstupní data je nejprve potřeba vzít a importovat vytvořit z nich projekt v OpenRefine. To uděláme tak, že soubor s výstupem z Marketing Mineru vložíme v sekci Create Project a vytvoříme z něj projekt. V druhém kroku je potřeba zvolit list, ze kterého má OpenRefine brát data, tedy list Data. Nastavení před vytvoření projektu tedy může vypadat následovně:

Ukázka jak může vypadat projekt v OpenRefine před založením

Ukázkový zdroj dat si může uživatel stáhnout na:
https://www.dropbox.com/s/t2idn6mfkkqpofi/Podstavec.cz%20kontrola%20indexace.xlsx?dl=0

Po založení projektu se uživatel zaměří na analýzu kritických míst indexace. Nejprve je třeba ukázat si, jak si můžeme vyfiltrovat URL, které nejsou indexované jedním nebo druhým vyhledávačem. Toho docílíme pomocí textového facetu (shlukování slov na základě shody buněk) nad určitým sloupcem, který vytvoří v levé části projektu přehled o indexovanosti stránek v daném vyhledávači.

Ukázka použití Text Facetu v nástroji OpenRefine

Na obrázku výše je vidět, že facet byl vytvořen nad sloupcem Google index a že 118 URL je indexovaných vyhledávačem Google a 11 není. Kliknutím na příslušnou položku facetu mohu zkoumat o jaké jde URL.

Identifikace problémových sekcí

Výše uvedený postup lze zvládnout v jakémkoli nástroji pro práci s tabulkami, například v Excelu. OpenRefine byl použit primárně pro jeho efektivní možnost práce s facety, díky které může uživatel zkoumat sekční zařazení neindexovaných stránek. Dalším krokem je proto rozdělení URL na kategorie a sekce.

Nejprve je potřeba odseknout doménu od URL, aby se uživateli zbytečně nepletla do výstupů. To udělá tak, že nad sloupcem URL zvolí Edit cells -> Transform a do tranformačního pole vloží následující GREL:

value.replace("http://www.domena.tld/", "")
Ukázka použití transformace k odstranění domény z buněk

Tedy ve výše uvedeném příkladě value.replace("http://www.podstavec.cz/","") a potvrdí. Tato změna odřízne z každé URL ve sloupci doménu.

Uživatel si poté pomocí textového facetu vyfiltruje neindexované stránky jednoho z vyhledávačů a po filtraci dat se může pustit do analýzy neindexovaných vzorů stránek. To udělá tak, že nad sloupcem s URL zvolí Facet -> Custom Text Facet, kam vloží následující GREL:

value.split("[SEPARÁTOR]")

Kde místo [SEPARÁTOR] uvede separátor URL (pokud v nich nějaký existuje). V případě webu podstavec.cz je to například lomítko, proto výsledný GREL k uvedenému příkladu bude value.split("/"). Podle separátoru OpenRefine rozseká URL na několik fragmentů a poté spočte jejich celkový výskyt ve vyfiltrovaném pohledu. Ukáže tedy uživateli, jaké sekce/kategorie mají problémy s indexací ve vyhledávačích (samozřejmě pouze v případě, že uživatel á v danou chvíli vyfiltrované pouze URL, které neindexuje jeden z vyhledávačů). Separátorem může být cokoli. Často jde o následující separátory:

  • ?
  • &
  • /
  • /category/

Výstupem výše uvedeného příkladu facetu za pomocí separátoru "/" byla následující tabulka (seřazeno dle počtu výskytů sestupně):

author9
%C5%A1t%C3%ADtky8
filip-podstavec8
page7
21

Z výše uvedené tabulky je vidět, že se v URL nejčastěji vyskytuje fragment author, poté %C5%A1t%C3%ADtky (encoded verze "štítky") a filip-podstavec. Problém tedy bude primárně v autorské sekci a sekci štítků. Po kliknutí na segment facet se může uživatel přímo podívat o jaké jde URL.

Po krátké analýze příkladů výše uvedených bylo nalezen problém. V sekci /author/ šlo o direktivu pro roboty noindex, což je otázka, zda je v případě těchto stránek správně. V případě štítků byl problém pouze na straně Seznamu, který si asi neumí poradit s URL s diakritikou nebo mu vadí duplicitní obsah článků na nich.

K získání kategorizace nelze vždy použít fragmenty v URL. Další výhodou OpenRefine je proto funkce Edit column -> Add column by fetching URL, kterou si může uživatel stáhnout zdrojový ód vložených URL a z něj vyparsovat například drobečkovou navigaci nebo jiný prvek, který určí, o jaký typ stránky jde. Návod jak na to zde:

Kontrola kanonizace a upřednostňované verze webu

Marketing Miner kontroluje URL ve vyhledávačích za pomoci operátoru info:. Ten ale ve specifických případech nemusí vrátit přímo danou URL, ale její kanonickou obdobu. Příkladem může být:

V prvním případě například vrátí Google na dotaz info úplně jinou URL. V případě druhém zase její variantu v HTTPS. To znamená, že danou URL indexuje, ale preferuje její kanonickou nebo přesměrovanou verzi, kterou vrátí v indexu.

Ke kontrole těchto případů je v Marketing Mineru možnost zaškrtnout po zaškrtnutí Fulltext Index Checkeru tlačítko Kontrola výst. URL. V takovém případě nástroj rovnou i zkontroluje, jaká URL byla na výstupu vyhledávače a vrátí informaci o tom, zda se shoduje se vstupem.

Ukázka výstupu analýzy výstupu Fulltext Index Checkeru

Ve výše uvedeném výstupu z mineru vidím, že na vstupu byly dvě výše uvedené URL. Sloupce Google Index a Seznam Index vrací uživateli informaci o tom, zda je daná URL indexovaná (tedy na výstupu vůbec něco bylo). Sloupce Same as input analyzují, zda je výstup vyhledávače stejný jako vstup nebo zda vyhledávač používá jinou variantu URL. A ve sloupci URL in results je případně vidět jakou.

Pomocí toho může uživatel jednoduše analyzovat, jestli u některých URL nepoužívá vyhledávač jinou verzi URL než by měl nebo naopak zkontrolovat efektivitu používaných canonical atributů.

Další články

Že ses ještě nerozhodl?

Nevadí, můžeš si nás zdarma a jednoduše otestovat.