Kontrola indexácie stránok

Obsah []
Indexáia stránok je základ akéhokoľvek úspechu v SEO. Ak vyhľadávače o URL nevedia, nemôžu ju ani používať v rámci výsledkov vyhľadávania. Často sa stáva, že vyhľadávače niektoré stránky alebo segmenty webu neindexujú. Pomocou fulltext index checkera si môže užívateľ vložiť pre kontrolu dataset URL, zistiť, ktoré z URL nie sú indexované a nájsť tak príčinu problémov.
Krok 1

Vloženie URL, pre ktoré chce užívateľ overiť, či sú zaindexované

Na vloženie dát užívateľ použije sekciu URL Minerov, kam importuje dataset URL jednou z metód importu.

Ukážka vloženia URL cez clipboard v sekcii URL Minerov

Report je dobré si pomenovať kliknutím na pole Názov datasetu tak, aby bol jednoducho identifikovateľný. V prípade, že si užívateľ chce vložený dataset uložiť na neskoršie použitie pre iné účely, zaškrtne po zmene názvu checkbox Uložiť dataset.

Ukážka uloženia datasetu

Stlačením tohto tlačidla sa potom užívateľ dostáva na výber minerov.

Krok 2

Výber minerov a získanie dát

V sekcii výberu minerov užívateľ zvolí Fulltext Index Checker, čo je miner, ktorý sa pýta na dané URL do vyhľadávača v spojení s operátorom info:, ktorým kontroluje, či je URL zaindexovaná a či vyhľadávač na výstupe vracia rovankú URL, ako bola vložená (kontrola kanonizácie,...).

Ukážka výberu Fulltext Index Checkera

Užívateľ potom stlačí tlačidlo Získať dáta, ktoré ho presunie do sekcie spracovania dát. Podľa objemu vstupných dát sa podklady spracujú na pozadí a po dokončení odošlú na email užívateľa.

Ukážka výstupu

Popis stĺpcov

Detekcia, či je URL vyhľadávačom indexovaná. Vracia buď TRUE (indexovaná) alebo FALSE (nie je indexovaná)
List: Dáta
Keyword/URLURL, ktorej indexácia sa kontrolovala
Google Index
URL in resultsInformácia o tom, aká URL pri zadaní operátora info: bola vyhľadávačom vrátená
Same as inputPorovnanie, či URL na výstupe vyhLadávača je rovnaká, ako na vstupe. Môže slúžiť na identifikáciu funkčnosti kanonizácie a mnoho ďalšieho.
Seznam.cz IndexDetekcia, či je URL vyhľadávačom indexovaná. Vracia buď TRUE (indexovaná) alebo FALSE (nie je indexovaná)
Seznam.cz URL in resultsInformácia o tom, aká URL pri zadaní operátora info: bola vyhľadávačom vrátená
Seznam.cz Same as inputPorovnanie, či URL na výstupe vyhľadávača je rovnaká, ako na vstupe. Môže slúžiť na identifikáciu funkčnosti kanonizácie a mnoho ďalšieho.
Krok 3

Analýza výstupu

Kontrola neindexovaných stránok

Vo výstupe by mal užívateľa zaujímať primárne stĺpec Google Index / Seznam Index, ktorý indikuje, či je daná URL indexovaná v danom vyhľadávači (príznak TRUE/FALSE). Korektným postupom je vyfiltrovať si zoznam neindexovaných stránok a na nich zisťovať, prečo sa v indexe vyhľadávačov neobjavujú a ako by sa taká situácia dala zmeniť.

Kontrola kanonizácie

Môžu nastať špeciálne prípady, keď sa na výstupe, za použitia operátora link:, objavia iné URL, než boli vložené. Ide o príznak toho, že vyhľadávač o danej URL vie, ale vo výsledkoch vyhľadávania používa nejakú jej kanonickú URL. K detekcii týchto URL slúži stĺpec Same as input, ktorý vracia buď TRUE v prípade, že je URL na výstupe rovnaká s vloženou alebo FALSE ak nie.

Výstup potom môže užívateľ analyzovať pomocou nástrojov, ktoré vedia pracovať s XSLX výstupmi. Pre nami doporučované nájdete návody a postupy analýzy nižšie:

Excel návodOdkaz na stiahnutie nástroja
OpenRefine návodOdkaz na stiahnutie nástroja
Tableau Public návodOdkaz na stiahnutie nástroja

Príklady použitia v praxi

Nižšie nájdete postupy, ktoré sa pomocou tohto mineru dajú aplikovať v praxi:

Kontrola indexácie webu, identifikácia a riešenie problémov

Najčastejším použitím minera bude jeho využitie pri kontrole indexácie celej štruktúry. To dosiahne užívateľ pomocou voľby vloženia celej sitemap do Marketing Minera (viď predošlé návody) a zaškrtnutím minera Fulltext index checker. Po získaní dát je potrebné výstup analyzovať a získať z neho prehľad kategórií a typov stránok v hierarchii, ktoré sa neindexujú a zistiť prečo.

Na to, aby sme dokázali určiť kritické miesta indexácie, je potrebné výstupné dáta analyzovať, čo si v tomto prípade vyskúšame v nástroji OpenRefine. Výstupné dáta je najskôr treba vziať a importovať a vytvoriť z nich projekt v OpenRefine. To urobíme tak, že súbor s výstupom z Marketing Minera vložíme v sekcii Create Project a vytvoríme z neho projekt. V druhom kroku je potrebné zvoliť list, z ktorého má OpenRefine čerpať dáta, teda list Dáta. Nastavenie pred vytvorením projektu teda môže vypadať nasledovne:

Ukážka ako môže vypadať projekt v OpenRefine pred založením

Ukážkový zdroj dát si môže užívateľ stiahnuť na:
https://www.dropbox.com/s/t2idn6mfkkqpofi/Podstavec.cz%20kontrola%20indexace.xlsx?dl=0

Po založení projektu sa užívateľ zameria na analýzu kritických miest indexácie. Najskôr je treba ukázať si, ako si môžme vyfiltrovať URL, ktoré nie sú indexované jedným alebo druhým vyhľadávačom. To docielime pomocou textového facetu (zhlukovanie slov na základe zhody buniek) nad určitým stĺpcom, ktorý vytvorí v ľavej časti projektu prehľad o indexovanosti stránok v danom vyhľadávači.

Ukážka použitia Text Facetu v nástroji OpenRefine

Na obrázku vyššie je vidieť, že facet bol vytvorený nad stĺpcom Google index a že 118 URL je indexovaných vyhľadávačom Google a 11 nie je. Kliknutím na príslušnú položku facetu možme skúmať o aké ide URL.

Identifikácia problémových sekcií

Vyššie uvedený postup je možné zvládnuť v akomkoľvek nástroji pre prácu s tabulkami, napríklad v Exceli. OpenRefine bol použitý primárne pre jeho efektívnu možnosť práce s facetmi, vďaka ktorej môže užívateľ skúmať sekčné zaradenie neindexovaných stránok. Ďalším krokom je preto rozdelenie URL na kategórie a sekcie.

Najsôr je treba odseknúť doménu od URL, aby sa užívateľovi zbytočne neplietla do výstupov. To urobí tak, že nad stĺpcom URL zvolí Edit cells -> Transform a do tranformačného pola vloží nasledujúci GREL:

value.replace("http://www.domena.tld/", "")
Ukážka použitia transformácie na odstránenie domény z buniek

Teda vo vyššie uvedenom príklade value.replace("http://www.podstavec.cz/","") a potvrdí. Táto zmena odreže z každej URL v stĺpci doménu.

Užívateľ si potom pomocou textového facetu vyfiltruje neindexované stránky jedného z vyhľadávačov a po filtrácii dát sa môže pustiť do analýzy neindexovaných vzorov stránok. To urobí tak, že nad stĺpcom s URL zvolí Facet -> Custom Text Facet, kam vloží nasledujúci GREL:

value.split("[SEPARÁTOR]")

Kde namiesto [SEPARÁTOR] uvedie separátor URL (ak v nich nejaký existuje). V prípade webu podstavec.cz je to napríklad lomka, preto výsledný GREL k uvedenému príkladu bude value.split("/"). Podľa separátora OpenRefine rozseká URL na niekoľko fragmentov a potom spočíta ich celkový výskyt vo vyfiltrovanom pohľade. Ukáže teda užívateľovi, aké sekcie/kategórie majú problémy s indexáciou vo vyhľadávačoch (samozrejme len v prípade, že užívateľ má v danú chvíľu vyfiltrované len URL, ktoré neindexuje jeden z vyhľadávačov). Separátorm môže byť čokoľvek. Často ide o nasledujúce separátory:

  • ?
  • &
  • /
  • /category/

Výstupom vyššie uvedeného príkladu facetu za pomoci separátora "/" bola nasledujúca tabuľka (zoradené podľa počtu výskytov zostupne):

author9
%C5%A1t%C3%ADtky8
filip-podstavec8
page7
21

Z vyššie uvedenej tabuľky je vidieť, že sa v URL najčastejšie vyskytuje fragment author, potom %C5%A1t%C3%ADtky (encoded verzia "štítky") a filip-podstavec. Problém teda bude primárne v autorskej sekcii a sekcii štítkov. Po kliknutí na segment facet sa môže užívateľ priamo pozrieť o aké ide URL.

Po krátkej analýze príkladov vyššie uvedených bol nájdený problém. V sekcii /author/ išlo o direktívu pre roboty noindex, čo je otázka, či je v prípade týchto stránok správne. V prípade štítkov bol problém len na strane Seznamu, ktorý si asi nevie poradiť s URL s diakritikou alebo mu vadí duplicitný obsah článkov na nich.

Na získanie kategorizácie nie je možné vždy použiť fragmenty v URL. Ďalšou výhodou OpenRefine je preto funkcia Edit column -> Add column by fetching URL, ktorou si môže užívateľ stiahnuť zdrojový kód vložených URL a z neho vyparsovať napríklad omrvinkovou navigáciou alebo iný prvok, ktorý určí, o aký typ stránky ide. Návod ako na to tu:

Kontrola kanonizácie a uprednostňované verzie webu

Marketing Miner kontroluje URL vo vyhľadávačoch za pomoci operátora info:. Ten ale v špecifických prípadoch nemusí vrátiť priamo danú URL, ale jej kanonickú obdobu. Príkladom môže byť:

V prvnom prípade napríklad vráti Google na otázku info úplne inú URL. V prípade druhom zasa jej variantu v HTTPS. To znamená, že danú URL indexuje, ale preferuje jej kanonickú alebo presmerovanú verziu, ktorú vráti v indexe.

Ku kontrole týchto prípadov je v Marketing Mineri možnosť zaškrtnúť po zaškrtnutí Fulltext Index Checkeru tlačidlo Kontrola výst. URL. V takom prípade nástroj rovno aj skontroluje, aká URL bola na výstupe vyhľadávača a vráti informáciu o tom, či sa zhoduje s vstupom.

Ukážka analýzy výstupu Fulltext Index Checkeru

Vo vyššie uvedenom výstupe z minera je vidieť, že na vstupe boli dve vyššie uvedené URL. Stĺpce Google Index a Seznam Index vracajú užívateľovi informáciu o tom, či je daná URL indexovaná (teda na výstupe vôbec niečo bolo). Stĺpce Same as input analyzujú, či je výstup vyhľadávača rovnaký ako vstup alebo či vyhľadávač používa inú variantu URL. A v stĺpci URL in results je prípadne vidieť akú.

Pomocou toho môže užívateľ jednoducho analyzovať, či u niektorých URL nepoužíva vyhľadávač inú verziu URL než by mal alebo naopak skontrolovať efektivitu používaných canonical atribútov.

Kontrola indexácie svojpomocne

Užívateľ môže indexáciu niektorých URL skontrolovať aj svojpomocne. Pri rôznych vyhľadávačoch su spôsoby rôzne:

Kontrola indexácie Google

Asi najčastejšou a najjednoduchšou možnosťou kontroly indexácie URL vo vyhľadávači Google, je operátor info:. Ten ak vloží užívateľ do výsledkov vyhľadávania v kominácii s URL, dostane od vyhľadávača informáciu o tom, či danú stránku má indexovanú. Príklad:
https://www.google.cz/search?q=info%3Amarketingminer.com

Druhou možnosťou je potom overenie webu v službe Google Search Console, ktorá sa stará o interpretáciu základných dát a informácií medzi webmastermi a vyhľadávačom. Tá obsahuje sekciu s možnosťou vloženia sitemap robota vyhľadávača. V tejto sekcii je potom vidieť kumulatívny počet indexovaných URL z danej sitemap vyhľadávačom. Tento spôsob ale užívateľovi neukazuje presný výpočet URL, ktoré nie/sú indexované, ale ako orientačný bod môže stačiť.

Pre presnejšiu analýzu v službe Search Console je možné tiež rozdeliť jednotlivé sitemap podľa ich typu (napríklad kategorické sitemap,...) a potom sledovať, akú časť URL má pre rôzne typy obsahu vyhľadávač zaindexovanú.

Kontrola indexácie Seznam

Podobne ako na Google, je možné aj vo vyhľadávači Seznam.cz použiť operátor info:. Cez neho je potom možné overiť, či má Seznam danú URL indexovanú. Príklad:
https://search.seznam.cz/?q=info%3Amarketingminer.com

Seznam tiež spustil vlastnú službu, podobnú tej od Google: Seznam Webmaster Tools. V nich sa dajú nájsť informácie, spojené s počtom indexovaných stránok vyhľadávača pre špecifický web (po overení jeho vlastníctva).

Další články

Ešte si sa nerozhodol?

Nevadí, môžeš si nás zadarmo a jednoducho otestovať.