Kanonizace ve vyhledávání na Seznamu

Obsah

Hostem dubnového SEOlogeru byl Martin Kirschner ze Seznamu. Pro SEO komunitu si připravil přednášku, jak funguje kanonizace na straně SeznamBota.

Poslední dvě komunitní setkání byly zasvěceny vyhledávačům. Březnový SEOloger byl ve znamení Google. Diskuze s jeho zástupcem, Gary Illyesem, probíhala vzdáleně přes Hangout. Naše shrnutí Hangoutu jste si mohli přečíst v angličtině. V dubnu přišel na řadu i Seznam. SEO komunita se tentokrát sešla v pražské restauraci Pinta. Seznam zastupoval Martin Kirschner, produkťák SeznamBota. Martin přišel představit, jak funguje kanonizace na straně SeznamBota a co se aktuálně vylepšuje.

Úvod k vyhledávání a SeznamBotovi

Prezentace začala základním popisem vyhledávací technologie. Hned na úvod je vhodné uvést, že hlavním tématem bylo vyhledávání webových stránek, nikoliv obrázků či videí, s nimiž Seznam pracuje trochu jinak.

Proces zpracování webu crawlerem a zařazení do indexu

Procesy a komponenty vyhledávání znázorňuje obrázek výše, vypůjčený z Martinovy prezentace a ze staršího článku na Seznam blogu o fulltext technologii.

Je dobré vědět, že databáze robota má jiný obsah než databáze indexu. Ne každá webová stránka, kterou projde robot a uloží si ji do databáze, se dostane i do indexu. O úspěchu každého dokumentu se tedy rozhoduje na dvou místech. V prvním kole, jestli ho crawler vůbec stáhne. Ve druhém kole, jestli bude zařazen do indexu.

Příkladem může být stránka e-shopové kategorie, na níž se nenachází žádné produkty. Taková se z databáze crawlera do indexu dostat nemusí. Zjednodušeně se dá říci, že existuje nějaká skórovací funkce, která všechny dokumenty oboduje. A pouze omezená množina z nich se dostane dál.

Zmiňován byl i refresh – aktualizace obsahu URL v databázi robota. Na některé URL se robot vrací častěji, na jiné až po delší době. Pokud došlo na webu k aktualizaci obsahu a jako webmaster nutně potřebuji, aby změnu reflektoval co nejdříve i vyhledávač, lze vyžádat další návštěvu robota vložením URL do přidávacího formuláře. Ale pozor, funguje to jen pro malé množství URL. Při masivnějším používání zafungují ochranné mechanismy.

Co se týče souboru sitemap.xml. Atribut lastmod má prý velmi malou váhu, protože se na straně webů často nepoužívá správně. Atribut priority je zohledňován více, ale je tajemstvím, jak přesně. Jedním ze signálů pro posouzení, zda je některá URL konkrétního webu důležitější než jiná, je skutečnost, zda je v souboru sitemap.xml vůbec umístěna.

Pár zajímavých čísel o velikosti internetu a Seznamu

Na kolika různých URL na internetu lze získat nějaký content? Správná odpověď je nekonečno. Stačí třeba nekonečné stránkování na jednom webu.
U kolika URL robot Seznamu pravidelně aktualizuje obsah? Zhruba 4,8 miliardy. Z toho 2,4 miliardy webových stránek. A více než 1,9 miliard jsou obrázky. Na dalších URL se nacházejí třeba redirecty, RSS a podobně.
Kolik stránek se nachází v indexu Seznamu? Je to zhruba 1,2 miliardy, z toho 700 milionů je v češtině.
Kolik potřebuje SeznamBot serverů? Databáze a výpočty robota běží na 1300 strojích, ve 2 datacentrech.

Kanonizace a normalizace

SeznamBot se snaží definovat kanonizaci takto: „Kanonizace je transformace technické struktury webu do takové podoby, jak ji vidí člověk.“ Pokud je nějaká skupina URL v očích běžného člověka jedním a tím samým, vytváří tzv. kanonickou množinu. Není však úplně snadné rozhodnout, co je pro běžného uživatele stejné a co už ne.

Pro lepší pochopení problematiky se hodí vědět, jaký je rozdíl mezi normalizací a kanonizací.

Normalizace je záležitost čistě technická. Velmi podobné URL určitého typu vnímá crawler jako stejné a dál pracuje pouze s jednou. Níže naleznete příklady rozdílů, které řeší normalizace.

URL obsahující www a URL bez www – www.marketingminer.com vs. marketingminer.com
Velká a malá písmena v hostname – zápis MARKETINGMINER.com vs. marketingminer.com
Lomítko na konci URL – http://www.kamzasnehem.cz/bezky/ vs. http://www.kamzasnehem.cz/bezky

Pozor! Google přistupuje k normalizaci URL jinak.

Kanonizace se řeší až u množiny URL, které nebyly normalizovány. Robot v takovém případě pracuje s více URL, rozhoduje se o jejich shodnosti a volbě nejvhodnějšího zástupce dané množiny.

V zásadě se celkem rozlišují 3 typy kanonizace.

Normalizace URL – Seznam zvládá bez problémů.
Kanonizace stejného obsahu – Seznam zvládá částečně. Něco již funguje, momentálně se však pracuje na vylepšení. Na tento typ kanonizace se přednáška zaměřovala nejvíc.
Kanonizace rozdílného obsahu – Seznam zatím nemá vyřešené.

Kanonizace stejného obsahu

Níže naleznete několik příkladů kanonizace stejného obsahu.

Přesměrování 1:1. Například 301 přesměrování všech URL z http na https. Tedy i přesměrování je z tohoto úhlu pohledu považováno za kanonizaci, i když pohled typického SEO konzultanta bývá jiný.
URL obsahující hashbang.
Ignorované parametry. Například řazení produktů v kategorii e-shopu.

Kanonizace se provádí ve fázi data processingu (viz schéma v úvodu). Je tedy úkolem crawlera.

Kanonizace může mít vliv na crawl budget. A to je záležitost, kterou se v Seznamu aktuálně snaží vylepšit. Pro některé typy kanonizací pak bude robotovi stačit projít jen malý vzorek URL a když bude jejich chování standardní (u stejného typu URL stejná), další duplicitní URL podobného typu již procházet nebude. Tedy robot na některé URL nově nebude chodit, protože ví, co na nich je. Tím se ušetří crawl budget (přesněji jeho crawl demand složka).

Tým SeznamBota toto vylepšení již testoval na Zboží.cz. Tam se podařilo ušetřit 80 % crawl demandu. A jaké bude zlepšení pro provozovatele webů? Tím, že robot už nebude procházet „zbytečné URL“, bude mít více času na ty užitečné. To znamená, že bude moci častěji refreshovat obsah u již zaidexovaných URL a rychleji procházet nové. Což určitě provozovatelé webů i SEO konzultanti ocení.

Část kanonizačních pravidel platí obecně a používají se na všech webech, naopak jiná pravidla platí jen pro konkrétní weby. Každopádně způsob indexace podle kanonických množin se v souvislosti s prováděnými změnami bude upravovat. Plánuje se také pravidla pro kanonizaci a možnost jejich nastavení přidat do služby Seznam Reporter. Termín, kdy by se tak mělo stát, zatím není známý.

Kanonizace rozdílného obsahu

Zaměřit se na kanonizaci rozdílného obsahu mají v Seznamu v plánu do budoucnosti, aktuálně vyřešena není. Na rozdíl od kanonizace stejného obsahu, kdy je cílem robota dostat do indexu jedinou URL z kanonické množiny, u kanonizace rozdílného obsahu se může do indexu dostat více reprezentantů kanonické množiny. Vyhledávač bude vědět, že jsou stránky nějak propojeny, ale na různé dotazy může vracet jiné stránky z kanonické množiny.

Níže několik příkladů kanonizace rozdílného obsahu.

Stránka článku či produktu a její aktivní záložka s komentáři či diskuzí na samostatné URL.
Odlišné jazykové verze jedné URL stránky. Atribut hreflang však Seznam zatím nevyužívá.
Stránkování, o jehož „správném“ řešení se poměrně často diskutuje. Každopádně atributy rel="next" a rel="prev" doporučované ze strany Google Seznam zatím nepodporuje.

Závěrem

Mimo jiné byly na eventu zmíněny i tři úpravy, které Seznam plánuje v brzké době nasadit.

Manuální pravidlová kanonizace stejného obsahu.
Interpretace stránky pro hledání zpravodajství.
Zlepšení funkce výběru stránek do databáze.

Poslechout si přednášku od člověka, který nahlíží na řešenou problematiku z jiného úhlu pohledu, je velice zajímavé. Zvlášť když je přednáška vedena jako ta od Martina Kirchsnera, kdy je možné se ptát a diskutovat, a tím se lépe pochopit. A především každá informace ze zákulisí vyhledávače může být velice užitečná.

Pokud byste chtěli více zdrojů ke studiu, tak na Slideshare je dostupná prezentace Martina Kirschnera. A časem by mělo být k dispozici i video.

Zajímat by vás mohl i shrnující článek o kanonizaci ze SEO pohledu, který sestavil Pavel Ungr, zároveň pořadatel SEOlogeru.

Martin Sajal

Na vylepšování Marketing Mineru jsem se podílel už aktivitami v rámci komunity uživatelů - testerů. Aktuálně pomáhám s produktovým rozvojem.

Podobné články

Copywriting

6 minut čtení

5 věcí, které Google potvrdil o sitemap v posledních týdnech

V Search Console lze vidět v sekci soubory sitemap více indexovaných stránek, než odeslaných Google ignoruje tag v…

Link building

15 minut čtení

Inspirace od předních SEO specialistů na rok 2018

Jako minulý rok i tento jsme oslovili řadu nejvýznamnějších osobností českého SEO k tomu, aby se vyjádřili k otázkám…

Copywriting

9 minut čtení

Vítej zpět hledanost bez clusterů na Google!

Na konci června roku 2016 začal Google Ads slučovat hledanosti podobných klíčových slov do jedné, čímž znemožnil…