Crawler

Het klinkt als een ietwat duistere term voor een robot die je de stuipen op het lijf jaagt: een crawler. In werkelijkheid is een crawler een tool van Google om alle internetpagina’s in kaart te brengen om deze vervolgens te kunnen indexeren voor hun zoekmachine. De belangrijkste crawler staat bekend als de Google bot, ook wel ‘spider’ genoemd. Het internet verandert continu door het verwijderen en toevoegen van content en pagina’s. De crawlers hebben dan ook een dagtaak aan het bezoeken van pagina’s en struinen dezelfde websites meerdere malen af. Door de Google crawler blijft de zoekindex up to date en lopen gebruikers niet tegen broken links aan.

Crawl errors

Wanneer een crawler een fout ontdekt en zijn werk niet kan doen, is dit terug te vinden in het rapport crawlfouten in Google Webmaster Tools. Sommige functies zoals Flash en JavaScript zijn niet crawler-vriendelijk en kunnen niet worden gelezen. In dit geval kan de fout als ´niet gevolgd´ in het rapport komen te staan. Enkele andere voorbeelden van crawlfouten zijn ongeldige omleidingen en serverfouten.

Pagina’s niet laten indexeren

In sommige gevallen wil je juist niet dat een pagina op jouw website geïndexeerd wordt door Google. Bijvoorbeeld wanneer een pagina van lage kwaliteit is, en die jouw positie in de zoekresultaten negatief kan beïnvloeden. Met een no follow-metatag kun je aangeven dat crawlers een bepaalde link niet moeten indexeren. Wil je gehele pagina’s uitsluiten van indexering, dan kun je deze plaatsten in het tekstbestand robots.txt en aangeven deze niet te laten crawlen.