PretLetters

Februari 2006

Google verleid

Mon, 06 Feb 2006 13:27 +0100

Google Groups discussiegroep: PretLetters Reageer via de discussiegroep bij Google.

Als je een geweldige site hebt, althans, volgens je eigen maatstaven, wil je graag dat bezoekers je pagina's bezoeken. Om dat te bereiken ben je grotendeels afhankelijk van zoekmachines. Zoekmachines die de pagina's van je website langslopen en indexeren, en die de URL's ervan hoog in de zoekresultaten tonen als relevant resultaat bij verschillende zoekopdrachten.

Willen die zoekmachines dat kunnen doen, dan moeten ze wel met hun bots over bij kunnen komen en alles kunnen en 'willen' indexeren. Kennelijk gaat dat soms niet vanzelf.

Zoals ik gisteren aangaf, ging er iets mis met de Googlebot. In de logs van mijn domein trof ik verschillende Googlebots aan, die zich identificeren met:

Googlebot/2.1+(+http://www.google.com/bot.html)
Mozilla/5.0+(compatible;+Googlebot/2.1;+
    +http://www.google.com/bot.html)
Mediapartners-Google/2.1
FeedFetcher-Google;+
    (+http://www.google.com/feedfetcher.html)
Googlebot-Image/1.0

De vierde van dat rijtje richt zich op mijn RSS Feeds en de laatste richt zich op afbeeldingen (waar ik met mijn robots.txt overigens een verbod op heb gezet).
De tweede en derde opereren tegelijk en als ik kijk naar het 'patroon' van spider'n dat er niet is, en de handle 'Mediapartners', lijkt het er op dat ze horen bij de advertentieblokjes van het AdSense-programma dat ik draai op mijn site.

Deze handles gebruiken tot nu toe de volgende IP's:

66.249.64.# | Googlebot/2.1
66.249.65.# | Googlebot-Image/1.0
66.249.65.# | Mediapartners-Google
66.249.66.# | Mediapartners-Google
66.249.71.# | Googlebot/2.1
66.249.72.# | Mediapartners-Google
72.14.199.# | FeedFetcher-Google

De enige die er werkelijk toe doet, de bot die er voor zorgt dat je pagina's in de Google index worden opgenomen, is de eerste (en vijfde) van dat rijtje: de bot met de handle Googlebot/2.1. En dat is nou net de bot die maar niet aan de slag ging met mijn weblog en de driehonderd pagina's die daar deel van uitmaken.

En dus verzon ik een list. Ik stelde een gedeeltelijke sitemap samen die linkte naar alle artikelen in mijn weblog die ik sinds november 2004 heb gepubliceerd. Vervolgens zocht ik in de logs van mijn site naar een pagina die èn frequent door de belangrijkste bots (waaronder Googlebot/2.1) wordt bezocht, èn logischerwijs een link naar die index zou kunnen bevatten. Ik nam de link op en publiceerde de pagina's opnieuw.

Maar dat niet alleen: ik nam ook nog het volgende op in mijn robots.txt die immers dagelijks wordt opgehaald door verschillende bots:

# Show the way to the sitemaps
User-agent: *
Allow: index_sitemap.html
Allow: index_weblog.html

Welke van deze parallelle acties er ook toe heeft geleid, sinds afgelopen nacht heeft Googlebot/2.1 het gedeelte van mijn site dat zich in mijn weblog bevindt, ook ontdekt en is het spider'n en indexeren begonnen. Tot mijn opluchting.

Al wat rest is nog een beetje geduld. De gevonden pagina's zullen de komende weken wel komen bovendrijven in de SERP's van Google. Missie geslaagd: Google is verleid.

| Categorie: webontwerp |

copyright © 2003-2006 Barbara de Zoete