Zertifizierte Agentur

Google nimmt es mit der robots.txt nicht so genau

21. November 2008 in Google | 1 Kommentar

Diese Vermutung geistert schon seit einiger Zeit durch die weltweite Gemeinde der Webmaster und SEOs.

Folgendes Beispiel des Google-eigenen Projektes Google Scholar (Suche nach wissenschaftlichen Arbeiten und Dokumenten) scheint diese Behauptung zu belegen.

Die angelegte robots.txt schließt unter anderem den Bereich der Google Scholar News komplett aus:

User-agent: *
[...]
Disallow: /news

Der Google Index zeigt hingegen folgende Ergebnisse an:
Site Abfrage auf scholar.google.de/news

Google indiziert also über 64.000 Seiten mit den URLs http://scholar.google.de/news obwohl diese laut robots.txt Datei ausgeschlossen sein sollten.

Auch die Google Webmaster Tools bestätigen, dass die entsprechenden URLs eigentlich nicht im Index erscheinen sollten:

Es scheint also ratsam, sich beim Ausschließen von wichtigen Dateien nicht allein auf die Wirkung der robots.txt zu verlassen.

 
 

Kommentare

Ich mache das über die .htaccess Datei. Gruss

Kommentar schreiben

Kommentar