Google nimmt es mit der robots.txt nicht so genau

Google nimmt es mit der robots.txt nicht so genau

150 150 Simon

Diese Vermutung geistert schon seit einiger Zeit durch die weltweite Gemeinde der Webmaster und SEOs.

Folgendes Beispiel des Google-eigenen Projektes Google Scholar (Suche nach wissenschaftlichen Arbeiten und Dokumenten) scheint diese Behauptung zu belegen.

Die angelegte robots.txt schließt unter anderem den Bereich der Google Scholar News komplett aus:

User-agent: *
[...]
Disallow: /news

Der Google Index zeigt hingegen folgende Ergebnisse an:
Site Abfrage auf scholar.google.de/news

Google indiziert also über 64.000 Seiten mit den URLs http://scholar.google.de/news obwohl diese laut robots.txt Datei ausgeschlossen sein sollten.

Auch die Google Webmaster Tools bestätigen, dass die entsprechenden URLs eigentlich nicht im Index erscheinen sollten:

Es scheint also ratsam, sich beim Ausschließen von wichtigen Dateien nicht allein auf die Wirkung der robots.txt zu verlassen.

Hinterlasse eine Antwort