trafficmaxx

Suchmaschinenoptimierung und Online Marketing

trafficmaxx Weblog

Neues rund um Suchmaschinenoptimierung + Online Marketing

Google nimmt es mit der robots.txt nicht so genau

Bookmark bei Mister Wong speichern21. November 2008 von Simon in Google, Know-how

Diese Vermutung geistert schon seit einiger Zeit durch die weltweite Gemeinde der Webmaster und SEOs.

Folgendes Beispiel des Google-eigenen Projektes Google Scholar (Suche nach wissenschaftlichen Arbeiten und Dokumenten) scheint diese Behauptung zu belegen.

Die angelegte robots.txt schließt unter anderem den Bereich der Google Scholar News komplett aus:

User-agent: *
[...]
Disallow: /news

Der Google Index zeigt hingegen folgende Ergebnisse an:
Site Abfrage auf scholar.google.de/news

Google indiziert also über 64.000 Seiten mit den URLs http://scholar.google.de/news obwohl diese laut robots.txt Datei ausgeschlossen sein sollten.

Auch die Google Webmaster Tools bestätigen, dass die entsprechenden URLs eigentlich nicht im Index erscheinen sollten:

Es scheint also ratsam, sich beim Ausschließen von wichtigen Dateien nicht allein auf die Wirkung der robots.txt zu verlassen.

Tags: , ,

Ähnliche Beiträge

One Response to “Google nimmt es mit der robots.txt nicht so genau”

  1. Ich mache das über die .htaccess Datei. Gruss

Leave a Reply

Diese Seite zu Mister Wong hinzufügen trafficmaxx controlcenter - effektives und einfaches Webcontrolling