Google nimmt es mit der robots.txt nicht so genau
Diese Vermutung geistert schon seit einiger Zeit durch die weltweite Gemeinde der Webmaster und SEOs.
Folgendes Beispiel des Google-eigenen Projektes Google Scholar (Suche nach wissenschaftlichen Arbeiten und Dokumenten) scheint diese Behauptung zu belegen.
Die angelegte robots.txt schließt unter anderem den Bereich der Google Scholar News komplett aus:
User-agent: *
[...]
Disallow: /news
Der Google Index zeigt hingegen folgende Ergebnisse an:
Google indiziert also über 64.000 Seiten mit den URLs http://scholar.google.de/news obwohl diese laut robots.txt Datei ausgeschlossen sein sollten.
Auch die Google Webmaster Tools bestätigen, dass die entsprechenden URLs eigentlich nicht im Index erscheinen sollten:
Es scheint also ratsam, sich beim Ausschließen von wichtigen Dateien nicht allein auf die Wirkung der robots.txt zu verlassen.