Zertifizierte Agentur

Der Bundesverband Digitale Wirtschaft (BVDW) e.V. hat trafficmaxx das SEA-Zertifikat für seriöses Search-Engine-Advertising verliehen. Der Bundesverband Digitale Wirtschaft (BVDW) e. V. hat trafficmaxx das SEO-Zertifikat für seriöse Suchmaschinenoptimierung verliehen. Google Adwords Certified Partner
 

Google nimmt es mit der robots.txt nicht so genau

21. November 2008 in Google, Know-how | 1 Kommentar

Diese Vermutung geistert schon seit einiger Zeit durch die weltweite Gemeinde der Webmaster und SEOs.

Folgendes Beispiel des Google-eigenen Projektes Google Scholar (Suche nach wissenschaftlichen Arbeiten und Dokumenten) scheint diese Behauptung zu belegen.

Die angelegte robots.txt schließt unter anderem den Bereich der Google Scholar News komplett aus:

User-agent: *
[...]
Disallow: /news

Der Google Index zeigt hingegen folgende Ergebnisse an:
Site Abfrage auf scholar.google.de/news

Google indiziert also über 64.000 Seiten mit den URLs http://scholar.google.de/news obwohl diese laut robots.txt Datei ausgeschlossen sein sollten.

Auch die Google Webmaster Tools bestätigen, dass die entsprechenden URLs eigentlich nicht im Index erscheinen sollten:

Es scheint also ratsam, sich beim Ausschließen von wichtigen Dateien nicht allein auf die Wirkung der robots.txt zu verlassen.


Kommentare

Ich mache das über die .htaccess Datei. Gruss

Kommentar schreiben

Kommentar