Eine kleine aber bedeutende Änderung bezüglich der Snippets in den SERPS hat Google vor kurzem eingeführt. Hierbei wird eine Standard-Nachricht im Snippet eingeblended wenn eine Seite per robots.txt blockiert wird, aber dennoch über eingehende Links verfügt.

Die in diesem Falle eingeblendete Nachricht:

„A description for this result is not available because of this site’s robots.txt – learn more”

Bzw.

“Aufgrund der robots.txt dieser Website ist keine Beschreibung für dieses Ergebnis verfügbar. Weitere Informationen”

Nachricht zum Block
So sieht die Benachrichtigung in den Suchergebnissen aus.

Der Klick auf “Weitere Informationen” führt auf eine Hilfeseite in den Webmaster-Tools.

Auf vielen Websites gibt es Inhalte, die aus verschiedensten Gründen nicht für die Suchmaschinen bestimmt sind, seien es „private“ Daten, die nicht gefunden werden sollen oder Seiten, die keine relevanten Informationen enthalten.

Grundsätzlich gibt es drei Möglichkeiten, Suchmaschinen-Robots zu beeinflussen:

  • NoFollow-Links (Links mit dem Attribut rel=“nofollow“)
  • das NoIndex-Metatag
  • die Datei robots.txt

Jede dieser drei Optionen hat ihre Existenzberechtigung, muss aber für sich genommen erklärt werden:

NoFollow-Links

Über das rel-Attribut kann man einen individuellen Link für Suchmaschinen entwerten.

<a href=“agb.html“ rel=“nofollow“>AGB</a>

Auch wenn diese Lösung sehr praktisch erscheint, hat sie doch einen entscheidenden Nachteil. Sollte eine Suchmaschine auf anderem Wege (z.B. durch einen externen Link) zu der entsprechenden Seite finden, so kann diese dennoch in den Index gelangen.

nofollow

Vorteil des nofollow-Attributs ist auf der anderen Seite die Möglichkeit, den Fluss des „Link-Juice“ zu anderen Seiten detailliert regulieren zu können.

NoIndex-Metatag

Soll eine Seite nicht in den Index kommen oder sogar aus diesem wieder entfernt werden, so empfiehlt sich ein entsprechendes Meta-Tag:

<meta name=“robots“ content=“noindex,follow“>

In diesem Fall darf der Crawler die Seite zwar besuchen, aber nicht in den Suchindex aufnehmen (noindex). Vorhandene Links dürfen jedoch verfolgt und gewertet werden (follow).

noindex

Da es etliche Content Management Systeme nicht erlauben, auf Seitenebene ein robots-Metatag zu pflegen, gestaltet sich die praktische Anwendung des Tags oft etwas schwierig. Einige Suchmaschinen unterstützen aber z.B. auch robots-Anweisungen, die als Header im HTTP-Verkehr ausgegeben werden.

Robots.txt

Dritte Möglichkeit der „Wegweisung“ ist die Datei robots.txt. Über diese kleine Text-Datei kann jedem Robot vorgegeben werden, welche Dateien oder Verzeichnisse er nicht besuchen darf.

User-agent: *
Disallow: /agb.html
Disallow: /admin/
Disallow: /*.mp3$

Der größte Vorteil der robots.txt ist die globale Wirkung. Es lassen sich so sowohl einzelne Dateien (/agb.html), aber auch ganze Verzeichnisse (/admin/) oder Dateitypen (Disallow: /*.mp3$) sperren. Dabei ist gleichgültig, ob eine URL durch einen internen oder externen Link gefunden wurde.

robots-txt

Die Sperrung via robots.txt verbietet allerdings in erster Linie nur Besuche von Seiten durch Suchmaschinen-Robots. Daher kann es vorkommen, dass z.B. eine populäre Seite dennoch in den Suchergebnissen erscheint, auch wenn diese schon lange nicht mehr von Suchmaschinen abgerufen wurde.


Fazit

Jeder der drei „Wegweiser“ hat seine Berechtigung, seine Vor- und Nachteile, so sollte von Fall zu Fall entschieden werden, was in der jeweiligen Situation angemessen ist.

So oder so sollte man aber immer im Hinterkopf haben, dass all diese Möglichkeiten für „ehrliche“ Suchmaschinen-Crawler bestimmt sind. Gerade Adress- oder E-Mail-Sammler werden sich von einem „Disallow“ nicht aufhalten lassen.

Diese Vermutung geistert schon seit einiger Zeit durch die weltweite Gemeinde der Webmaster und SEOs.

Folgendes Beispiel des Google-eigenen Projektes Google Scholar (Suche nach wissenschaftlichen Arbeiten und Dokumenten) scheint diese Behauptung zu belegen.

Die angelegte robots.txt schließt unter anderem den Bereich der Google Scholar News komplett aus:

User-agent: *
[...]
Disallow: /news

Der Google Index zeigt hingegen folgende Ergebnisse an:
Site Abfrage auf scholar.google.de/news

Google indiziert also über 64.000 Seiten mit den URLs http://scholar.google.de/news obwohl diese laut robots.txt Datei ausgeschlossen sein sollten.

Auch die Google Webmaster Tools bestätigen, dass die entsprechenden URLs eigentlich nicht im Index erscheinen sollten:

Es scheint also ratsam, sich beim Ausschließen von wichtigen Dateien nicht allein auf die Wirkung der robots.txt zu verlassen.

Google bringt seinem „Googlebot“ neue Kunststückchen bei und ermöglicht eine wesentlich detailliertere Steuerung von für die Suchmaschinen erlaubten und unerlaubten Inhalten.

Waren bisher noch vollständige URLs mit Protokoll- und Hostangabe notwendig, um die Position von URL-Daten nach Sitemaps-Standard in der robots.txt-Datei anzugeben, kann der Googlebot jetzt auch relative Pfade verarbeiten. Erheblich verbessert wurde auch das robots.txt-Analysetool in den Google Webmaster Tools, das sich nun zu evtl. auftretenden Fehlern genauer äußern kann.

Ebenfalls noch recht neu ist das „unavailable_after“-Kommando für den Googlebot, durch welches einzelne Dateien mit einem Ablaufdatum versehen werden können. Der Wert wird wie folgt entweder in das „Googlebot“-Metatag eingefügt …

<meta name="googlebot" content="unavailable_after:
15-Aug-2007 00:00:00 CET" />
  

… oder – und das ist ebenfalls ein Novum – über den HTTP-Header „X-Robots-Tag“ übertragen, wodurch man im Prinzip beliebige Dateien mit Robots-Steuerinformationen wie „noindex“ oder „nofollow“ versehen ausliefern kann:

X-Robots-Tag:  unavailable_after: 15-Aug-2007 00:00:00 CET

Via: New robots.txt feature and REP Meta Tags aus dem Webmaster Central Blog