Auf vielen Websites gibt es Inhalte, die aus verschiedensten Gründen nicht für die Suchmaschinen bestimmt sind, seien es „private“ Daten, die nicht gefunden werden sollen oder Seiten, die keine relevanten Informationen enthalten.

Grundsätzlich gibt es drei Möglichkeiten, Suchmaschinen-Robots zu beeinflussen:

  • NoFollow-Links (Links mit dem Attribut rel=“nofollow“)
  • das NoIndex-Metatag
  • die Datei robots.txt

Jede dieser drei Optionen hat ihre Existenzberechtigung, muss aber für sich genommen erklärt werden:

NoFollow-Links

Über das rel-Attribut kann man einen individuellen Link für Suchmaschinen entwerten.

<a href=“agb.html“ rel=“nofollow“>AGB</a>

Auch wenn diese Lösung sehr praktisch erscheint, hat sie doch einen entscheidenden Nachteil. Sollte eine Suchmaschine auf anderem Wege (z.B. durch einen externen Link) zu der entsprechenden Seite finden, so kann diese dennoch in den Index gelangen.

nofollow

Vorteil des nofollow-Attributs ist auf der anderen Seite die Möglichkeit, den Fluss des „Link-Juice“ zu anderen Seiten detailliert regulieren zu können.

NoIndex-Metatag

Soll eine Seite nicht in den Index kommen oder sogar aus diesem wieder entfernt werden, so empfiehlt sich ein entsprechendes Meta-Tag:

<meta name=“robots“ content=“noindex,follow“>

In diesem Fall darf der Crawler die Seite zwar besuchen, aber nicht in den Suchindex aufnehmen (noindex). Vorhandene Links dürfen jedoch verfolgt und gewertet werden (follow).

noindex

Da es etliche Content Management Systeme nicht erlauben, auf Seitenebene ein robots-Metatag zu pflegen, gestaltet sich die praktische Anwendung des Tags oft etwas schwierig. Einige Suchmaschinen unterstützen aber z.B. auch robots-Anweisungen, die als Header im HTTP-Verkehr ausgegeben werden.

Robots.txt

Dritte Möglichkeit der „Wegweisung“ ist die Datei robots.txt. Über diese kleine Text-Datei kann jedem Robot vorgegeben werden, welche Dateien oder Verzeichnisse er nicht besuchen darf.

User-agent: *
Disallow: /agb.html
Disallow: /admin/
Disallow: /*.mp3$

Der größte Vorteil der robots.txt ist die globale Wirkung. Es lassen sich so sowohl einzelne Dateien (/agb.html), aber auch ganze Verzeichnisse (/admin/) oder Dateitypen (Disallow: /*.mp3$) sperren. Dabei ist gleichgültig, ob eine URL durch einen internen oder externen Link gefunden wurde.

robots-txt

Die Sperrung via robots.txt verbietet allerdings in erster Linie nur Besuche von Seiten durch Suchmaschinen-Robots. Daher kann es vorkommen, dass z.B. eine populäre Seite dennoch in den Suchergebnissen erscheint, auch wenn diese schon lange nicht mehr von Suchmaschinen abgerufen wurde.


Fazit

Jeder der drei „Wegweiser“ hat seine Berechtigung, seine Vor- und Nachteile, so sollte von Fall zu Fall entschieden werden, was in der jeweiligen Situation angemessen ist.

So oder so sollte man aber immer im Hinterkopf haben, dass all diese Möglichkeiten für „ehrliche“ Suchmaschinen-Crawler bestimmt sind. Gerade Adress- oder E-Mail-Sammler werden sich von einem „Disallow“ nicht aufhalten lassen.

Bereits im Jahr 2005 wurde das rel-Attribut mit dem Wert „nofollow“ eingeführt. Es dient dazu die Auswirkungen von Spam auf Webseiten zu vermeiden und die Ergebnisse bei Suchmaschinen zu verbessern. Die mit dem „nofollow“-Wert markierten Links sind aus Sicht der Suchmaschinen faktisch nicht existent.

Im Umkehrschluss war es bisher aber nicht möglich bestimmte Links zu priorisieren. Alle Links die nicht „nofollow“ sind hatten stets die gleiche Relevanz und eine weitergehende Bewertung war nicht möglich.

Um weiterhin die Qualität der Suchergebnisse zu verbessern, sollen sich die großen Suchmaschinenbetreiber auf eine Erweiterung der Linkpriorisierung verständigt haben und nun zwei neue Werte für das rel-Attribut ermöglichen.

Über die konkreten Auswirkungen auf die Suchergebnisse hält sich das Konsortium bisher bedeckt. Grundsätzlich lässt sich daraus schließen, dass die Suchmaschinenbetreiber mit diesen Attributen dem Web 2.0 und dem Trend zum semantischen Web Tribut zollen wollen. Mit den Werten „love“ und „hate“ hätten Website-Betreiber die Möglichkeit einem Link eine positive bzw. negative Wertung mit auf den Weg zu geben.

Beispiel:
<a href=http://www.microsoft.com rel="hate">Microsoft</a>

Die Google-Mitarbeiterin April Scherzinger soll in einem Interview erklärt haben, dass das Suchmaschinenkonsortium sich durchaus bewusst sei, dass eine Priorisierung von Linkbeziehungen den Wettbewerb verzerren könne. Scherzinger habe jedoch ergänzt, dass man durch einen entsprechenden Algorithmus einen Missbrauch der Funktion sehr schnell erkennen könne und die jeweilige Seite ggf. selbst mit rel=“hate“ versehen werde.

Das nofollow-Attribut zur Entwertung ausgehender Links für Suchmaschinen wird von Google seit geraumer Zeit unterstützt. Genaugenommen soll ein mit dem Attribut rel=“nofollow“ präparierter Link nicht von Google verfolgt und PageRank sowie Linktext nicht ausgewertet werden.

Ganz „wasserdicht“ funktioniert hat die Funktion allerdings für lange Zeit nicht, so kam es denn immer wieder mal vor, dass über entsprechende Linktext-Experimente à la Hommingberger Gepardenforelle ein wenig durchsickernder Link-Saft nachgewiesen werden konnte.

Wie nun aber Matt Cutts beiläufig in einem Blog-Kommentar erwähnt hat, soll auch dies bereits ein Ende haben: David Naylor bezog sich in seinem Blogpost vom 19. Juli auf eines der Negativbeispiele für den nofollow-Effekt – prompt meldete sich Google’s oberster Spamjäger zu Wort und wies darauf hin, dass der Fehler behoben worden sei („Don’t believe me? Check it by doing a nofollow link with obscure anchortext to an obscure page, and see for yourself. 😉 „).

Quelle: Matt Cutts Confirms Nofollow FIX