Alle Tage wieder präsentiert sich Matt Cutts bei YouTube (bzw. Google Webmaster Help) und beantwortet eine Frage aus dem ”Publikum“. Dieses Mal geht es um das interessante Thema: Duplicate Content. Wie der Name bereits verrät, handelt es sich dabei um doppelte bzw. gleiche Inhalte auf Websites.

Google Duplicate Content

Wie geht Google mit Duplicate Content um?

Bei der Definition ist zunächst einmal unerheblich, ob dieser mehrfach vorkommende Inhalt auf einer oder auf verschiedenen Domains zu finden ist. Laut Cutts liegt die Menge am Duplicate Content im Netz bei circa 25 bis 30 Prozent. Da ein mehrfach vorkommender Inhalt für Nutzer normalerweise keinen besonderen Mehrwert darstellt, die Google Suche aber immer weiter daraufhin optimiert wird, liegt die Frage nahe, ob sich „doppelte Inhalte“ negativ auf das Ranking einer Website auswirken können:

„How does Google handle duplicate content and what negative effects can it have on rankings from an SEO perspective?“

Grundsätzlich gilt: (mehr …)

Unter der Überschrift „Indexierungsstatus“ stellt Google in den Webmaster Tools den Website-Betreibern Informationen über die Verarbeitung der Unterseiten bereit. Hier finden sich oftmals nützliche Hinweise auf Probleme der Suchmaschinenoptimierung, beispielsweise wenn nur ein sehr geringer Anteil der ins Web gestellten Inhalte von der Google-Suche berücksichtigt wird.

Dieses sehr erfreuliche Werkzeug ist nun leider um ein Feature ärmer. Bislang gab es hier auch eine Angabe zur Anzahl der „nicht berücksichtigten“ Seiten:

Nicht ausgewählt: Seiten, die nicht indexiert werden, weil sie im Wesentlichen anderen Seiten entsprechen, oder Seiten mit Weiterleitung zu einer anderen URL.“

Ein hoher Anteil dieser Seiten wird häufig z.B. durch Seitenduplikate oder Bot-Fallen ausgelöst, wodurch diese Zahl oft einen nützlichen Hinweis auf Handlungsbedarf darstellt. Gleichwohl haben sich viele Webmaster von ansteigenden und abfallenden Zahlen oft unnötig in Panik versetzen lassen. Wie ein Kommentar von Google-Mitarbeiter John Mueller andeutet, hat dies letztlich wohl zu der Entscheidung geführt, die Information wieder zu entfernen:

FWIW we removed the „not selected“ graph there since it was much more confusing than helpful. Sorry for the confusion there! 

Im Hinblick auf den „Otto Normalwebmaster“, der inzwischen häufig zu den Usern der Webmaster Tools zählen dürfte, ist dies zwar eine nachvollziehbare, dennoch aber eine bedauerliche Entscheidung.

duplicate-content
Ihre Inhalte in
schlechter Gesellschaft:
Duplicate Content

Viele Webauftritte haben immer noch das Problem, dass auf verschiedenen Seiten oder unter verschiedenen URLs gleiche Inhalte bzw. Text zu finden sind (Duplicate Content). Viele Suchmaschinen tun sich nun noch immer schwer damit, zu interpretieren welche dieser Textvarianten nun die ursprüngliche bzw. die relevanteste ist.

Am gestrigen Donnerstag veröffentlichte nun Google in einem seiner Blogs einen neuen Parameter, um diesem Problem zu Leibe zu rücken. Dieser wird nicht nur von Google, sondern auch von Yahoo! und MSN unterstützt und soll jeweils einen Verweis auf den Ur-Text enthalten.

Ein Beispiel aus der Anwendung:

Viele Shops bieten bspw. verschiedene Layouts oder Währungen an und kommunizieren diese über die URL:

  • www.beispiel-shop.de/toller-artikel.html
  • www.beispiel-shop.de/toller-artikel.html?currency=yen
  • www.beispiel-shop.de/toller-artikel.html?currency=dollar

Dadurch entstehen zwei Probleme:

1) Suchmaschinen können nicht zwischen der canonical URL (toller-artikel.html) und den Dubletten unterscheiden.
Die verschiedenen Varianten derselben Seite konkurrieren unter Umständen miteinander und behindern sich so gegenseitig.

2) Die Suchmaschine gibt ggf. der falschen Variante den Vorzug – so landen deutschsprachige Surfer auf einer Seite, auf der z.B. Yen oder Dollar als Währung voreingestellt sind.

Abhilfe durch rel=“canonical“

Mit der Angabe

<link rel="canonical" href="www.beispiel-shop.de/toller-artikel.html">

im Headerbereich wird nun die Haupt-URL definiert. Damit kann verhindert werden, dass Suchmaschinen Originalseite und Dubletten miteinander verwechseln.

 

canonical-urls

Andere Anwendungsbeispiele wären bspw.:

  • Startseiten, die häufig auf verschiedenste Arten aufgerufen werden
  • Unterdrückung von SessionIDs oder Trackingparametern

Abschließend muß natürlich gesagt werden, dass das neue rel-Attribut zwar das Problem angeht, aber nicht die Ursache behebt. Ein von Anfang an durchstrukturierte Homepage sollte so wenig Duplicate Content wie möglich aufweisen. Der Aufwand für das Hinzufügen des entsprechenden Attributs entspricht oft demselben wie dem Aufwand zur Lösung des eigentlichen Problems.