Startpunkt jedes SEO-Prozesses ist eine Bestandsaufnahme. Mit einem Crawling-Programm wie Screaming Frog können Sie alle Seiten Ihrer Domain erfassen und technisch durchleuchten. Folgen Sie uns zum schreienden Frosch!

Screaming Frog - Frosch

Was sind eigentlich Crawler?

Sind die Seiten Ihrer Domain intern gut verlinkt? Verfügen sie über genügend Text? Wie sieht es mit den Meta-Daten aus und können die Seiten überhaupt aufgerufen werden? Das alles und viele weitere Informationen stellen Crawling-Programme zur Verfügung.

Ein Crawler, Spider oder auch Searchbot ist ein Computerprogramm. Dieses durchsucht das Internet, analysiert Websites und kategorisiert die Informationen gegebenenfalls. In der Regel werden Crawler von Suchmaschinen verwendet. So nutzt zum Beispiel Google den Googlebot, um seinen Index zu pflegen und zu aktualisieren. Aber auch für SEOs sind Crawler wichtig, um Daten rund um eine Website zu erfassen. Deshalb stellen wir Ihnen eines der beliebtesten Crawling-Helferlein vor: Screaming Frog SEO Spider.

Anatomie des Screaming Frogs

Der Aufbau des Programms ist übersichtlich und leicht verständlich. Da der Screaming Frog jedoch ausschließlich in englischer Sprache zur Verfügung steht, sind zumindest Grundkenntnisse in Englisch für den Umgang nötig. Im Wesentlichen teilt sich das Programm in zwei Bereiche:

Kopf des Screaming Frogs: Einstellungen

Im oberen Bereich gibt’s mehrere Reiter, in denen Sie alle nötigen Einstellungen vornehmen. Im „File“-Reiter können Sie Crawls speichern, öffnen, wiederholen und Default-Einstellungen vornehmen. Das ist aus anderen Programmen bekannt. Unter „Configuration“ können Einstellungen für den Crawl vorgenommen werden. Darauf gehen wir später noch einmal im Detail ein.

„Mode“ gibt Ihnen die Auswahl zwischen zwei Crawl-Modi: Spider und List. Im Spider-Modus springt der Crawler von Link zu Link, arbeitet sich bis zu den letzten Ausläufern der Website vor und erfasst so sämtliche Seiten. Im List-Modus geben Sie eine Liste von URLs vor, die der Screaming Frog analysieren soll. Außerdem können Sie hier unter SERP eine Datei mit Titles und Descriptions hochladen, analysieren und vor der Live-Stellung testen.

Der Reiter „Bulk Exports“ gibt Ihnen die Möglichkeit, ausgewählte Daten in Excel zu exportieren und dort weiterzuverarbeiten. „Reports“ geben Ihnen einen Überblick über alle gecrawlten URLs, dazugehörende Redirect-Verkettungen und andere Zusammenfassungen. Die Funktion „Sitemaps“ erlaubt Ihnen aus den gecrawlten URLs eine XML-Sitemap oder eine Bilder-Sitemap zu erstellen, die Suchmaschinen bei der korrekten Indexierung Ihrer Website unterstützt. Unter „Licence“ können Sie, falls Sie sich dazu entschieden haben die kostenpflichtige Version zu erwerben, den Product-Key eingeben. Mit der kostenlosen Variante crawlen Sie bis zu 500 URLs kostenlos, mit erworbener Lizenz gibt’s kein Limit. Der „Help“-Reiter unterstützt mit FAQs und dem klassischen Support-Bereich.

Körper des Screaming Frogs: Ergebnis-Tabs

Im unteren Bereich können Sie die Ergebnisse des Crawls einsehen. In mehreren Tabs sind die Informationen nach Themenbereichen aufgegliedert. Der „Internal“-Tab fasst die Daten aus fast allen anderen Tabs zusammen. Das ermöglicht den Export der kompletten Infos, ohne einzelne Datensätze zusammenführen zu müssen. Sie bekommen hier zu jeder erfassten URL Einblicke in Content-Typen, Status Codes, Meta-Daten wie Title, Description und Meta-Keywords, Wortanzahl, interne Verlinkungen, Download-Zeit der Seiten oder auch Informationen zu Links, die auf andere Domains zeigen.

Screaming Frog Internal-Tab

Lediglich die Daten aus dem „External“-Tab und dem „Custom“-Tab tauchen hier nicht auf. Im „External“-Tab erfahren Sie mehr über Links auf externe Seiten. Zum Beispiel gibt hier die Spalte „Crawl Depth“ die Klicktiefe an, mit der die externe Seite von der Startseite aus erreicht wurde. Im „Custom“-Tab erscheinen jene URLs und die dazugehörigen Ergebnisse, die im oberen Bereich unter „Configuration“ und „Custom“ eingestellt wurden.

Screaming Frog External-Tab

Jetzt sind Sie mit der Oberfläche des Programms vertraut. Sind Sie bereit für die ersten Schritte mit Screaming Frog?

Zum Sprung ansetzen: Crawl durchführen

Sie haben sich für einen Crawl im Spider-Modus entschieden? Dann stehen Ihnen als lizensierter Nutzer im Reiter „Configuration“ einige Einstellungen zur Verfügung. Unter „Spider“ legen Sie fest, welche Inhalte der Screaming Frog crawlen soll: zum Beispiel nur Bilder, entlang interner oder externer Links oder bis zu einer gewissen Seitentiefe.

Mit der Einstellung „Include“ haben Sie die Möglichkeit, nur bestimmte Ordner Ihrer Website zu erfassen. Haben Sie beispielsweise einen Versandhandel für Kleidung und möchten den Schuh-Bereich optimieren, tragen Sie .*/schuhe/.* in das Eingabefenster ein. Sie erhalten dann nur Ergebnisse für URLs, die /schuhe/ enthalten. Im Gegensatz dazu können Sie mit „Exclude“ bestimmte Ordner ausschließen.

Unter „HTTP-Header“ und „User Agent“ können Sie entscheiden, ob Screaming Frog einen bestimmten Bot imitieren soll. Das ist hilfreich, wenn Websites lediglich Crawls von Google gestatten. Unter Custom können Sie zum einen URLs filtern, die ein bestimmtes Stück Quellcode enthalten oder nicht enthalten. Lassen Sie sich beispielsweise jene Seiten ausgeben, auf denen das Code-Snippet für Google Analytics noch fehlt. Zum anderen können Sie auch bestimmte Inhalte extrahieren. So kann Ihnen Screaming Frog zum Beispiel jeweils den ersten Textabsatz einer Seite angeben, wenn Sie hier den ersten p-Tag definieren. Das unterstützt bei der Themenanalyse.

Sind alle Einstellungen fertig, kann es losgehen. Geben Sie einfach die Domain in das Suchfeld ein und starten Sie Ihren ersten Crawl!

Punktlandung: Crawls auswerten

Screaming Frog bietet weitreichende Möglichkeiten zur Analyse. Für den Einstieg genügen ein paar wichtige Hinweise zur Auswertung. Werfen Sie zunächst einen Blick auf die Status Codes der URLs. Sie finden hier dreistellige Codes, die jeweils mit der Ziffer zwei, drei, vier oder fünf beginnen:

  • 2xx: Erfolgreiche Operation, alles in Ordnung
  • 3xx: Weiterleitungen, die Seite leitet zu einer anderen weiter
  • 4xx: Client-Fehler, die Seite kann nicht angezeigt werden
  • 5xx: Server-Fehler, die Seite kann nicht angezeigt werden
Screaming Frog Status Codes

Exportieren Sie die Daten in Excel und filtern Sie die problematischen Seiten heraus. Diese müssen Sie sich noch einmal ansehen. Bei Klick auf URLs in Screaming Frog öffnet sich außerdem ein weiteres Info-Fenster. Hier erfahren Sie im Reiter „Inlinks“ von welchen Seiten der Domain auf die Fehlerseite verlinkt wird.

Danach widmen Sie sich den Page Titles und Meta Descriptions. Prüfen Sie, ob jede Seite aussagekräftige, keywordrelevante Titles und Descriptions enthält, denn die hinterlegten Titel und Beschreibungen der Seiten werden auf den Ergebnisseiten der Suchmaschinen ausgespielt und schaffen Klickanreize für Nutzer.

Damit die Angaben auch vollständig angezeigt werden, sollten sie über eine bestimmte Länge verfügen. Titles schwanken für gewöhnlich zwischen 50 und 70 Zeichen, Descriptions zwischen 140 und 175 Zeichen. Die ideale Länge ist abhängig von der Bildschirmgröße sowie dem jeweiligen Gerät und kann bei Screaming Frog in der Spalte „length“ überprüft werden. Bei Klick auf eine URL können Sie sich im Reiter „SERP Snippet“ eine Vorschau der organischen Suchergebnisse für Desktop und mobile Devices ansehen. Bei der Optimierung Ihrer Titles und Descriptions hilft Ihnen auch unser Blog-Beitrag zum Thema.

Neben der Länge der Titles und Descriptions können Sie auch die Wortanzahl auf den jeweiligen Seiten prüfen. In der Spalte „Wordcount“ finden Sie die Angabe in absoluten Zahlen. Ordnen Sie die Ergebnisse nach Wortanzahl und finden Sie heraus, welche Seiten noch recht inhaltsarm sind.

Duplicate Content, also identischer Inhalt auf verschiedenen Seiten, kann zu einer negativen Bewertung durch Suchmaschinen führen. Screaming Frog bietet eine einfache Möglichkeit, Duplicate Content auf Ihrer Website zu erfassen. In der Spalte „Hash“ wird eine einzigartige Zahlen- und Buchstabenfolge für jede Seite vergeben. Exportieren Sie diese Zeile in Excel und markieren Sie doppelte Werte. Den betreffenden URLs müssen Sie sich noch einmal widmen.

Jeder Tab verfügt außerdem über praktische Filterfunktionen. Filtern Sie im Tab „Images“ zum Beispiel alle Bilder nach „Missing Alt Text“. Sie erhalten dann die URLs, auf denen sich Bilder befinden, die nicht über einen Alt-Text (auch Alt-Attribut genannt) verfügen. Fügen Sie diesen Bildern Alt-Texte hinzu, um sie für Suchmaschinen lesbar zu machen.

ScreamingFrog Missing Alt-Text

Auch wichtig: Analysieren Sie die H1 der gecrawlten Seiten. Jede Seite sollte über eine (und nur eine) H1-Überschrift verfügen, die der Suchmaschine das Thema der Seite vermittelt. Filtern Sie nach „Missing H1“ und finden Sie heraus, auf welchen Seiten die H1 fehlt. Oder filtern Sie nach „Duplicate H1“ oder „Multiple H1“. Diese Seiten verfügen über zwei oder mehrere H1-Überschriften. Für Google und Co. ist das Thema der Seite dann nicht klar definiert.

Mit diesen Tipps sollte Ihnen der Einstieg in Screaming Frog leichtfallen. Probieren Sie sich aus, testen Sie Einstellungen sowie verschiedene Filter und analysieren Sie Ihre Website!

Fazit

Screaming Frog eignet sich mit der kostenlosen Version bereits zum Crawlen von kleinen Websites und bietet dabei umfassende Auswertungsfunktionen. Das Programm kategorisiert die Daten in einer übersichtlichen Form und bietet die Möglichkeit, Ergebnisse nach Bedarf zu filtern. Auch der Export in Excel hält in der weiterführenden Auswertung und Verknüpfung der Daten viel Potenzial bereit. Nutzen Sie Screaming Frog für Ihre Crawls!

Quellen und Links:

Titelbild stammt von tpsdave // pixabay

Logo im Titelbild von Screaming Frog auf LinkedIn

Die Bilder im Text sind Screenshots aus Screaming Frog

Alle Funktionen des Programms direkt im User Guide von Screaming Frog

„Does a site rank better if it has a lot of indexed pages?“ – so lautet die Frage, die Matt Cutts in einem der jüngsten Google-Videos beantwortet. Zunächst aber kurz zur Erinnerung, was ist eine indexierte (oder auch indizierte) Webseite? Um bei Google zu bleiben, bekanntlich streifen die sogenannten Google-Bots durch das Netz und crawlen Webseiten, die dann indexiert werden können. Das heißt, sie werden in den Index von Google aufgenommen, ähnlich einem Index in einer Bibliothek. Wichtig: Nur Seiten, die sich im Index befinden, können bei der Google Suche ausgegeben werden und nicht jede gecrawlte Seite wird auch indexiert.

Matt Cutts Erklärbär

Zurück zur Frage: Hilft eine große Anzahl an indexierten Webseiten das Ranking zu verbessern? Die Antwort lautet ganz klar: Jain! Grundsätzlich wird die Quantität der indexierten Seiten nicht beim Ranking berücksichtigt. Aber indirekt profitiert Ihre Website natürlich trotzdem von einem breiteren Content-Angebot für Ihre Besucher. Außerdem sagt Mr. Cutts, dass Google auf eine hohe Anzahl indexierter Seiten – vor allem dann, wenn sie gut verlinkt sind – eher aufmerksam werden würde, was zumindest mal eine genauere Prüfung der Website bedeutet. (mehr …)

Wie funktioniert die Suche von Google? Dieser Frage hat sich Matt Cutts angenommen und eine nicht uninteressante, leicht verständliche Erklärung abgeliefert. Das war 2010, die Erklärung erfolgte via YouTube-Video. Etwas aktualisiert und mit mehr Detailreichtum werden dieselben Inhalte noch einmal auf Googles interaktiver Scroll-Seite „How Search Works“ dargestellt.

Die Seite ist in drei große Bereiche aufgeteilt. „Crawling and Indexing“ beschäftigt sich mit der Grundarbeit, welche Googles Engine vornimmt. Hierbei durchforstet Google das zugängliche Web, welches sich laut aktualisierten Angaben aus über 30 Billionen Seiten zusammensetzt. Aus den sortierten Ergebnissen entsteht der Index, welcher mittlerweile eine Größe von über 100 Millionen Gigabyte erreicht haben soll.

„Algorithms“ versucht eine Erklärung abzuliefern, wie Google von einer Suchanfrage hin zu einem generierten Ergebnis gelangt. Wie schon im Video von 2010 ist von über 200 Rankingfaktoren die Rede. Beispiele sind die Qualität der Seite, die Aktualität der Inhalte, SafeSearch, der User Context und die Durchsuchung für die Universal Search sowie die direkte Übersetzung fremdsprachiger Seiten. Neu ist der Hinweis, dass die Suchresultate in der Regel in 1/8-Sekunde generiert werden. 2010 bewegte sich dieser Wert laut Cutts noch im Bereich einer halben Sekunde.

Der abschließende Teil beschäftigt sich mit einer wie immer besonders interessanten Thematik: „Fighting Spam“. Dieser Teil kann mit einer im Februar 2005 beginnenden Historie aufwarten, in der noch einmal Googles entscheidende Schritte und Abstrafungen aufgeführt werden.

antispam
Viele Informationen lassen sich per Klick abrufen. (Quelle: Google.com)

Des Weiteren führt Google Arten von Spam auf. Hierunter finden sich viele übliche Verdächtige: unnatürliche Links zu einer Seite, versteckte Spam-Inhalte, minimaler Content ohne Mehrwert, Keyword Stuffing und viele mehr.

Spam-Beispiele, die erst kürzlich von Google gesperrt wurden, lassen sich unter folgender Adresse einsehen: http://www.google.com/insidesearch/howsearchworks/fighting-spam.html

Interessanterweise legt Google zudem die bis dato mehr oder weniger geheimen Search Quality Rating Guidelines nun selbst offen. Hierbei handelt es sich um die Richtlinien, mit welcher die sog. „Google Quality Rater“, also Mitarbeiter von Google, die Suchergebnisse bewerten und qualifizieren. Die in der Vergangenheit bereits mehrfach „geleakten“ Dokumente bergen keine Überraschungen mehr. Falls man diese jedoch noch nicht kennen sollte, ist die Lektüre auf jeden Fall einen Blick wert.

Im Google Webmaster Help Forum hat ein Mitarbeiter von Google, Gary Illyes, auf eine Frage betreffend zurückgehender Indexierungen geantwortet. Ein Webmaster hat sich gewundert, dass seine Indexierungen seit einiger Zeit rückläufig sind, obwohl sie theoretisch wachsen sollten. Illyes‘ Antwort liest sich wie folgt:

„As we improve our algorithms, they may decide to not reindex pages that are likely to be not useful for the users. I took a look on the pages that were once indexed, but currently aren’t and it appears there are quite a few that have no real content […]“

Eine gute Vernetzung ist auch innerhalb der Seite unumgänglich. (Bildquelle: GaNaaOU / flickr.com CC-BY 2.0
Eine gute Vernetzung ist auch innerhalb der Website unumgänglich. (Bildquelle: GaNaaOU / flickr.com CC-BY 2.0

Gemeint sind sog. „Soft Error Pages“. Hierbei wird auf Webseiten, die vom Web-Server nicht gefunden wurden, sowie auf tatsächlich leeren Seiten, fehlerhaft ein Status Code 200 für eine erfolgreiche Auslieferung der Webseite ausgegeben, obwohl ein Status Code 404 für den Aufruf einer fehlerhaften Seite eigentlich die korrekte Angabe wäre. Ein weiterer Grund ist, dass innerhalb der Sitemap URLs angegeben werden, welche über die Angabe einer „canonical URL“ eigentlich von den Suchmaschinen ignoriert werden soll, da sie nicht das Original-Dokument darstellen.

Eine saubere technische Umsetzung ist für die Indexierung, das Crawling und letztendlich das Ranking förderlich und gerade bei größeren Websites sogar unverzichtbar. Der Umgang mit der Suchmaschinenoptimierung dienlichen Werkzeugen nicht immer trivial und sollte im Zweifel gemeinsam mit Spezialisten angegangen werden. Andernfalls kann die eigentlich gut gemeinte Maßnahme auch gerne einmal nach hinten losgehen.