Während der PC-Markt seit Jahren schwächelt, wächst die mobile Internetnutzung kontinuierlich. Zugang zum Mobile Web sucht der User weniger über mobile Webbrowser, sondern vornehmlich per App. Grund genug für Unternehmen und Websites, über eigene Anwendungen nachzudenken und von der App-Indexierung durch Google zu profitieren.

Und genau zu diesem Thema legte Searchmetrics kürzlich eine interessante Studie vor, die wir Ihnen im nachfolgenden Beitrag gern genauer vorstellen würden. Im Fokus: die 100 deutschen Top-Domains und in wieweit diese Apps beziehungsweise Apps mit Deeplinks anbieten. Erfahren Sie jetzt mehr!

App-Indexing / Studie von Searchmetrics - Titelbild

(mehr …)

„Does a site rank better if it has a lot of indexed pages?“ – so lautet die Frage, die Matt Cutts in einem der jüngsten Google-Videos beantwortet. Zunächst aber kurz zur Erinnerung, was ist eine indexierte (oder auch indizierte) Webseite? Um bei Google zu bleiben, bekanntlich streifen die sogenannten Google-Bots durch das Netz und crawlen Webseiten, die dann indexiert werden können. Das heißt, sie werden in den Index von Google aufgenommen, ähnlich einem Index in einer Bibliothek. Wichtig: Nur Seiten, die sich im Index befinden, können bei der Google Suche ausgegeben werden und nicht jede gecrawlte Seite wird auch indexiert.

Matt Cutts Erklärbär

Zurück zur Frage: Hilft eine große Anzahl an indexierten Webseiten das Ranking zu verbessern? Die Antwort lautet ganz klar: Jain! Grundsätzlich wird die Quantität der indexierten Seiten nicht beim Ranking berücksichtigt. Aber indirekt profitiert Ihre Website natürlich trotzdem von einem breiteren Content-Angebot für Ihre Besucher. Außerdem sagt Mr. Cutts, dass Google auf eine hohe Anzahl indexierter Seiten – vor allem dann, wenn sie gut verlinkt sind – eher aufmerksam werden würde, was zumindest mal eine genauere Prüfung der Website bedeutet. (mehr …)

Wie funktioniert die Suche von Google? Dieser Frage hat sich Matt Cutts angenommen und eine nicht uninteressante, leicht verständliche Erklärung abgeliefert. Das war 2010, die Erklärung erfolgte via YouTube-Video. Etwas aktualisiert und mit mehr Detailreichtum werden dieselben Inhalte noch einmal auf Googles interaktiver Scroll-Seite „How Search Works“ dargestellt.

Die Seite ist in drei große Bereiche aufgeteilt. „Crawling and Indexing“ beschäftigt sich mit der Grundarbeit, welche Googles Engine vornimmt. Hierbei durchforstet Google das zugängliche Web, welches sich laut aktualisierten Angaben aus über 30 Billionen Seiten zusammensetzt. Aus den sortierten Ergebnissen entsteht der Index, welcher mittlerweile eine Größe von über 100 Millionen Gigabyte erreicht haben soll.

„Algorithms“ versucht eine Erklärung abzuliefern, wie Google von einer Suchanfrage hin zu einem generierten Ergebnis gelangt. Wie schon im Video von 2010 ist von über 200 Rankingfaktoren die Rede. Beispiele sind die Qualität der Seite, die Aktualität der Inhalte, SafeSearch, der User Context und die Durchsuchung für die Universal Search sowie die direkte Übersetzung fremdsprachiger Seiten. Neu ist der Hinweis, dass die Suchresultate in der Regel in 1/8-Sekunde generiert werden. 2010 bewegte sich dieser Wert laut Cutts noch im Bereich einer halben Sekunde.

Der abschließende Teil beschäftigt sich mit einer wie immer besonders interessanten Thematik: „Fighting Spam“. Dieser Teil kann mit einer im Februar 2005 beginnenden Historie aufwarten, in der noch einmal Googles entscheidende Schritte und Abstrafungen aufgeführt werden.

antispam
Viele Informationen lassen sich per Klick abrufen. (Quelle: Google.com)

Des Weiteren führt Google Arten von Spam auf. Hierunter finden sich viele übliche Verdächtige: unnatürliche Links zu einer Seite, versteckte Spam-Inhalte, minimaler Content ohne Mehrwert, Keyword Stuffing und viele mehr.

Spam-Beispiele, die erst kürzlich von Google gesperrt wurden, lassen sich unter folgender Adresse einsehen: http://www.google.com/insidesearch/howsearchworks/fighting-spam.html

Interessanterweise legt Google zudem die bis dato mehr oder weniger geheimen Search Quality Rating Guidelines nun selbst offen. Hierbei handelt es sich um die Richtlinien, mit welcher die sog. „Google Quality Rater“, also Mitarbeiter von Google, die Suchergebnisse bewerten und qualifizieren. Die in der Vergangenheit bereits mehrfach „geleakten“ Dokumente bergen keine Überraschungen mehr. Falls man diese jedoch noch nicht kennen sollte, ist die Lektüre auf jeden Fall einen Blick wert.

Im Google Webmaster Help Forum hat ein Mitarbeiter von Google, Gary Illyes, auf eine Frage betreffend zurückgehender Indexierungen geantwortet. Ein Webmaster hat sich gewundert, dass seine Indexierungen seit einiger Zeit rückläufig sind, obwohl sie theoretisch wachsen sollten. Illyes‘ Antwort liest sich wie folgt:

„As we improve our algorithms, they may decide to not reindex pages that are likely to be not useful for the users. I took a look on the pages that were once indexed, but currently aren’t and it appears there are quite a few that have no real content […]“

Eine gute Vernetzung ist auch innerhalb der Seite unumgänglich. (Bildquelle: GaNaaOU / flickr.com CC-BY 2.0
Eine gute Vernetzung ist auch innerhalb der Website unumgänglich. (Bildquelle: GaNaaOU / flickr.com CC-BY 2.0

Gemeint sind sog. „Soft Error Pages“. Hierbei wird auf Webseiten, die vom Web-Server nicht gefunden wurden, sowie auf tatsächlich leeren Seiten, fehlerhaft ein Status Code 200 für eine erfolgreiche Auslieferung der Webseite ausgegeben, obwohl ein Status Code 404 für den Aufruf einer fehlerhaften Seite eigentlich die korrekte Angabe wäre. Ein weiterer Grund ist, dass innerhalb der Sitemap URLs angegeben werden, welche über die Angabe einer „canonical URL“ eigentlich von den Suchmaschinen ignoriert werden soll, da sie nicht das Original-Dokument darstellen.

Eine saubere technische Umsetzung ist für die Indexierung, das Crawling und letztendlich das Ranking förderlich und gerade bei größeren Websites sogar unverzichtbar. Der Umgang mit der Suchmaschinenoptimierung dienlichen Werkzeugen nicht immer trivial und sollte im Zweifel gemeinsam mit Spezialisten angegangen werden. Andernfalls kann die eigentlich gut gemeinte Maßnahme auch gerne einmal nach hinten losgehen.

Die Webmastertools von Google wurden gestern um ein weiteres spannendes Feature erweitert – der Anzeige des aktuellen Status der Indexierung. Webseitenbetreibern wird so ein interessantes Feature an die Hand gegeben, dass einen Einblick in den zeitlichen Verlauf der Indexierung bietet. So zählt zu den grundlegenden Informationen die Anzahl der jemals gecrawlten URLs. Hier wird die Anzahl der von Google seit Bestehen der Webseite jemals gecrawlten Seiten angegeben, ein Wert der kontinuierlich steigt, je weiter die eigene Webseite wächst. Dieser Wert ist allerdings nicht  mit den insgesamt indexierten URLs zu verwechseln.

Die Zahl der insgesamt indexierten URLs gibt entlang der Zeitachse den jeweiligen Status der Indexierung wieder und sorgt so für einen guten Überblick und lässt bspw. Rückschlüsse auf den Erkennungszeitpunkt gelöschter oder depublizierter Inhalte zu. In diese Zahl fließen URLs nicht ein, die als Duplikat erkannt werden oder mit dem „noindex“ versehen sind. Auch interessant: Webseiten die als wenig nützlich eingestuft werden, fließen auch nicht in den Index ein.

Indexierungsstand Google Webmastertools

Darüber hinaus wird die Zahl der von der robots.txt-Datei blockierten URLs angegeben. Als nicht ausgewählt sind jene URLs bezeichnet, deren Aufruf eine Weiterleitung oder deren Inhalt nahezu einer anderen URL entspricht. Mit dieser Erweiterung schreitet Google im Um- und Ausbau der Webmastetools voran und launcht innerhalb kurzer Zeit das zweite neue Feature.

Detaillierte Informationen zum Indexierungsstatus bietet auch die deutsche Google Webmaster Hilfe mit diesem Beitrag. Die offizielle Ankündigung findet sich wie üblich im Google Webmaster Central Blog.