Robots.txt

Ein Robot (auch Crawler, Webcrawler oder Spider genannt) greift beim Besuch einer Webseite zuerst auf die Datei robots.txt. In der Datei robots.txt kann festgelegt werden, ob und wie die Webseite von einem Robot besucht werden darf. Es können bestimmte Dateien und Ordner von den Suchmaschinen-Robots ausgeschlossen werden. Ein Ausgrenzen bestimmter Bereich der Website garantiert keine Geheimhaltung. Einige Suchmaschinen zeigen trotzdem die gefundenen URLs.

Die Datei robots.txt muss im Stammverzeichnis liegen. Es gilt die Kleinschreibung, also nur „robots.txt“ und niemals „ROBOTS.TXT„ oder „Robots.txt“.

Beispiele

Einfache robots.txt-Datei

User-agent: *		
Disallow: /temp/       	
Disallow: /logfiles/   
Disallow: /cgi-bin/
Disallow: /suchmaschinenoptimierung.htm

Bestimmten Robot ausschließen

User-agent: WebCrawler		 
Disallow: / 

Dynamische Seiten mit ?-URL ausschließen

(nur bei robots mit Wildcard-Support)

User-agent: Googlebot 		
Disallow: /*? 

Siehe auch:

Weitere Artikel

« zurück zur Wiki-Übersicht