Robots.txt
Ein Robot (auch Crawler, Webcrawler oder Spider genannt) greift beim Besuch einer Webseite zuerst auf die Datei robots.txt. In der Datei robots.txt kann festgelegt werden, ob und wie die Webseite von einem Robot besucht werden darf. Es können bestimmte Dateien und Ordner von den Suchmaschinen-Robots ausgeschlossen werden. Ein Ausgrenzen bestimmter Bereich der Website garantiert keine Geheimhaltung. Einige Suchmaschinen zeigen trotzdem die gefundenen URLs.
Die Datei robots.txt muss im Stammverzeichnis liegen. Es gilt die Kleinschreibung, also nur „robots.txt“ und niemals „ROBOTS.TXT„ oder „Robots.txt“.
Beispiele
Einfache robots.txt-Datei
User-agent: * Disallow: /temp/ Disallow: /logfiles/ Disallow: /cgi-bin/ Disallow: /suchmaschinenoptimierung.htm
Bestimmten Robot ausschließen
User-agent: WebCrawler Disallow: /
Dynamische Seiten mit ?-URL ausschließen
(nur bei robots mit Wildcard-Support)
User-agent: Googlebot Disallow: /*?
Siehe auch:
- Seitenindizierung ausschließen über MetaTags.
- Content aus dem Google-Index entfernen.