Das man mit der robots.txt bestimmen kann, welche Suchroboter (Spider) welche Dateien und Ordner einer Website einlesen dürfen, ist ja ein alter Hut. Um gezielt zu steuern, welche Suchmaschine welche Inhalte spidern darf, ist die robots.txt nach wie vor das Mittel der Wahl.
Datei-Eigenschaften einer robots.txt:
- Dateiname: robots.txt (kleine Buchstaben)
- Speicherort: im Wurzelverzeichnis (root) der (Sub-) Domain
- Format: reines, unformatierte TXT-Datei
- Rechte: Sie benötogt lediglich Leserechte (r-r-r)
Dieser Einsatz der robots.txt ist neu, wenn auch nicht ganz ernst gemeint:

Quelle:evisibility.com/blog/robotstxt-protecting-since-1994/
(07/2015: Quelle ist leider nicht mehr erreichbar.)
Die wichtigsten Scripte für die robots.txt
Bei der Erstellung der „Roboterdatei“ muss man immer ähnliche Angaben machen. Daher liste ich hier mal die wichtigsten und üblichen Syntax auf. Sobald die Datei – nach obigen Muster – erstellt wurde, kann man sehr gezielt das Crawl-Verhalten der Suchmaschinen beeinflussen. Die Befehle einer robots.txt unterteilt man in zwei Bereiche.
- Hier wird der User-agent bestimmt. Mit dem * sind alle Crawler gemeint.
- In der zweiten (oder den folgenden) Zeile werden die Dateien und Ordner genannt, die ausgeschlossen (disallow) oder explizit zum gefunden werden zugelassen werden (Allow) sollen.
robots.txt - Jeder Crawler darf alles
Diese robots.txt bewirkt, dass ein Webcrawler den gesamten Inhalte einer Wevbsite crawlen darf und diesen dann in den Index der jeweiligen Suchmaschine aufnehmen darf.
Disallow:
Allen Crawler verbieten, die gesamte Website zu crawlen
Ein kleiner Schrägstrich – mehr bedarf es nicht und schon ist die gesamte Seite „gesperrt“. Zumindest verbieten Sie so jedem Crawler, die gesamte Website zu indexieren.
Disallow: /
Einen Unterordner ausgrenzen
Möchte man einen bestimmten Unterordner – inkl. den darin enthaltenen Dateien – nicht in den Suchergebnisse einer Suchmaschine sehen, so schreibt man es wie folgt. Im Beispiel würde alle Datein im Ordner „ueberuns“ nicht gecrawlt werden.
Disallow: /ueberuns/
Bestimmten Crawler (Bot) ausgrenzen
Wenn man einen bestimmten Bot das crawlen verbieten, ersetzt man das * durch den Bot-Name. Im gezeigten Beispuel darf der Bot der Suchmaschine Google die Datei „datenscutz.htm“ und den Ordner „ueberuns“ nicht crawlen.
Disallow: /datenschutz.htm
Disallow: /ueberuns/