robots.txt – Wegweiser für die Webcrawler (Bots)

Das man mit der robots.txt bestimmen kann, welche Suchroboter (Spider) welche Dateien und Ordner einer Website einlesen dürfen, ist ja ein alter Hut. Um gezielt zu steuern, welche Suchmaschine welche Inhalte spidern darf, ist die robots.txt nach wie vor das Mittel der Wahl.

Datei-Eigenschaften einer robots.txt:

  • Dateiname: robots.txt (kleine Buchstaben)
  • Speicherort: im Wurzelverzeichnis (root) der (Sub-) Domain
  • Format: reines, unformatierte TXT-Datei
  • Rechte: Sie benötogt lediglich Leserechte (r-r-r)

Dieser Einsatz der robots.txt ist neu, wenn auch nicht ganz ernst gemeint:

Robots.txt mal anders genutzt

Quelle:
evisibility.com/blog/robotstxt-protecting-since-1994/
(07/2015: Quelle ist leider nicht mehr erreichbar.)

Die wichtigsten Scripte für die robots.txt

Bei der Erstellung der „Roboterdatei“ muss man immer ähnliche Angaben machen. Daher liste ich hier mal die wichtigsten und üblichen Syntax auf. Sobald die Datei – nach obigen Muster – erstellt wurde, kann man sehr gezielt das Crawl-Verhalten der Suchmaschinen beeinflussen. Die Befehle einer robots.txt unterteilt man in zwei Bereiche.

  1. Hier wird der User-agent bestimmt. Mit dem * sind alle Crawler gemeint.
  2. In der zweiten (oder den folgenden) Zeile werden die Dateien und Ordner genannt, die ausgeschlossen (disallow) oder explizit zum gefunden werden zugelassen werden (Allow) sollen.

robots.txt - Jeder Crawler darf alles

Diese robots.txt bewirkt, dass ein Webcrawler den gesamten Inhalte einer Wevbsite crawlen darf und diesen dann in den Index der jeweiligen Suchmaschine aufnehmen darf.

User-agent: *
Disallow:

Allen Crawler verbieten, die gesamte Website zu crawlen

Ein kleiner Schrägstrich – mehr bedarf es nicht und schon ist die gesamte Seite „gesperrt“. Zumindest verbieten Sie so jedem Crawler, die gesamte Website zu indexieren.

User-agent: *
Disallow: /

Einen Unterordner ausgrenzen

Möchte man einen bestimmten Unterordner – inkl. den darin enthaltenen Dateien – nicht in den Suchergebnisse einer Suchmaschine sehen, so schreibt man es wie folgt. Im Beispiel würde alle Datein im Ordner „ueberuns“ nicht gecrawlt werden.

User-agent: *
Disallow: /ueberuns/

Bestimmten Crawler (Bot) ausgrenzen

Wenn man einen bestimmten Bot das crawlen verbieten, ersetzt man das * durch den Bot-Name. Im gezeigten Beispuel darf der Bot der Suchmaschine Google die Datei „datenscutz.htm“ und den Ordner „ueberuns“ nicht crawlen.

User-agent: Googlebot
Disallow: /datenschutz.htm
Disallow: /ueberuns/
Facebook
Twitter
XING
LinkedIn
Pinterest
WhatsApp