Tipps und Tricks » robots.txt

Anweisungen für Spider, Crawler, Bots und Robots

Mit der Datei "robots.txt" im Stammverzeichnis (Apache: DocumentRoot) lassen sich "gute" Robots steuern. Zur Syntax der Datei muss ich nichts mehr sagen, das ist bei Wikipedia hinreichend dokumentiert, auch Links zu weiteren Quellen sind dort zu finden.

Dennoch halte ich es für nötig, mir ein paar eigene Gedanken darüber zu machen. Ein Blick in eine Statistik zeigt folgendes Bild:

Crawler, Spider, Robots Statistik

Nun ist es an mir, die Sache zu interpretieren, und ich tue das an Hand des Nutzens, den ich von einem Robot erwarte. Ich möchte, dass meine Seiten gefunden werden, also kann ich beispielsweise Google, MSN (Microsofts Bing), oder den Exabot, der hier zu sehen ist, nicht ausschließen. Andererseits will ich meine Ressourcen sparsam einsetzen, also weder Rechenleistung noch Traffic für zweifelhafte Zwecke spendieren.

Damit sind wir wieder bei der Datei robots.txt. Einem "Unknown robot (identified by empty user agent string)", der sich nicht zu erkennen gibt, kann ich auf diesem Wege sicher keine Anweisung geben. Um "bot*", "*bot", "robot" und "spider" zu bitten, mich nicht mehr heimzusuchen, bleibt mir nur die Analyse der Protokolle, die mein Indianer (der Webserver heißt Apache) liefert.

Dabei muß zweierlei beachtet werden:

  1. Es gibt Bots, die sich an die Spielregeln halten. Sie befolgen die Anweisungen in robots.txt. Andere tun das nicht. 
  2. Es gibt Betrüger. Die Angabe im User Agent String kann manipuliert werden.

Für die Betrüger müssen wir Fallen stellen.

Powered by Etomite CMS.