Tipps und Tricks » Good Bots, Bad Bots

Gute und schlechte Crawler

Nützlich oder schädlich?

Wir betreiben Websites um Kunden zu erhalten und unsere Produkte zu verkaufen. Dafür nehmen wir die Kosten für Gestaltung und laufenden Betrieb in Kauf. Jeder Zugriff auf eine Website ist ein Kostenfaktor. Führt er zum Verkauf oder trägt er zur Bekanntheit unseres Hauses oder unseres Produkts bei, akzeptieren wir diese Kosten. Aus dieser Überlegung ergibt sich eine einfache Formel: Was nicht nützlich ist, ist schädlich!

Neben diesem äußerst einfachen Grundsatz gibt es eine Reihe weiterer guter Gründe, die Besucher unseres Web-Angebots kritisch zu beäugen:

Dennoch ist reines Schwarz oder Weiß wie im richtigen Leben eher selten. Deshalb habe ich für mich die Unterscheidung in weiße (gute), graue (die sich an den Robots Exclusion Standard halten) und schwarze (alle anderen) eingeführt.

Intensivere Auseinandersetzung mit Thema zeigt außerdem, dass vieles nicht ist, wie es scheint. Der User-Agent, der dem Webserver übermittelt wird, ist eine freiwillige Angabe und kann beliebig manipuliert werden.

Weiße (gute) Bots

Google

Zu Google gibt es eigentlich wenig zu sagen. Wer mit Google nicht gefunden wird, existiert nicht!

Yahoo

Obwohl Yahoo erheblich an Bedeutung verloren hat, kommen noch immer Kunden von dieser Suchmaschine. Yahoo wurde von Microsoft aufgekauft, Bing wird Yahoo ersetzen

Bing

Microsofts Suchmaschine ist die Grundeinstellung im Internet Explorer, in meinen Augen ein hinreichender Grund einen Nutzen zu erwarten.

Yandex

Eine russische Suchmaschine, die im russischen Sprachraum erhebliche Marktanteile besitzt. Ob man das für nützlich hält, sei jedem selbst überlassen.

Baidu

China ist ebenfalls nicht untätig. Baidu hat in China erhebliche Marktanteile, die Website ist allerdings ausschließlich mit chinesischen Schriftzeichen bestückt. Wie für Yandex gilt: Eine Einzelfallentscheidung auf Grund des jeweiligen Geschäftsmodells ist notwendig.

Graue Bots

Zwischen Schwarz und Weiß gibt es viele Zwischenstufen. So betreiben beispielsweise Shopping-Portale eigene Crawler. Aktuell sehe ich beispielsweise häufig den TwengaBot in den Server-Protokollen. Twenga bietet Preisvergleiche an und hat nach eigenen Angaben über 300 Mio Produkte aus 240.000 Shops in seinem Index. Der Nutzen eines solchen Portals ist vom eigenen Geschäftsmodell abhängig, die Entscheidung "nützlich oder schädlich" damit höchst individuell.

200PleaseBot

Testet nach eigenen Angaben die Verfügbarkeit und betreibt einen Dienst für Mail-Alarm bei Ausfall.

Nutzen: nicht erkennbar
Schaden: gering, tritt recht selten an, lädt nur robots.txt und die Indexseite
Maßnahme: keine

AcoonBot

Nach eigenen Angaben will ein Einzelkämpfer eine Suchmaschine aufbauen. Obwohl ich derlei Aktivitäten grundsätzlich irgendwie nett finde, sehe ich keinen Nutzen.

Nutzen: nicht erkennbar
Schaden: gering
Maßnahme: keine

TheFreeDictionary.com

Ein freies Wörterbuch hat sicherlich einen Nutzen, allerdings ist der Nutzen von Werbetexten in Shops eher fragwürdig für ein Wörterbuch.

Nutzen: nicht erkennbar
Schaden: ??
Maßnahme: beobachten

ShopWiki

Affiliate Network?

Nutzen: Bedingt nützlich, ich fand ein paar Links auf Produktseiten.
Schaden: gering, tritt recht selten an.
Maßnahme: vorläufig keine

Sogou

Scheint eine chinesische Google-Variante zu sein, zumindest ist die Aufmachung der Seite fast identisch.

Studiofaca

Dürfte aus Slowenien kommen. Zumindest bietet die Homepage Immobilien aus der Gegend an. Was die wohl bei mir suchen?

TwengaBot

Shop-Verzeichnis zum Preisvergleich.

Wotbox

Angeblich eine Suchmaschine. Trotz vieler Zugriffe finde ich einen der wesentliche Suchbegriffe nicht.

Nutzen: Bedingt nützlich, ich fand ein paar Links auf Produktseiten.
Schaden: gering, tritt recht selten an.
Maßnahme: robots.txt, User-agent: wotbox, Disallow: /

 

Alexa

SEO-Dienstleister

Nutzen: nicht erkennbar
Schaden: Traffic, evtl. weitere
Maßnahme: Hausverbot über robots.txt, User-agent: ia_archiver, Disallow: /

Ahrefsbot

Ahrefs.com verkauft Dienstleistungen im SEO-Bereich. Der Bot ist recht penetrant und folgt nicht nur Links, sondern sendet auch Suchanfragen an meine Shops. Derartige Suchanfragen führen zu sog. "full table scans", also zu Volltextsuchen in der Datenbank. Das ist die maximal mögliche Belastung für jede Datenbank. Kommen derartige Anfragen dicht hintereinander, werden kaufwillige Kunden durch Wartezeiten gestört.

Nutzen: nicht erkennbar,
Schaden: Traffic, Last auf der Datenbank, Bereitstellung von Informationen für Mitbewerber
Maßnahme: robots.txt über mehrere Tage missachtet, Sperrung durch iptables -A INPUT -s 173.199.115.96/29 -j DROP

Nachtrag (05.02.2014)
Neuerdings scheinen Fakes unter dem Namen Ahrefs auzutauchen. Etliche Zugriffe hatte ich beispielsweise von ganz normalen DSL-Anschlüssen der Telekom. Die nötige Technik um derartige Kameraden in die Schranken zu weisen, steckt noch in den Kinderschuhen.

 

BLEXbot

SEO-Dienstleister

Hausverbot ab 27.12.2014 über robots.txt User-agent: BLEXBot, Disallow: /


CareerBot

Sucht nach eigenen Angaben Stellenangebote.

Nutzen: nicht erkennbar
Schaden: Traffic, evtl. weitere
Maßnahme: Hausverbot über robots.txt

CompSpyBot

Achtet nach eigenen Angaben robots.txt.

Nutzen: nicht erkennbar
Schaden: Traffic, evtl. weitere
Maßnahme: Hausverbot über robots.txt

Ezooms

Mysteriöser Bursche, gibt als Absender eine gmail-Adresse an.

Nutzen: nicht erkennbar
Schaden: Traffic, evtl. weitere
Maßnahme: angeblich missachtet Ezooms robots.txt, kommt aus einem kleinen amerikanischen Firmennetz, Sperrung durch iptables, 208.115.111.64/28.
Nachtrag (27.06.2013): weiteres Netz: 208.115.113.80/28

Nachtrag 05.02.2014): Durch eigene Versuche habe ich festgestellt, dass Ezooms den folgenden Eintrag in robots.txt sehr wohl beachtet:

User-agent: Ezooms
Disallow: /
 

Es gibt eindeutig zu viele Mythen im Netz!

Mail.RU_Bot

Spricht nur russisch mit mir.

Nutzen: nicht erkennbar
Schaden: Traffic, evtl. weitere
Maßnahme: Hausverbot über robots.txt

SemrushBot

SEO-Dienstleister

Nutzen: nicht erkennbar
Schaden: Traffic, evtl. weitere
Maßnahme: Hausverbot über robots.txt

Sistrix

SEO-Dienstleister

Nutzen: nicht erkennbar
Schaden: Traffic, evtl. weitere
Maßnahme: Hausverbot über robots.txt

Spiderlytics

SEO-Dienstleister

Nutzen: nicht erkennbar
Schaden: Traffic, evtl. weitere
Maßnahme: Hausverbot über robots.txt

Nachtrag per 22.01.2014: Das Hausverbot über den folgenden Eintrag  in robots.txt wird mißachtet:

User-agent: Spiderlytics
Disallow: /

Ob es an der Syntax, am Schlüsselwort liegt oder an der generellen Mißachtung der Spielregeln durch den Betreiber liegt, kann ich nicht sagen. Darum ist eine Umleitung  über .htaccess notwendig.

RewriteCond %{HTTP_USER_AGENT} ^Spiderlytics
RewriteRule ^.* - [F,L]

Nachtrag per 27.01.2014:
Bei diesem Kameraden handelte es sich scheinbar um einen der Spitzbuben, denen nichts heilig ist. Vermutlich habe ich hier nicht Spiderlytics am anderen Ende, sondern einen unbekannten Dritten, der den User-Agent fälscht. Von der IP-Adresse kommt neuerdings ein anderer User-Agent, der sich ebenfalls durch Fehlverhalten auszeichnet. Da es sich um die fest vergebene Adresse eines Servers handelt, sperre ich sie rigoros per iptables.

TurnitinBot

Sucht nach eigenen Angaben zwecks Identifikation von Plagiaten.

Nutzen: nicht erkennbar
Schaden: gering, tritt recht selten an.
Maßnahme: Hausverbot über robots.txt

Waybackarchives

Die angegebene Domain waybackarchives.org steht zum Verkauf, die beobachtete IP passt nicht dazu. Eine Info zu robots.txt liegt nicht vor, die IP kommt von einem Server, daher über iptables ausgesperrt.

WeViKa

Nach eigenen Angaben WebVisitenKarte

Nutzen: nicht erkennbar
Schaden: gering, tritt recht selten an.
Maßnahme: ??

Liste böser Bots

Nachfolgend finden Sie eine Liste von Bots, die mir in jüngster Vergangenheit unangenehm auffielen. Ich habe versucht, sie aus den wenigen verfügbaren Angaben zu klassifizieren. Alle Angaben sind ohne Gewähr und ich begrüße ausdrücklich jeden zweckdienlichen Hinweis zur Ergänzung, Verbesserung oder Korrektur.

Weil ich in jüngster Vergangenheit festgestellt habe, dass ich einigen Fehlinformationen aus dem Netz gefolgt bin, werde ich diese Liste neu erstellen müssen. Ich bitte in dem Zusammenhang, meinen Irrtum zu entschuldigen.

Powered by Etomite CMS.