Crawler

Ein Crawler (auch: Webcrawler, Spider, Searchbot bzw. Googlebot) durchsucht das Internet und analysiert Webseiten. Aus seinen Daten lässt sich eine Indexierung neuer Seiten ableiten (Aufnahme in den Suchindex einer Suchmaschine) und das Ranking aller vorhandenen Seiten errechnen. Darüber hinaus können Crawler auch Verstöße gegen die Richtlinien der Suchmaschinenbetreiber feststellen.

Wie funktioniert ein Googlebot technisch?

Es handelt sich um ein Computerprogramm mit der Funktion eines Roboters: Es arbeitet nach der ersten Programmierung automatisch seine Aufgaben ab. Ein menschlicher Eingriff ist nicht mehr nötig. Technisch kann man sich das so vorstellen, dass der Bot das Internet Seite für Seite durchsucht und bei jeder Seite ihre Struktur, vorhandene Keywords, Backlinks, die Zugriffe von Nutzern und technische Eigenschaften (wie beispielsweise die Ladezeit) ermittelt.

Der Bot besucht alle Seiten immer wieder neu. Zu vermuten ist, dass Seiten mit viel Aktivität (viele Nutzerzugriffe, viele Backlinks, häufig neuer Content) öfter besucht werden. Es gibt viele Googlebots, die teilweise auf verschiedene Bereiche programmiert sind, so etwa das Messen von Backlinks. Die Crawler folgen auch ausgehenden Backlinks einer Seite und besuchen damit automatisch die nächste Seite. Aufgefundenen URLs speichert ein Webcrawler und fügt sie zu einer Liste hinzu.

Daher kann er alle Webseiten finden, es sei denn, ein Webmaster sperrt seine Seite für Webcrawler. Allerdings gibt es Seiten, die mangels Aktivität nicht oft besucht werden und daher teilweise im Index für den Nutzer scheinbar nicht auffindbar sind, jedenfalls nicht mit der üblichen Suche nach einem Keyword.

Zielrichtung der Bots

Wie die Bots genau arbeiten, legen ihre Programmier fest. Es gibt hierfür anerkannte Standards (Robot Exclusion Standards), doch Bots können abseits dieser Standards auch für unseriöse Zwecke eingesetzt werden. So können sie E-Mail-Adressen für massenhaften Spam sammeln oder gar Webseiten unautorisiert kopieren.

Selbst für das Ausspähen von Softwarelücken und das illegale Vernetzen von fremden Rechnern und Servern zum Botnetz werden sie eingesetzt. So etwas lässt sich durch sogenannte Honeypots (Fallen für den Bot) analysieren. Wenn ein schädlicher Bot identifiziert wurde, kann der angegriffene Nutzer dessen IP-Adresse sperren. Bots können auch untereinander kommunizieren, um sich zum Botnet zusammenzuschließen.

Seit wann gibt es Webcrawler?

Der erste seiner Art wurde 1993 programmiert, er hieß World-Wide-Web-Wanderer und maß das Wachstum des damals jungen öffentlichen Internets (dessen nichtöffentliche Vorläufer in die 1960er-Jahre zurückreichen). Ab 1994 gab es den „WebCrawler“, der direkt nach seiner technischen Funktion benannt wurde und die erste Internetsuchmaschine mit Volltextsuche war, die jedermann mit Onlineanschluss aufrufen konnte. Google gibt es seit September 1997. Seither wurden zahlreiche Suchmaschinen installiert, deren Webcrawler unterschiedlich arbeiten.

zurück zur Übersichtsseite