Googlebot

Ein Googlebot ist ein Crawler (auch: Searchbot, Spider). Solche Programme laden Internetinhalte eigenständig herunter, um sie zu indexieren (heißt: in die Suchergebnisliste der Suchmaschine überführen) und zu bewerten.

Wie arbeiten Webcrawler?

Crawler untersuchen automatisch und fortlaufend das Internet und analysieren Webseiten. Sie stellen dabei neue Seiten fest, die sie nach der ersten Überprüfung auf Richtlinienkonformität in den Index (in diesem Fall den von Google) überführen, auch bewerten sie vorhandene Seiten ständig neu. Diese Bewertung führt dazu, dass sich das Ranking der Webseiten immer wieder neu sortiert. Nötig ist das aus drei Gründen:

  • #1: Es kommen ständig neue Seiten hinzu, die besser oder schlechter als die vorhandenen optimiert sein können.
  • #2: Auf den vorhandenen Seiten können Inhalte editiert werden, was ihre OnPage-SEO (Suchmaschinenoptimierung auf der Seite) beeinflusst.
  • #3: Auf eine Webseite können immer wieder neue Backlinks verweisen, welche die OffPage-SEO (Suchmaschinenoptimierungen von außen) beeinflussen.

Webcrawler können noch weitere Aufgaben haben, so das Sammeln von E-Mail-Adressen, Web-Feeds oder sonstigen Informationen. Ihre Aufgaben erledigen Webcrawler vollkommen automatisiert. Wie oft sie eine Seite neu bewerten, ist Gegenstand von Spekulationen. Vermutlich durchforsten sie das Web alle zwei bis drei Tage komplett. Zu vermuten ist auch, dass sie sich eher Webseiten „anschauen“, auf denen viele Änderungen stattfinden oder die immer wieder neue Backlinks erhalten. Webcrawler gibt es seit 1993. Sie erzeugen im Jahr 2021 wahrscheinlich rund die Hälfte des Datenverkehrs im Internet.

Arbeitsweise des Googlebots

Wenn der Bot eine neue Webseite entdeckt, lädt er sie in ein separates Programm, bewertet sie dort und sortiert sie dann in den Index von Google ein. Das dauert zwischen einigen Stunden bis zu rund zwei Tagen, länger nicht. Wovon diese Dauer abhängt, ist wiederum (wie alles im SEO-Bereich) Gegenstand von Hypothesen.

Google selbst publiziert die Arbeitsweise der Bots nicht genau, weil Onlinevermarkter keine Rückschlüsse auf die Google-Algorithmen ziehen sollen. Wahrscheinlich werden unaufwendige Webseiten und Seiten mit wenigen Backlinks schneller indexiert. Möglicherweise hängt das Tempo auch vom Wettbewerbsumfeld ab. Sollte also eine Seite das Thema „Mode“ behandeln und dies auch ihr Hauptkeyword sein, zu dem es Mitte 2021 im Internet 2,9 Milliarden Treffer gibt, wird sie vielleicht etwas langsamer indexiert als eine Seite mit dem Thema „Kakteenzucht“, zu dem es aktuell 16.500 Treffer gibt. Die zeitlichen Unterschiede sind aber nicht sehr groß: Vielleicht taucht die Modeseite nach 24 Stunden im Index auf, die des Kakteenzüchters nach zwei Stunden. Dies ist auch nur ein plakatives Beispiel.

In der Praxis hängt die Indexierung von vielen weiteren Faktoren ab (siehe oben). Wenn die Kakteenseite sehr komplex aufgebaut, die Modeseite hingegen ein OnePager (eine einzige Seite) ist, verringert sich dieser zeitliche Unterschied. Auch schon länger im Netz stehende Seiten werden unterschiedlich oft von den Bots besucht – manchmal im Abstand von fünf bis zehn Stunden (auch mehr), manchmal mehrfach innerhalb von Sekunden. Das hängt auch mit internen Techniken der Crawler und Suchmaschinen zusammen.

Gibt es nur einen Googlebot?

Nein. Es gibt sehr viele solcher Crawler, die wiederum (auch dies eine Hypothese) die Webseiten unter verschiedenen Aspekten bewerten. Hier ein Beispiel: Auch Social Networks setzen Webcrawler in ihren internen Suchmaschinen ein. Von diesen ist beispielsweise bekannt, dass manche Crawler ganz gezielt nur nach verbotenen Begriffen suchen, um solche Postings auszufiltern und zu löschen. Im Google-Index geschieht das wahrscheinlich auf ähnliche Weise.

Das bedeutet: Bots haben unterschiedliche Aufgaben und wechseln sich bei den Seitenbesuchen ab. Damit eine Webseite nicht zu oft besucht wird, was immerhin ihren eigenen Datenverkehr belastet, legt ein Bot die Informationen zwischenzeitlich in einem Cache (Zwischenspeicher) ab, wo sich andere Bots mit anderen Suchfunktionen in den nächsten Minuten oder Stunden die Seite unter ihren eigenen Gesichtspunkten anschauen.

Irgendwann (vermutlich spätestens nach wenigen Stunden) wird der Cache gelöscht, es erfolgt die nächste komplette Neubewertung der Seite. Webmaster müssen diese Technik nicht im Detail kennen. Wichtig ist für sie, dass neu ins Netz gestellte und auch geänderte Seiten immer spätestens nach wenigen Stunden komplett von den Bots untersucht wurden.

zurück zur Übersichtsseite