Crawl Budget

Das Crawl Budget ist diejenige Anzahl von Unterseiten, welche die Googlebots auf einer Webseite höchstens crawlen.

Wovon hängt das Crawl Budget ab?

Es unterscheidet sich zwischen einzelnen Webseiten. Wie viele Unterseiten einer Domain die Crawler durchsuchen und wie hoch damit das Crawl Budget ist, basiert auf einem Googlealgorithmus, der seinerseits ursprünglich aus dem PageRank errechnet wurde und seit 2013 auf dem Hummingbird-Algorithmus basiert, in den der PageRank aufging. Verkürzt dargestellt ist das Crawl Budget umso höher, je besser eine Seite rankt.

Das ist allerdings nicht der einzige Maßstab, denn selbstverständlich spielt die schiere Zahl der Unterseiten auch eine Rolle. Für einen OnePager etwa (Landingpage ohne jede Unterseite) ist ja prinzipiell fast kein Crawl Budget nötig, egal wie gut sie rankt. Nur ist eben die Zahl der Unterseiten nicht der wichtigste oder gar einzige Maßstab für das Crawl Budget, obgleich das auch nicht unlogisch wäre. Es bestimmt übrigens auch, wie oft die wichtigsten Unterseiten der betreffenden Webseite gecrawlt werden. Gelegentlich erfolgt ein tiefgehender Crawl, auch dieser hängt vom Crawl Budget ab.

Crawl Budget und Index Budget

Das Crawl Budget ist vom Index Budget zu unterscheiden. Letzteres legt die Zahl der URLs fest, welche die Crawler indexieren können. Sollte eine Domain mehrere Unterseiten enthalten, die aufgrund eines 404-Fehlercodes nicht indexiert werden können, belasten sie das Crawl Budget, während das Index Budget dabei nicht vollständig ausgeschöpft werden kann.

Problematik durch das Crawl Budget

Das Crawl Budget ist für große Domains mit relativ vielen Unterseiten problematisch. In der Regel genügt es dann nicht mehr, um alle Unterseiten zu crawlen. Weil diese dadurch nicht indexiert werden, entgeht dem Seitenbetreiber Traffic, der für ihn aber wichtig wäre.

Bei einem Onlineshop kann dies dazu führen, dass bestimmte Produkte auf Unterseiten mit der betreffenden Sucheingabe auf Google nicht gefunden werden, obwohl sie die entsprechenden Keywords enthalten. Dieses Phänomen ist in der Tat immer wieder festzustellen.

Wie lässt sich das Crawl Budget für die Suchmaschinenoptimierung nutzen?

Es gibt inzwischen die SEO-Teildisziplin der Crawl Optimization. Sie versucht, die Bots von Google so zu steuern, dass sie das Crawl Budget sinnvoll ausnutzen, indem sie besonders die wichtigen Unterseiten crawlen. Zu diesem Zweck wählt der Webseitenbetreiber zunächst die schwachen Seiten aus, die nur eine untergeordnete Bedeutung haben, unbedeutenden Content aufweisen oder gar momentan fehlerhaft sind und den 404-Errorcode zurückgeben (was zu beheben wäre).

Diese Seiten schließt der Webmaster mit internen nofollow-Attributen und/oder robots.txt vom Crawling aus. Dadurch verwendet Google das Crawl Budget nur für die höherwertigen Unterseiten. Diese lassen sich zusätzlich so gestalten, dass sie der Spider bevorzugt crawlt. Das kann unter anderem mit diesen Maßnahmen gelingen:

  • Realisierung einer sehr flachen Seitenarchitektur mit kurzen, gut crawlbaren Wegen zu den Unterseiten
  • interne Verlinkung derjenigen Unterseiten, die schon viele Backlinks erhalten, mit denjenigen Unterseiten, die der Bot häufiger crawlen soll
  • durchweg gute interne Verlinkung zu den wichtigsten Unterseiten
  • Angebot einer speziellen XML-Sitemap, welche eine URL-Liste der bevorzugt zu crawlenden Unterseiten enthält

Wenn durch eine Crawl Optimization wichtigere Seiten gecrawlt werden, verbessert sich in der Regel dadurch das Ranking der gesamten Domain.

zurück zur Übersichtsseite