Robots.txt richtig einsetzen
Die robots.txt steuert, welche Bereiche Crawler abrufen dürfen. Sie ist sinnvoll für Crawl-Steuerung und Ressourcen, aber nicht als Schutz vor Indexierung. Genau diese Verwechslung führt in der Praxis regelmäßig zu Sichtbarkeitsverlusten.
Was die robots.txt macht
Eine robots.txt liegt im Root einer Domain und gibt Crawlern Zugriffsregeln. Sie eignet sich, um unwichtige Bereiche, Parameter oder Ressourcen strategisch zu steuern – nicht, um URLs sicher aus dem Index fernzuhalten.
Wenn eine URL nicht in den Index soll, ist robots.txt fast nie die erste Wahl. Prüfen Sie stattdessen Meta Robots, X-Robots-Tag, Statuscode und Zugänglichkeit.
Interne Suchergebnisse, unendliche Filterkombinationen, Testbereiche oder ressourcenintensive Muster gezielt entschärfen.
Eine bereits bekannte URL mit robots.txt „entfernen“ zu wollen. Dafür sind noindex, Auth-Schutz oder ein klarer Statuscode die bessere Wahl.
Blockierte Ressourcen können Rendering und Bewertung beeinflussen, wenn CSS oder JavaScript für das Verständnis der Seite nötig sind.
Typische Fehler in der Praxis
Viele Probleme entstehen nicht durch komplizierte Syntax, sondern durch falsche Ziele.
- Staging offen gelassen: Testumgebungen werden indexiert, weil nur auf robots.txt vertraut wurde.
- Wichtige Assets gesperrt: CSS oder JavaScript dürfen nicht geladen werden, obwohl sie für Rendering und Inhalte nötig sind.
- Parameter ungefiltert: riesige Mengen ähnlicher URLs werden gecrawlt, obwohl ein klarer Umgang mit Facetten oder Parametern fehlt.
- Sitemap vergessen: die robots.txt enthält keine Sitemap-Angabe, obwohl sie Discovery und Debugging erleichtern würde.
Schnelle nächste Schritte
Diese Checks liefern meist den schnellsten Nutzen.
Sind CSS, JS, Bilder oder API-Endpunkte blockiert, die für Rendern, Snippets oder UX relevant sind?
Für echte Ausschlüsse besser mit Meta Robots oder X-Robots arbeiten, wenn die URL überhaupt erreichbar sein soll.
Wenn Seiten trotz Blockaden auftauchen, fehlen oft konsistente Signale zwischen robots.txt, Canonical, noindex und Statuscodes.
FAQ
Kurze Antworten auf typische Praxisfragen rund um robots.txt richtig einsetzen.
Nein. robots.txt steuert den Crawl-Zugriff, aber nicht zuverlässig die Indexierung. Für Ausschlüsse sind noindex, Auth-Schutz oder passende Statuscodes sinnvoller.
Nur sehr gezielt. Alles, was Google für Rendering oder inhaltliches Verständnis benötigt, sollte in der Regel erreichbar bleiben.
Oft ja. Das ist kein Muss, aber eine Sitemap-Direktive erleichtert Discovery und Debugging.