Robots.txt Checker
Ruft die robots.txt ab, gruppiert nach User-Agent, zeigt Allow/Disallow, extrahiert Sitemaps und erkennt typische SEO-Fallen (z. B. Disallow: / in User-agent: *, fehlende Sitemap, widersprüchliche Regeln).
- User-agent: * + Disallow: / blockiert alles → häufigste Katastrophe.
- Robots.txt ist Crawl-Steuerung – nicht zuverlässig für “nicht indexieren” (dafür Noindex/Status).
- Sitemaps in robots.txt sind ein praktischer Standard (Sitemap: …).
| User-Agents | Disallow | Allow | Sonstiges |
|---|---|---|---|
| — | |||
—
Checkliste (praktisch)
Wenn Sie nur 60 Sekunden haben: Diese Punkte verhindern die häufigsten Robots-Katastrophen.
- /robots.txt liefert 200
- User-agent: * vorhanden (oder bewusst nicht)
- Kein “Alles blockiert” auf Live
- Sitemap(s) eingetragen
- Wichtige Pfade nicht blockiert (Assets, Produktseiten, Kategorien)
FAQ
Die robots.txt ist eine Textdatei im Root einer Website (z. B. https://domain.tld/robots.txt), mit der du Crawlern Regeln gibst, welche Bereiche sie crawlen dürfen oder nicht crawlen sollen.
Nicht zuverlässig. Robots.txt steuert primär das Crawling. Wenn eine URL extern verlinkt ist, kann sie ggf. trotzdem im Index auftauchen (ohne Snippet). Für “nicht indexieren” sind Meta Robots oder X-Robots-Tag besser.
Disallow sperrt Pfade, Allow kann innerhalb eines gesperrten Bereichs Ausnahmen erlauben. In der Praxis: erst grob sperren, dann gezielt erlauben (z. B. Assets).
Ja, in vielen Fällen ist das sinnvoll: Sitemap: https://domain.tld/sitemap.xml. Es ist kein Muss, hilft aber Bots und macht Setups robuster.
Meist steht in der Gruppe User-agent: * eine Regel Disallow: /. Das blockiert faktisch alle Pfade. Auf Staging ist das ok, live in der Regel ein schwerer SEO-Fehler.
Admin/Login, interne Suche, Filter-/Facetten-Parameter, Session-URLs, doppelte Sortierungen. Ziel: Crawl-Budget sparen und “Spider Traps” vermeiden.