Robots.txt vs. noindex
Die Verwechslung zwischen robots.txt und noindex gehört zu den häufigsten SEO-Fehlern. Robots.txt steuert den Zugriff von Crawlern, noindex die Indexierung einer erreichbaren URL.
Der zentrale Unterschied
Beide Mechanismen klingen ähnlich, lösen aber unterschiedliche Probleme.
Regelt, ob ein Crawler auf bestimmte Pfade zugreifen darf.
Sagt einer erreichbaren URL, dass sie nicht im Index auftauchen soll.
Wer das falsche Signal setzt, bekommt oft widersprüchliche oder ausbleibende Ergebnisse.
Wann welches Signal sinnvoll ist
Die richtige Wahl hängt vom Ziel ab.
- Staging oder geschützte Bereiche: lieber per Auth absichern als nur per robots.txt.
- Interne Suchseiten oder dünne Seiten: oft noindex sinnvoller als bloßes Blockieren.
- PDFs oder Dateien: eher mit X-Robots-Tag arbeiten.
- Crawl-Entlastung: robots.txt kann helfen, wenn wirklich der Zugriff auf Muster reduziert werden soll.
Häufige Praxisfehler
Diese Irrtümer kosten am häufigsten Sichtbarkeit oder Debugging-Zeit.
Google unterstützt kein noindex in der robots.txt.
Wenn Google eine URL nicht crawlen darf, kann auch ein noindex auf der Seite nicht gelesen werden.
robots.txt, noindex, Canonical und Redirects verfolgen unterschiedliche Ziele und sollten bewusst kombiniert werden.
FAQ
Kurze Antworten auf typische Praxisfragen rund um robots.txt vs. noindex.
Das ist heikel. Wenn die URL durch robots.txt nicht abrufbar ist, kann Google ein noindex im HTML oft gar nicht lesen.
Meist der X-Robots-Tag, weil PDFs kein klassisches Meta-Robots im HTML-Head haben.
Ein echter Zugriffsschutz per Passwort oder IP-Restriktion – nicht nur robots.txt.