Deneir
Themenersteller
Entwickler
Neuling (5 Beiträge)

Kommen die Crawler durch? (301 Redirect)

am 01.09.2010, 11:18 Uhr eröffnete Deneir folgenden Thread
OnPage Optimierung    3670 mal gelesen    8 Antwort(en).

Hallo liebe Forengemeinde,

ich bin nun schon seit Tagen am Testen und bin mir mittlerweile nicht mehr sicher, ob der Seitenaufbau unserer Homepage überhaupt noch geeignet ist, von Crawlern gänzlich durchsucht zu werden.

Situation:
Wir haben unsere statische Homepage durch ein CMS ersetzt.
In der statischen (klassischen) Version befand sich die "index.html" im Root-Verzeichnis, darunter 2 Bäume mit den Seiten für Deutsch (de) und Englisch (en), wie sich's eben gehört.

Unter der Struktur des CMS sieht es nun so aus, dass es eine "index.php" im Root.-Verzeichnis gibt, die einen 301-Redirect via PHP auf eine "website.php" im cms-Verzeichnis macht.
(Ursprünglich war noch ein index.php im cms-Verzeichnis dazwischen, also /index.php -> /cms/index.php -> /cms/website.php)

Weiterhin habe ich eine 301er für die beiden ehemaligen "de"- und "en"-Verzeichnisse auf die aktuelle Startseite gemacht, damit alte Links nicht in's Leere laufen.

Hier erst mal die Listings:

.htaccess:

Redirect permanent /de www.iss-informationstechnik.de/index.php


Redirect permanent /en www.iss-informationstechnik.de/index.php



index.php:
<?
header("Status: 301 Moved Permanently");
header("Location:cms/website.php");
exit;
?>

cms/index.php:
<?
Header("Location: website.php");
?>

Soweit funktioniert erst mal alles.
Wenn ich nun aber den Seitenreport darüber jage, bekomme ich entgegen meinen Erwartungen für
"www.iss-informationstechnik.de" gewaltig andere Ergebnisse als für "www.iss-informationstechnik.de/cms".
Zusätzlich fällt mir auf, dass unsere Seiten in den Suchergebnissen täglich an Rang einbüßen.

Liege ich mit meiner Vermutung richtig und was kann man besser/richtig machen?


Raptor
Avatar Raptor
IT-Student
Content Gott (1013 Beiträge)
am 01.09.2010, 11:28 Uhr schrieb Raptor

Folgendes ist nicht korrekt:
<?
header("Status: 301 Moved Permanently");
header("Location:cms/website.php");
exit;
?>

Beim Location-Header sollte eine vollständige URL drin stehen und ein Leerzeichen nach dem Doppelpunkt ist auch zu empfehlen. Ebenfalls reicht ein header() völlig, den Status-Code kann man hinten dran hängen.
Also:
<?php

header(\'Location: \'.$_SERVER[\'HTTP_HOST\'].\'/cms/website.php\', true, 301);


exit;
?>
Bei der "cms/index.php" kannst du dasselbe reinschreiben.

Edit: Andere Frage:
Warum verwendest du kein mod_rewrite?
Dann könntest du z.B. die URL http://www.iss-informationstechnik.de/de/index/referenzen.htm anstatt http://www.iss-informationstechnik.de/cms/website.php?id=/de/index/referenzen.htm verwenden. Dazu wäre es meiner Meinung nach auch gedacht.


Meine Developer-Website mit den Web-Entwickler-Tools.
Meine Web-Entwicklungs-Dienstleistungen

[url="http://www.seitenreport.de/forum/beitraege/seitenreport_verlosungen/wichtig_neue_regel

Deneir
Entwickler
Neuling (5 Beiträge)
am 01.09.2010, 18:29 Uhr schrieb Deneir

Raptor schrieb:

Folgendes ist nicht korrekt:
<?
header("Status: 301 Moved Permanently");
header("Location:cms/website.php");
exit;
?>

Beim Location-Header sollte eine vollständige URL drin stehen und ein Leerzeichen nach dem Doppelpunkt ist auch zu empfehlen. Ebenfalls reicht ein header() völlig, den Status-Code kann man hinten dran hängen.


Vielen, vielen Dank - daran hat es gelegen.
Jetzt tut es das, was es tun soll


Raptor schrieb:

Edit: Andere Frage:
Warum verwendest du kein mod_rewrite?


Weil ich davon bisher noch nichts wusste.
Werde ich umgehend einbauen, nochmals vielen Dank für die beiden Tipps!


Deneir
Entwickler
Neuling (5 Beiträge)
am 08.09.2010, 14:12 Uhr schrieb Deneir

Ich muss das Thema nochmal aufgreifen, weil der (vermeintliche) Erfolg scheinbar ausbleibt: Der Googlebot findet offensichtlich die Seiten nicht:


Dies ist die Methode, mit der der Googlebot die Seite abgerufen hat.

URL: www.iss-informationstechnik.de



Datum: Wed Sep 08 04:28:00 PDT 2010

Googlebot-Typ: Web

HTTP/1.1 301 Moved Permanently
Date: Wed, 08 Sep 2010 11:28:04 GMT
Server: Apache
X-Powered-By: PHP/5.3.3

Location: www.iss-informationstechnik.de/cms/website.php


Connection: close
Transfer-Encoding: chunked
Content-Type: text/html

Mehr wird nicht ausgegeben.

Gebe ich jedoch bei der Analyse als Startseite die URL

www.iss-informationstechnik.de/cms/website.php


ein, sieht die Sache schon ganz anders - nämlich so:

Dies ist die Methode, mit der der Googlebot die Seite abgerufen hat.

URL: www.iss-informationstechnik.de/cms/website.php



Datum: Wed Sep 08 04:30:35 PDT 2010

Googlebot-Typ: Web

HTTP/1.1 200 OK
Date: Wed, 08 Sep 2010 11:30:35 GMT
Server: Apache
X-Powered-By: PHP/5.3.3
Set-Cookie: sid=3e74449b201f240a0996e7350cbf519f; path=/
Expires: Thu, 19 Nov 1981 08:52:00 GMT
Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Pragma: no-cache
Connection: close
Transfer-Encoding: chunked
Content-Type: text/html; charset=iso-8859-1

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
"http://www.w3.org/TR/html4/loose.dtd">
<html>


<head>
<title>IS+S Informationstechnik GmbH: IT Systemhaus und Projekte, IT Compliance und Qualitätsmanagement</title>













<link rel="stylesheet" href="../html/script/lightbox/lightbox.css" type="text/css" media="screen">
<script>
var fileLoadingImage = "../html/script/lightbox/loading.gif";
var fileBottomNavCloseImage = "../html/script/lightbox/close.gif";
</script>
<script src="../html/script/lightbox/prototype.js"></script>
<script src="../html/script/lightbox/scriptaculous.js?load=effects"></script>
<script src="../html/script/lightbox/lightbox.js"></script>



<style type="text/css" media="screen"> <br />@import url(../html/style/screen/style.css); <br />@import url(../html/style/screen/navigation.css); <br /></style>

usw.


Die /index.php sieht derzeit wie folgt aus:

<?php

header(\'Location: \'.$_SERVER[\'HTTP_HOST\'].\'/cms/website.php\', true, 301);


exit;
?>


Jemand eine Idee, ob ich mit meiner Vermutung richtig liege, dass der Bot gar nicht durchkommt?
Und wenn ja - was muss ich machen, damit das endlich funktioniert?


Raptor
Avatar Raptor
IT-Student
Content Gott (1013 Beiträge)
am 08.09.2010, 14:23 Uhr schrieb Raptor

Meiner Meinung nach funktioniert alles, wie es sollte:

www.google.de/search



Deneir schrieb:

Ich muss das Thema nochmal aufgreifen, weil der (vermeintliche) Erfolg scheinbar ausbleibt: Der Googlebot findet offensichtlich die Seiten nicht:


Das ist schon korrekt und so gewollt, dass da nur die Umleitung angezeigt wird.


Meine Developer-Website mit den Web-Entwickler-Tools.
Meine Web-Entwicklungs-Dienstleistungen

[url="http://www.seitenreport.de/forum/beitraege/seitenreport_verlosungen/wichtig_neue_regel

matthes
Avatar matthes
Foren Moderator
Evil Genius
Content Halbgott (973 Beiträge)
am 08.09.2010, 14:23 Uhr schrieb matthes

Er kommt doch durch, die Weiterleitung wird korrekt zurückgegeben.

Für www.iss-informationstechnik.de zeigt er dir eben diese Weiterleitungs-Header an, ohne der Weiterleitung zu folgen.


Das ist nützlich, um zu überprüfen, was der Googlebot sieht, wenn er die Domain direkt aufruft. Und er sieht, was er sehen sollte: "Nett, dass Du vorbeischaust, aber das ist jetzt alles woanders: ...cms/website.php"


Make Seitenreport great again!

Deneir
Entwickler
Neuling (5 Beiträge)
am 08.09.2010, 16:17 Uhr schrieb Deneir

Danke für die Antworten.

Mich irritiert eben nur, dass sich Google seit dem 11.08.2010 nicht mehr auf unserer Homepage hat sehen lassen - und das war genau der Zeitpunkt, als ich mit iFrames und Javasript experimentiert hatte, um die Hauptseite nachzuladen.

Wahrscheinlich muss ich mich einfach nur ein wenig in Geduld üben...


hansen
Foren Moderator
Content Gott (1886 Beiträge)
am 08.09.2010, 17:09 Uhr schrieb hansen

Hallo Deneir,

der Cache vieler Deiner Seiten sagt aber etwas anderes:

www.google.com/search


Da sind etliche im September aktualisiert worden.

hansen


Nepal Rundreisen

Deneir
Entwickler
Neuling (5 Beiträge)
am 09.09.2010, 11:53 Uhr schrieb Deneir

hansen schrieb:

Hallo Deneir,

der Cache vieler Deiner Seiten sagt aber etwas anderes:

www.google.com/search


Da sind etliche im September aktualisiert worden.

hansen



Hallo hansen,

ja, hatte ich gesehen, aber falsch interpretiert.
Ich dachte, dass der Crawler die Seiten immer komplett durchsucht, wenn er schon mal da ist - und somit alle finden müsste.
Und da dem nicht so war, vermutete ich einen Fehler beim Redirect.

Vielen Dank für die Info!


  • 1


« zurück zu: OnPage Optimierung

Das Seitenreport Forum hat aktuell 5274 Themen und 36108 Beiträge.
Insgesamt sind 48346 Mitglieder registriert.