bhvmedia
Avatar bhvmedia
Themenersteller
IT im Haupt- und Nebenberuf
Guru (145 Beiträge)

SR3: Indexierte Seiten bei Y.

am 15.09.2011, 11:11 Uhr eröffnete bhvmedia folgenden Thread
Feedback    3615 mal gelesen    19 Antwort(en).

Moin,

eine Frage zu den Analysen, genauer zu den Indexierten Seiten bei Y.

Wenn ich eine Internetpräzenz mit 100 Seiten habe und auch 100 Seiten bei Y. als eigenständig indexiert wurden, sollte da in der Bewertung nicht 100 % stehen?

Schon mal Danke!

Gruß Thomas


Meine-Stadt-Bremerhaven.de
Vieles rund um die Seestadt Bremerhaven
BHV-media.de Meine kleine Agentur


gelöschter Benutzer
am 15.09.2011, 11:35 Uhr schrieb

Hi Thomas,

diese Bewertung fand ich auch schon immer etwas merkwürdig. Das betrifft ja auch SR-V2.
Aber woher soll der SR Bot wissen, aus wie vielen Seiten deine HP besteht?

Gruß Thomas


klaus_b
Avatar klaus_b
Er ernährt mich ;-)
Content Meister (328 Beiträge)
am 15.09.2011, 11:44 Uhr schrieb klaus_b

Hallo Thomas,

Ultima schrieb:
Aber woher soll der SR Bot wissen, aus wie vielen Seiten deine HP besteht?

Der SR Bot überprüft ja bereits das Vorhandensein einer sitemap.xml. Also könnte er die sitemap.xml laden und in einem Durchlauf die übermittelten Seiten zählen. Anschließend mit den Y. gemeldeten Seiten verrechnet und ein aussagekräftiges Ergebnis liegt vor.

Servus,
Klaus


klaus_b@.NET über alles was an .NET und C# Spass macht.

hansen
Foren Moderator
Content Gott (1886 Beiträge)
am 15.09.2011, 11:52 Uhr schrieb hansen

bhvmedia schrieb:

Wenn ich eine Internetpräzenz mit 100 Seiten habe und auch 100 Seiten bei Y. als eigenständig indexiert wurden, sollte da in der Bewertung nicht 100 % stehen?


Hallo Thomas,

die Analyse bewertet nicht, ob Du alle Seiten im Index hast, sondern wie viele.
Die 100% bekommst Du etwa bei 200000 Seiten im Index.

Gruß
hansen


Nepal Rundreisen

joerg
Avatar joerg
Fachinformatiker Anwendungsentwicklung
Content Gott (1941 Beiträge)
am 15.09.2011, 12:07 Uhr schrieb joerg

klaus_b schrieb:

Also könnte er die sitemap.xml laden und in einem Durchlauf die übermittelten Seiten zählen. Anschließend mit den Y. gemeldeten Seiten verrechnet und ein aussagekräftiges Ergebnis liegt vor.



Hallo Klaus

Du damit habe ich mal experimentiert. Ich bin aber von der robots.txt ausgegangen. Aus dem Grunde da die sitemap.xml im Root Verzeichnis keine Standardadresse ist.

Zuerst einmal die sitemap.xml im Rootverzeichnis kann auch ein Sitemapindex sein.

Ich generiere dir auch mit PHP mit noch nicht mal 50 Zeilen Code einen Sitemapindex der Tausende von Sitemaps enthält. Dann müsste jede dieser Sitemaps wiederum aufgerufen werden um die Seitenanzahl gesamt zu ermitteln.

Bei kleinen Portalen funktioniert das ganze ja noch.

Als ich damit dann mal ein grösseres Portal überprüft habe hat mein PHP Skript dann gestreikt.

Wie würdest du denn den Fall bewerten wenn Seiten zwar im Index bein Yahoo sind aber keine Sitemap gefunden werden kann?

Ausserdem wenn ich richtig informiert bin wird es den Yahoo Site Explorer bald nicht mehr geben. Ab heute wird er nicht mehr gepflegt wenn die Informationen stimmen.

Gruß
Jörg


Zufällige Umleitung zu der Startseite einer meiner Domains
Meine ungewöhnlichen Tools

klaus_b
Avatar klaus_b
Er ernährt mich ;-)
Content Meister (328 Beiträge)
am 15.09.2011, 12:27 Uhr schrieb klaus_b

Hallo Jörg,

joerg schrieb:
Ich bin aber von der robots.txt ausgegangen. Aus dem Grunde da die sitemap.xml im Root Verzeichnis keine Standardadresse ist.

Da SR die sitemap Adresse aus der robots.txt liest und sich nicht auf den Namen verlässt, sollte dieser Punkt erledigt sein.

joerg schrieb:
Zuerst einmal die sitemap.xml im Rootverzeichnis kann auch ein Sitemapindex sein.

Das kann bereits mit "einem Blick" in das XML geklärt werden, also nicht weiter tragisch.


joerg schrieb:
Ich generiere dir auch mit PHP mit noch nicht mal 50 Zeilen Code einen Sitemapindex der Tausende von Sitemaps enthält. Dann müsste jede dieser Sitemaps wiederum aufgerufen werden um die Seitenanzahl gesamt zu ermitteln.

Am längsten hierbei dürfte das Laden vom Server dauern. Da aber die SR Analyse in weiten teilen asynchron läuft, sollte das auch kein Problem darstellen.

joerg schrieb:
Bei kleinen Portalen funktioniert das ganze ja noch.

Als ich damit dann mal ein grösseres Portal überprüft habe hat mein PHP Skript dann gestreikt.

Für solche Analysen sollten performante und typsicher Sprachen verwendet werden, und keine interpretierte Skriptsprache. Das ist nicht abwertend gemeint, sondern rein faktisch

joerg schrieb:
Wie würdest du denn den Fall bewerten wenn Seiten zwar im Index bein Yahoo sind aber keine Sitemap gefunden werden kann?

Eben genau so wie jetzt; mit einer fiktiven maximalen Anzahl möglicher indizierter Seiten.
Das sollte aber zweitrangig sein, da ein fehlen einer sitemap.xml bereits ein schlechtes Bewertungskriterium darstellt.

joerg schrieb:
Ausserdem wenn ich richtig informiert bin wird es den Yahoo Site Explorer bald nicht mehr geben. Ab heute wird er nicht mehr gepflegt wenn die Informationen stimmen.

Das habe ich auch schon genau so gehört/gelesen.

Ich will hier keine neue Diskussion lostreten, sondern lediglich aufzeigen, dass die von Thomas, AKA bhvmedia, angesprochene Lösung nicht so kompliziert wäre.

Servus,
Klaus


klaus_b@.NET über alles was an .NET und C# Spass macht.


gelöschter Benutzer
am 15.09.2011, 13:56 Uhr schrieb

klaus_b schrieb:
Da SR die sitemap Adresse aus der robots.txt liest und sich nicht auf den Namen verlässt, sollte dieser Punkt erledigt sein.


Nun nur wissen das die wenigsten.

klaus_b schrieb:
Das kann bereits mit "einem Blick" in das XML geklärt werden, also nicht weiter tragisch.

Nicht mit einem, eine Index Map kann genauso gut weitere Index Maps enthalten.[/quote]

klaus_b schrieb:
Am längsten hierbei dürfte das Laden vom Server dauern. Da aber die SR Analyse in weiten teilen asynchron läuft, sollte das auch kein Problem darstellen.


Bei Sitemaps mit über 10k an Urls kommt eine recht große Datenmenge zusammen. Diese zu verarbeiten kann sehr aufwendig werden.

klaus_b schrieb:
Für solche Analysen sollten performante und typsicher Sprachen verwendet werden, und keine interpretierte Skriptsprache. Das ist nicht abwertend gemeint, sondern rein faktisch

Du meinst typisiert, wobei php das auch ist. Aber welche Sprachen würdest du denn empfehlen?


Was ist denn eigentlich mit dem bei Google indizierten Seiten? Die werden bei der Analyse noch gar nicht berücksichtigt.


Schöne Grüße
Thomas


klaus_b
Avatar klaus_b
Er ernährt mich ;-)
Content Meister (328 Beiträge)
am 15.09.2011, 14:21 Uhr schrieb klaus_b

Ultima schrieb:
Bei Sitemaps mit über 10k an Urls kommt eine recht große Datenmenge zusammen. Diese zu verarbeiten kann sehr aufwendig werden.


Warum Datenmenge? Es geht um ein simples zählen während des ladens. Das sollte normalerweise in einem Stream synchron zum laden zu erledigen sein. So muss ausser der ermittelten Anzahl der enthaltenen uri-Einträge nichts gespeichert werden.

Ultima schrieb:
Du meinst typisiert, wobei php das auch ist. Aber welche Sprachen würdest du denn empfehlen?

Ich meine typsicher.
Da hier die meisten Linux-Server verwenden würde ich zu C oder C++ raten. Auf einem Windows-Server würde ich C# mit dem .NET-Framework verwenden.


Ultima schrieb:
Was ist denn eigentlich mit dem bei Google indizierten Seiten? Die werden bei der Analyse noch gar nicht berücksichtigt.


Das solltest du den Matthias fragen

Servus,
Klaus


Schöne Grüße
Thomas
[/quote]


klaus_b@.NET über alles was an .NET und C# Spass macht.

hansen
Foren Moderator
Content Gott (1886 Beiträge)
am 15.09.2011, 14:36 Uhr schrieb hansen

Ultima schrieb:

Was ist denn eigentlich mit dem bei Google indizierten Seiten? Die werden bei der Analyse noch gar nicht berücksichtigt.


Hallo Thomas,

Yahoo hat bis heute einen Dienst angeboten, die Backlinks abzufragen.

developer.yahoo.com/search/siteexplorer/


Weder Google noch Bing bieten so etwas an.

Gruß
hansen


Nepal Rundreisen

joerg
Avatar joerg
Fachinformatiker Anwendungsentwicklung
Content Gott (1941 Beiträge)
am 15.09.2011, 15:25 Uhr schrieb joerg

Hallo Klaus

Also man könnte das Skript dann noch soweit verfeinern das man mit einem Sitemapindex anfängt der wiederum 16 Sitemapindex erhält und so weiter bis am Ende dann eine Sitemap in einem Sitemapindex steht.

Aber fangen wir damit mal an das du es schaffst diesen Sitemapindex vollständig auszulesen.

Sitemapindex

So eine Analyse wirklich lauffähig zu machen und das in einer angemessenen Zeit bei dem was möglich ist nach der Spezifikation aufzubauen bezweifle ich etwas.

Gruß
Jörg


Zufällige Umleitung zu der Startseite einer meiner Domains
Meine ungewöhnlichen Tools

klaus_b
Avatar klaus_b
Er ernährt mich ;-)
Content Meister (328 Beiträge)
am 15.09.2011, 15:54 Uhr schrieb klaus_b

Hallo Jörg,

joerg schrieb:
Aber fangen wir damit mal an das du es schaffst diesen Sitemapindex vollständig auszulesen.

Sorry, aber das ist ein Beispiel für eine Diskussion um des diskutierens willen.
Bei einer vernünftigen Schachtelungstiefe von 1, ein Index mit mehreren sitemaps, sollte eine beschriebene Analyse wirklich kein Problem darstellen.
Sicherheitshalber kann eine Policy verwendet werden die besagt: Wenn im ersten Index ein weiterer Index anthalten ist dann abbrechen.
Begründung: Bei einer größeren Tiefe existieren genug Seiten um mit einer fiktiven Zahl zu rechnen.

joerg schrieb:
So eine Analyse wirklich lauffähig zu machen und das in einer angemessenen Zeit bei dem was möglich ist nach der Spezifikation aufzubauen bezweifle ich etwas.

Wenn jeder so denke würde, hätten wir noch immer Steintafel und Meißel als Kommunikationsmedium.

Was mich viel mehr interessiert ist die Motivation hier in dem Thread, einen Vorschlag zu "zerreden" und auf "Schwachstellen" hinzuweisen die gar nicht existieren, ohne jegliches vernünftiges Argument. Die bisher gebrachten Gegenargumenten sind bestenfalls konstruiert.

Servus,
Klaus


klaus_b@.NET über alles was an .NET und C# Spass macht.



« zurück zu: Feedback

Das Seitenreport Forum hat aktuell 5276 Themen und 36111 Beiträge.
Insgesamt sind 48365 Mitglieder registriert.