Das Einmaleins der Web Analytics

30.04.2007
Von Marco Hassler

Web Analytics: Fehlerquellen

Faktoren, die die Erfolgsmessung von Web-Anwendungen verfälschen:

  • Crawler von Suchmaschinen: Crawler sind Teile von Suchmaschinen, die automatisiert und regelmäßig Inhalte von Websites zusammentragen. Aus Sicht eines Web- Servers verhalten sie sich ähnlich wie Web-Browser und werden deshalb häufig in den Statistiken mitgezählt. Bei Client-seitiger Analyse ist dies nicht der Fall, weil Crawler kaum Javascript interpretieren und Cookies annehmen.

  • Verfügbarkeitsmessung des Servers: Administratoren setzen Programme ein, die im Minutentakt Daten vom Web-Server anfordern, um zu prüfen, ob er erreichbar ist und störungsfrei läuft. Da jedes Mal ein Hit, Page View oder Visit entsteht, treibt das die Statistik nach oben. Diese Dienste lassen sich ebenso wie Crawler erkennen und herausfiltern, um aussagekräftige Analysedaten zu erhalten.

  • Syndikatoren/Feed-Reader: Auch die meisten Feed- Reader besuchen ihre Quellen in regelmäßigen Abständen und generieren damit Traffic - unabhängig davon, ob sich neue Inhalte auf der Website finden oder nicht. Zwar führen die meisten Reader kein Javascript aus, dennoch ist die Aussagekraft der Statistiken insbesondere von Weblogs und allen Diensten, die einen Feed zum Beispiel als RSS oder Atom anbieten, beeinträchtigt.

  • Inhouse Traffic: Hat ein Unternehmen die eigene Website standardmäßig als Startseite des Browsers vorgegeben, werden die eigenen Mitarbeiter bei der Erfolgsmessung mitgezählt. Ist dies nicht gewollt, sollte man die entsprechenden IP-Adressen herausfiltern.

  • HTML-Frameset: Technisch gesehen generiert ein Frameset bei jeder Ansicht im Browser pro Frame einen zusätzlichen Seitenaufruf. Bei drei Frames vervierfacht sich also die Anzahl der Seitenansichten. Gegensteuern ist schwierig, da kaum alle Seiten gleich viele Frames haben.

  • Reloads: Das Tag "Meta Refresh" bewirkt, dass der Client nach einer fest definierten Zeit eine Seite automatisch neu lädt. Dies wird vor allem bei Portalseiten eingesetzt, die ihre Inhalte in kurzen Intervallen aktualisieren. Nicht selten dient es aber auch dazu, den Traffic unsinnigerweise zu vervielfachen.

  • Caching: Je nach IT-Infrastruktur werden gewisse Seiten oder Seitenelemente in vorgelagerten Proxies zwischengespeichert und lokal ausgeliefert. Das verringert das Datenaufkommen und erhöht die Effizienz, weshalb man diese Mechanismen auch nicht ohne triftigen Grund umgehen sollte. Die Folge für die Analyse: Am Web-Server und damit an den Logfiles gehen die Anfragen vorbei, Client-seitige Tools erfassen sie hingegen.