Websites können Google steuern

08.06.2005
Google Sitemaps informieren den Web-Crawler.

Google Sitemaps definiert ein Verfahren, mit dem sich die Struktur einer Website beschreiben lässt. Webmaster hinterlegen diese Informationen in einer separaten Datei und unterstützen damit den Googlebot bei seiner Arbeit.

Davon sollen beide Seiten profitieren: Der Suchmaschinenbetreiber kann Websites schneller bearbeiten und daher seinen Index besser aktualisieren und ausbauen. Umgekehrt nutzt es Websites, wenn sie der Suchmaschine mit Hilfe einer Sitemap mitteilen, welche Seiten sich auf dem Server befinden und was sich seit dem letzten Besuch des Spiders verändert hat: Ihre Inhalte werden von Google schneller berücksichtigt.

Mit Google Sitemaps besteht nun die Möglichkeit, die Suchmaschine auch über die Existenz von solchen Dokumenten zu informieren, auf die kein Hyperlink zeigt. Die Verweise innerhalb von HTML-Seiten sind nämlich bisher der einzige Weg für den Web-Crawler, Inhalte aufzuspüren. Verbergen sich Dokumente jedoch hinter HTML-Formularen oder Flash-Animationen, dann sind sie bisher für Google unerreichbar.

Metadaten helfen Googlebot

Neben Hinweisen auf Seiten, die indiziert werden sollen, sieht Google Sitemaps auch vor, dass Webmaster dort zusätzliche Informationen über ihre Inhalte deponieren. Dazu zählt das Datum der letzten Änderung, die Update-Frequenz für einzelne Seiten und sogar die Priorität, die einem bestimmten Dokument im Verhältnis zu anderen auf derselben Site eingeräumt werden soll.

Die derzeitige Spezifikation sieht mehrere Dateiformate vor, in denen diese Metadaten hinterlegt werden können. Die einfachste Variante besteht aus einer simplen Textliste, die nur die URLs der zu indizierenden Seiten enthält. Zusätzlich kennt der Crawler auch RSS 2.0, Atom 0.3 und das Open Archives Initiative Protocol for Metadata Harvesting. Alle relevanten Informationen lassen sich indes nur mit einem proprietären XML-Format übermitteln, das Google für diesen Zweck entwickelt hat.

Die Sitemaps-Initiative ist innerhalb kurzer Zeit der zweite Versuch, den Betreibern von Websites mehr Einfluss auf das Verhalten der Suchmaschine zu geben. Im Januar hatte Google ein Attribut eingeführt (rel="nofollow"), mit dem Autoren einer Seite festlegen können, ob ein Hyperlink dem Dokument, auf das er verweist, für das Ranking gutgeschrieben wird. Nähere Informationen finden sich unter http://www.google.com/web master/sitemaps. (ws)