Web

Indexiert Web-Sites hinter HTML-Formularen

Google geht das "Deep Web" an

Thomas Cloer war viele Jahre lang verantwortlich für die Nachrichten auf computerwoche.de.
Er sorgt außerdem ziemlich rund um die Uhr bei Twitter dafür, dass niemand Weltbewegendes verpasst, treibt sich auch sonst im Social Web herum (auch wieder bei Facebook) und bloggt auf teezeh.de. Apple-affin, bei Smartphones polymorph-pervers.
Google sucht vorerst experimentell auch nach Inhalten, die sich hinter HTML-Formularen auf Websites "verstecken".

Google ist naturgemäß stets auf der Suche nach neuen und interessanten Inhalten, um die es seinen Index ergänzen kann. Dazu durchforstet der Internet-Riese neben dem (X)HTML-Code auch bereits JavaScript und Flash auf vom Googlebot besuchten Web-Seiten. Nun geht er noch einen Schritt weiter und nimmt sich HTML-Formulare mit ihren dahinterliegenden Inhalten vor, wie Jayant Madhavan und Alon Halevy vom Crawling and Indexing Team im offiziellen "Google Webmaster Central Blog" berichten.

Wenn Google auf einer "hochwertigen" Seite auf ein <FORM>-Element trifft, führt es dort unter Umständen einige kleine Abfragen durch: In Textfelder werden automatisch einige Wörter aus dem Kontext der jeweiligen Seite eingegeben; bei Auswahlmenüs, Checkboxen und Radio-Buttons bedient sich der Bot aus dem Quellcode. Nachdem die Werte für jeden Input gewählt sind, generiert Google URLs, die mit einer möglichen Suchanfrage eines Nutzers korrespondieren, und versucht diese zu crawlen. Wenn sich herausstellt, dass das Ergebnis valide und interessant ist, wird die Seite eventuell genauso indexiert wie jede andere.

Die Google-Mitarbeiter versichern, dass sich das Experiment unbedingt an die "guten Sitten" des Internet halte. Google lasse die Spezialbehandlung vorerst nur wenigen Sites angedeihen. Der Googlebot halte sich dabei strikt an die Vorgaben der robots.txt und "nofollow"- sowie "noindex"-Anweisungen. Außerdem würden nur "GET"-Formulare beackert und solche ignoriert, die Nutzerinformation jeglicher Art abholen. Die zusätzlich erfassten Seiten gingen außerdem nicht zu Lasten regulär gecrawlter, deren PageRank somit auch nicht sinke. Last, but not least werde die Anzahl der Fetches möglichst klein gehalten, um die jeweilige Site nicht über Gebühr zu belasten. (tc)