Google setzt auf Billighardware

19.05.2005
Von Jörg auf
Moderne Google-Racks
Moderne Google-Racks

Das Unternehmen nennt seine globalen Rechnerstandorte "Cluster", hält aber geheim, wo genau die Rechnerfarmen stehen. Während andere IT-Giganten sich über ihre Infrastruktur in Schweigen hüllen, ist Google zwar auskunftsfreudiger, steht aber zugleich in dem Verdacht, die Mitbewerber über das wahre Ausmaß des ausgedehnten Rechnernetzes in die Irre zu führen. Zurzeit wird die Anzahl der Rechenzentren auf mindestens 13 geschätzt, wovon eines in Santa Clara, Kalifornien, und ein weiteres in Herndon, Virginia, steht. Europäische Surfer werden von Zentren in Zürich und Dublin bedient. Ein Datenpaket einer Anfrage an Google.de verlässt nie das "alte Europa".

Über die Frage, wie viele Server in den verschiedenen Rechenzentren stehen, wird seit Jahren spekuliert. Mal werden 60000, mal über 100 000 Server genannt. Nach eigener Auskunft indexiert Google über acht Milliarden Web-Seiten mit einer Größe von durchschnittlich 10 Kilobyte. Es müssen also 80 Terabyte Daten gespeichert werden. Wichtiger als die genaue Anzahl der Maschinen und der indexierten Web-Seiten ist der subtile Aufbau dieser über viele Standorte verteilten Architektur.

Die Beantwortung einer Suchanfrage an diese Grid-Datenbank läuft in zwei Phasen ab. In der ersten Phase landet die Anfrage bei Googles Index-Servern. Gibt der User beispielsweise computerwoche bei Google ein, so schaut der Index-Server in seinem Register nach, welche von ihm indexierten Seiten dieses Wort beinhalten. Bei einer Anfrage nach computerwoche online verknüpft Google die beiden Begriffe per Boolschen "UND"-Operator. Sodann wird nach Relevanz der Ergebnisse eine Rangfolge erstellt, die später darüber entscheidet, an welcher Stelle die Seite in der Ergebnisliste erscheint. Schon diese Erstellung der Liste läuft nicht nur auf einem einzelnen Rechner ab, sondern verteilt sich über mehrere Maschinen.

Weniger als eine halbe Sekunde