Wayback Machine

Das Internet Archive wandert in einen Sun-Container

Thomas Cloer war viele Jahre lang verantwortlich für die Nachrichten auf computerwoche.de.
Er sorgt außerdem ziemlich rund um die Uhr bei Twitter dafür, dass niemand Weltbewegendes verpasst, treibt sich auch sonst im Social Web herum (auch wieder bei Facebook) und bloggt auf teezeh.de. Apple-affin, bei Smartphones polymorph-pervers.
Seit 1997 archiviert Brewster Kahle das Internet, genauer das WWW. Die gigantische Datenbank ist jetzt in ein "Modular Datacenter" von Sun Microsystems umgezogen.

Brewster Kahle hat frühzeitig die Notwendigkeit erkannt, das sich ständig dynamisch verändernde World Wide Web in Form regelmäßiger Snapshots von Web-Seiten zu archivieren und damit für die Nachwelt zu erhalten. Aber auch heute schon ist seine web-historische Suchmaschine "Wayback Machine" ein Vergnügen und unverzichtbares Hilfsmittel.

Die vielleicht größte Datenbank der Welt passt in einen Container voller 'Thumper'...
Die vielleicht größte Datenbank der Welt passt in einen Container voller 'Thumper'...

Bislang waren die gesammelten Daten des Internet Archive auf 800 günstigen Linux-Rechnern mit jeweils vier Festplatten im Presidio-Stadtteil von San Francisco untergebracht. Nun ist das System in einen einzigen Container auf dem Campus von Sun Microsystems in Santa Clara umgezogen.

In dem Sun MD stehen 63 geclusterte Server vom Typ "Sun Fire x4500" mit Dual- und Quad-Core-x86 Prozessoren unter Solaris 10 mit ZFS. An jeder Maschine hängt außerdem ein Array von 48 1-Terabyte-Festplatten ("Thumper").

...und so sieht der von innen aus. (Fotos: Sun)
...und so sieht der von innen aus. (Fotos: Sun)

Das Internet Archive sammelt jeden Monat rund 100 TB neue Daten. Bisher wurde ein typischer Web-Crawl von zehn bis 20 der alten Linux-Maschinen erledigt. Bei dem neuen Sun-System verhalten sich alle 63 Maschinen wie eine einzige.

Neben Web-Seiten archiviert das Internet Archive inzwischen übrigens auch Software, Filme und Audio. Die Organisation arbeitet außerdem mit rund 100 traditionellen Bibliotheken zusammen, deren Kuratoren bei der Konzeption von Deep Links behilflich sind. Gespiegelt wird die gigantische Datenbank zu Disaster-Recovery-Zwecken außerdem zur neuen Bibliotheca Alexandrina in Alexandria, Ägypten.