Wayback Machine

Das Internet Archive wandert in einen Sun-Container

27.03.2009
Von 
Thomas Cloer war Redakteur der Computerwoche.
Seit 1997 archiviert Brewster Kahle das Internet, genauer das WWW. Die gigantische Datenbank ist jetzt in ein "Modular Datacenter" von Sun Microsystems umgezogen.

Brewster Kahle hat frühzeitig die Notwendigkeit erkannt, das sich ständig dynamisch verändernde World Wide Web in Form regelmäßiger Snapshots von Web-Seiten zu archivieren und damit für die Nachwelt zu erhalten. Aber auch heute schon ist seine web-historische Suchmaschine "Wayback Machine" ein Vergnügen und unverzichtbares Hilfsmittel.

Bislang waren die gesammelten Daten des Internet Archive auf 800 günstigen Linux-Rechnern mit jeweils vier Festplatten im Presidio-Stadtteil von San Francisco untergebracht. Nun ist das System in einen einzigen Container auf dem Campus von Sun Microsystems in Santa Clara umgezogen.

In dem Sun MD stehen 63 geclusterte Server vom Typ "Sun Fire x4500" mit Dual- und Quad-Core-x86 Prozessoren unter Solaris 10 mit ZFS. An jeder Maschine hängt außerdem ein Array von 48 1-Terabyte-Festplatten ("Thumper").

Das Internet Archive sammelt jeden Monat rund 100 TB neue Daten. Bisher wurde ein typischer Web-Crawl von zehn bis 20 der alten Linux-Maschinen erledigt. Bei dem neuen Sun-System verhalten sich alle 63 Maschinen wie eine einzige.

Neben Web-Seiten archiviert das Internet Archive inzwischen übrigens auch Software, Filme und Audio. Die Organisation arbeitet außerdem mit rund 100 traditionellen Bibliotheken zusammen, deren Kuratoren bei der Konzeption von Deep Links behilflich sind. Gespiegelt wird die gigantische Datenbank zu Disaster-Recovery-Zwecken außerdem zur neuen Bibliotheca Alexandrina in Alexandria, Ägypten.