GPFS-Metadaten auf SSD

IBM-Forscher vermelden Big-Data-Rekord

Thomas Cloer war viele Jahre lang verantwortlich für die Nachrichten auf computerwoche.de.
Er sorgt außerdem ziemlich rund um die Uhr bei Twitter dafür, dass niemand Weltbewegendes verpasst, treibt sich auch sonst im Social Web herum (auch wieder bei Facebook) und bloggt auf teezeh.de. Apple-affin, bei Smartphones polymorph-pervers.
Storage-Experten im Almaden Research Center der IBM ist gelungen, zehn Milliarden Dateien in 43 Minuten zu scannen.

Dabei wurde der vorherige, gleichfalls von IBM-Forschern aufgestellte Rekord um das 37-fache übertroffen. Basis des alten wie neuen Rekords war das im Jahr 1998 erstmals vorgestellte Cluster-Dateisystems GPFS (General Parallel File System).

Für den aktuellen Rekord griffen die Storage-Wissenschaftler allerdings zu einem "Trick": Die Metadaten der Testinstallation wurden auf vier SSD-Appliances "3205" von Violin Memory untergebracht. Diese erreichen zusammen eine nutzbare Kapazität von 7,2 Terabyte und einen Durchsatz von 5 Gigabyte pro Sekunde. Ihre aggregierte 4-KB-Leserate beträgt über 1 Million MIOPS bei typischer Schreib- und Lese-Latenz von 20 respektive 90 Millisekunden (jeweils bei 4 KB).

Dazu gesellten sich zehn "x3650-M2"-Server (Dual Quad-Core-Prozessoren mit 2,8 Gigahertz Takt, 12 MB CPU-Cache sowie 32 GB DRAM-Arbeitsspeicher) und ein "SilverStorm"-Infiniband-Switch (Modell "9024") mit 24 10/20-Gbps-Ports.

Auf dieser Kombination wurde erstmals sogenanntes Policy-Guided Storage Management (regelbasierendes Auswählen von Dateien für Backup, Migration usw.) für eine 10-Milliarden-Dateien-Umgebung in nur 43 Minuten bewerkstelligt. Das Volumen der GPFS-Metadaten erreichte dabei 6,5 Terabyte. Die deutlich schnelleren Flash-Speicher Violin machten es möglich, den bisherigen Rekord - drei Stunden für eine Milliarde Files - zu "pulverisieren".

Die Datenvolumina weltweit nehmen beständig zu. Bereits Ende dieses Jahres sollen nach Schätzung der Marktforschungsfirma IDC mehr als 1800 Exabyte digitale Daten online sein mit einem darüber hinaus anhaltenden Wachstum von 40 bis 60 Prozent jährlich. In der Folge arbeiten auch Unternehmen mit immer größeren Datenbeständen, deren Verwaltung allerdings an die Grenzen bisher existierender Infrastruktur-Lösungen stößt. Die Auslagerung der Dateisystem-Metadaten auf SSD-Speicher könnte hier für Abhilfe sorgen.

Mehr Details zu dem GPFS-Violin-Rekord finden Interessierte im White Paper der Almaden-Wissenschaftler.