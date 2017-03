Non-volative memory express (NVMe) - nicht zu verwechseln mit dem Storage Medium NVM (Non Volatile Memory). NVMe ist ein relativ neues Protokoll um auf Daten, die auf SSDs gespeichert sind, zuzugreifen. Vorgänger wie SAS oder SATA hatten den Nachteil, dass sie im Vergleich langsamer und schwerfälliger sind. Mit dem neuen Protokoll wird die Latenz um etwa 20µs heruntergeschraubt. Das ist bei schnelldrehenden Festplatten bei einer Latenzzeit von 5000µs natürlich zu vernachlässigen. Allerdings wird es bei Flash SSDs mit Latenzen von 100µs schon interessanter. Allerdings dramatisch wirkt sich NVMe bei zukünftigen SSDs mit 3DXP (3D-XPoint-Technologie) mit Latenzzeiten von weniger als 10µs aus. Zudem sind Flash SSDs mit SAS/SATA oder NVMe verfügbar, aber3DXP-SSDs werden nur noch mit NVMe funktionieren.

Über Latenzen hinaus verbessert NVMe auch die Bandbreite von SSDs indem es SSDs über PCIe (Peripheral Component Interconnect Express) direkt mit der CPU verbindet. Das hat zur Folge, dass eine große Anzahl von PCIe Lanes genutzt werden können, ohne dass ein zusätzlicher HBA (Host-Bus-Adapter) benötigt wird. Eine SAS Lane erreicht 12 GB/s und flacht bei etwas über 1 GB/s ab. Eine SATA Lane unterstützt die Hälfte davon. Eine PCIe Lane läuft bei 1 GB/s und eine typische NVMe SSD kann mit vier solcher Lanes verbunden werden, um bis zu 4 GB/s zu erreichen. Natürlich sind NVMe Befürworter schnell dabei eine SATA SSD, die mit 0,5 GB/s läuft mit einer NMVe SSD zu vergleichen, die mit 3 GB/s läuft. Das ist ein 6-mal größerer Durchsatz!

Ein Storage System besteht allerdings aus verschiedensten SSDs, typischerweise mehr als 10. Bei so vielen SSDs ist der Durchsatz auf Laufwerkebene kaum der Flaschenhals oder der entscheidende Faktor für den Durchsatz auf Systemebene.

Mehr Performance auf System-Ebene

Im Allgemeinen ist die Performance eines Storage Systems abhängig von den folgenden Ressourcen:

• Das Frontend-Netzwerk, dass die Anwendung mit dem Storage verbindet.

• Die CPUs auf denen die Storage Software läuft.

• Die I/O Verbindung zwischen den CPUs und Storage Laufwerken oder Modulen. Bei einem System mit SAS/SATA Laufwerken gehören dazu PCIe Lanes, ein SAS HBA, SAS Lanes und vielleicht ein SAS Expander. Die komplette Bandbreite dieser Verbindung ist generell 12 GB/s. Bei einem System, dass NVMe nutzt, sind PCIe Lanes und vielleicht ein PCIe Switch enthalten. Die komplette Bandbreite dieser Verbindung liegt bei 8-24 GB/s.

• Die Storage-Laufwerke, darunter das Storage Medium und die Medium Kontroller.

Welche dieser vier nun zum Flaschenhals für die Performance wird, hängt von der Systemarchitektur und dem Workload wie Lese- vs. Schreib-Vorgängen und Random vs. Sequentiell ab.

Traditionelle Storage-Systeme die Festplatten nutzen, begrenzt die Anzahl der Festplatten die Geschwindigkeit. Dagegen verhalten sich moderne Systeme, die Flash-Laufwerke benutzen, gänzlich anders. Vor allem sind sie deutlich schneller als Festplatten. Für die meisten Workloads sind flash-basierte Systeme durch die CPU begrenzt. Die CPU ist meist damit ausgelastet Datendienste wie Hochverfügbarkeit, Datenreduktion und Datensicherung zur Verfügung zu stellen.

Weniger verbreitet ist, dass ein flash-basiertes System durch die Anzahl der SSDs begrenzt wird. Das kann passieren, wenn ein System nur über eine kleine Anzahl an SSDs verfügt, wenn es die Last nicht über alle Laufwerke verteilen kann, oder wenn es ältere Laufwerke nutzt, die nicht komplett das SAS/SATA Interface nutzen können. Noch seltener ist, dass das System durch Interconnect oder das Frontend-Netzwerk limitiert wird. Dies kann bei ausgewählten Workloads passieren, zum Beispiel Lastspitzen mit sequentiellem I/O und großen Blöcken. Oder es kann passieren, wenn das Storage-System so designet wurde, um maximale Performance auf Kosten von anspruchsvollen Datendiensten bereitzustellen.

Sollte das System durch die CPU limitiert sein, könnte der Einsatz von NMVe im Gegensatz zu SAS/SATA die Perfomance verbessern, weil der NVMe-Treiber die CPU effizienter nutzt, als der SCSI-Treiber. Aber dieser Gewinn ist moderat - weniger als 20 Prozent - weil der größte Teil der CPU von Datendiensten genutzt wird und nicht von Protokoll-Treibern.

Die Laufleistung mag variieren und Verantwortliche sollten jeden Storage-Anbieter der NVMe anbietet, nach dem Mehr an Performance fragen die aufgrund des eigenen Workloads zu erwarten ist und nicht aufgrund der Benchmarks der Anbieter.

Glücklicherweise cann NVMe in ein Storage-System mit einfachen Änderungen im Layout der Verbindung integriert werden, ohne große Veränderungen der Storage-Architektur. Es gibt allerdings einen Haken: NVMe SSDs mit dual ports sind teuer und diese sind notwendig, um hochausfallsichere Systeme zu bauen. Allerdings wird ihr Preis wahrscheinlich in die Nähe von SATA SSDs fallen. Bei Zeiten werden so alle flash-basierten Systeme NVMe adoptieren. Manche mögen es früher tun als andere, aber es wird kein fundamentales Unterscheidungskriterium sein.

Insgesamt lässt sich sagen, dass NVMe SSDs in einem Storage-System zu nutzen vergleichbar ist, wie hoch performante Reifen bei einem Auto zu benutzen. In den meisten Fällen bieten sie eine kleine Verbesserung der Leistung und benötigen keinen Austausch des Motors. Nett, aber kein wirkliches Unterscheidungskriterium.

Vielleicht interessanter ist eine derzeitige Erweiterung von NVMe, bekannt als NVMe over Fabrics (NVMf) . NVMf führt I/O über Hosts, die RDMA-fähige Netzwerke wie RoCE nutzen, aus. Während NVMe über PCIe um ungefähr 10µs im Vergleich mit SAS verringert, verringert NVMf ungefähr 100µs der Roundtrip Latenz zwischen zwei Hosts im Vergleich zu Protokollen wie iSCSI. Darüber hinaus verringert es die CPU Auslastung bei TCP/IP Prozessen. Dies kann bei Scale-Out-Systemen für die Übertragung von Daten zwischen Hosts vorteilhaft sein. Dafür benötigt werden RDMA-fähige NICs und DCB-fähige Switche, so dass es ein bisschen Zeit brauchen wird, bis es für die Masse geeignet ist.

Turbo für 3D-XPoint-SSDs

Während NVMe für Flash SSDs eine nette Ergänzung ist, ist es wichtig für 3DXP SSDs. Das ist nicht überraschend, wenn wir uns vor Augen führen, dass Intel, die 2011 die Verfügbarkeit von NVMe bekannt gemacht hat, außerdem der Co-Erschaffer von 3DXP ist. Die interne Latenz für 3DXP SSDs beträgt weniger als 10µs, was deutlich schneller ist als 100µs für Flash SSDs. Damit ist gemeint, dass Workloads mit geringer Warteschlangentiefe - mit wenig ausstehenden IOs zu jeder Zeit - viel schneller auf 3DXP SSDs laufen als auf Flash SSDs. Wenn man eine 3DXP SSD mit SAS anstatt NVMe nutzt, würde es die Latenz mehr als verdreifachen und damit den Vorteil von 3DXP minimieren.

Mit Zugangslatenzen von 10µs ist 3DXP ein fundamentalerer Wandel als NVMe allein. Es führt einen neuen und ausdifferenzierteren Layer in die Storage Medium-Pyramide ein und zwar zwischen Flash und NVRAM (basieren auf DRAM).

Im Vergleich zu Flash SSD wird eine 3DXP SSD 10-mal schneller bei einer geringen Warteschlangentiefe sein, 10-mal mehr Schreibzyklen tolerieren, aber auch 10-mal teurer pro Gigabyte. Wenn wir uns diesen Unterschied von 10 bei Preis und Performance vor Augen halten, wäre es sinnvoll Flash und 3DXP SSDs zu kombinieren, so dass Flash für das Speichern von Daten und 3DXP für das Speichern von Metadaten oder Caching Daten genutzt wird. Dieses Vorgehen wird hybride Flash+3DXP Systeme weitaus attraktiver machen als reine Flash-Systeme.

Im Vergleich zu NVRAM DIMM ist eine 3DXP SSD zumeist 10-mal langsamer, hat weniger Schreibzyklen und ist 10-mal günstiger. Daher werden Anwendungsfälle wie Schreib-Caching - die die niedrigste Latenz und höchste Schreibbelastbarkeit, aber keine großen Kapazitäten benötigen - weiter gut funktionieren, wenn NVRAM genutzt wird.

Fazit

Eventuell wird sich das volle Potential von 3DXP nicht bei SSDs, die NVMe nutzen zeigen, sondern bei NVDIMM auf dem Speicherbus. Das liegt daran, dass die tatsächliche Latenz von 3DXP Speicher auf weniger als 1µs geschätzt wird und wenn wir es in eine SSD packen zu einer erhöhten Latenz von 10µs führt.

Und damit wird das hin und her (ticktack) der Storage Protokoll- und Storage Medium-Entwicklung weitergehen. Ein neues Storage-Protokoll ist ein moderates Hin (tick). Ein neues Storage Medium aber ist ein Her (tack)! (hal)