RAID, Alarmkette, Derating & Co.

Hochverfügbarkeit - Storage richtig konfigurieren

17.02.2014 von Warren Reid
Maximale Verfügbarkeit und Vermeiden von Datenverlusten sind für Unternehmen essentiell. Hierfür muss die Storage-Umgebung entsprechend gerüstet sein. Wir geben Tipps, wie Sie durch die richtige Konfiguration von Hard- und Software die "Magischen fünf Neunen" erreichen.

Wenn Daten im Netzwerk nicht verfügbar sind, sind die darauf zugreifenden Applikationen ebenfalls nicht greifbar, und der Betrieb steht still. Das kommt das Unternehmen meist teuer zu stehen. Eine möglichst hohe Verfügbarkeit ist daher das Ziel jeder IT-Abteilung. Die Verfügbarkeit wird als Uptime-Prozentsatz gemessen.

Foto: Creativa - Fotolia.com

Fünf Neunen, also 99,999 Prozent, entsprechen rund fünf Minuten Downtime pro Jahr, vier Neunen (99,99 Prozent) zirka 53 Minuten. Angesichts der finanziellen Verluste, die pro Minute Downtime auflaufen, lohnt es sich, in Technologien zu investieren, die für mehr Redundanz in der Infrastruktur sorgen und die zusätzliche Neun hinter dem Komma sicherstellen können. RAID-Konfigurationen in Verbindung mit Snapshots oder Datenreplikationslösungen helfen beim Erreichen dieser Ziele. Diese Maßnahmen sind effektiver und sogar kostengünstiger, wenn sie auf ein zuverlässiges SAN oder eine virtuelle Storage-Plattform aufbauen.

HA bedeutet Zuverlässigkeit, Redundanz und schnelle Fehlerbehebung

Hochverfügbarkeit (High Availability, HA) lässt sich durch eine Kombination von drei Designelementen sicherstellen:

Folgende Gleichung zeigt die wichtige Rolle der Betriebsfähigkeit im Design des Systems. Die maximale Verfügbarkeit lässt sich nur erreichen, wenn die Zeit zur Fehlerbehebung minimiert wird:

Verfügbarkeit = MTBF dividiert durch (MTBF + MTTR)

RAID, separate Subsysteme und Alarmkette erhöhen Verfügbarkeit

Eine hohe Zuverlässigkeit und Betriebsfähigkeit der Hardware beziehen sich auf das System und dessen Subsysteme. Für eine hohe Verfügbarkeit auf Systemebene muss die Zuverlässigkeit schon während der Entwicklung "eingebaut" werden. Der erste Schritt ist die Redundanz der Storage-Geräte mithilfe von RAID-Konfigurierungen (RAID 1, 3, 5, 10 und 50) und doppelter Stromversorgung mit eigenem Ventilator, um Überhitzung und damit Komponentenausfällen vorzubeugen. Redundante Controller sorgen für eine noch höhere Verfügbarkeit. Durch die Eliminierung einzelner Fehlerquellen kann das System selbst beim Ausfall eines Subsystems (auch FRU, Field Replaceable Unit) normal funktionieren.

Um die Betriebsfähigkeit für eine möglichst kurze MTTR zu erhöhen, sind zwei Designansätze zu empfehlen. Der erste besteht darin, ein modulares Chassis mit FRUs einzusetzen. Dank der Möglichkeit, ein unterbrochenes Subsystem schnell und einfach auszutauschen, lässt sich die Zeit für die Fehlerbehebung und Wiederinbetriebnahme reduzieren. Durch den Einsatz eines modularen Designs kann der Administrator auf alle Subsysteme zugreifen und die Infrastruktur problemlos und ohne Unterbrechung warten.

Der zweite Ansatz geht von einer sofortigen Benachrichtigung bei einem Ausfall aus. Je länger es bis zur Entdeckung eines Ausfalls dauert, umso länger ist die Zeitspanne, bis der Betrieb wieder läuft. Die Zeit drängt zudem aus einem anderen Grund: Fällt ein redundantes Subsystem aus, so steigt das Risiko eines Ausfalls auf Systemebene. Daher sollte die Firmware des Systems möglichst schnell jeden Fehler erkennen, eingrenzen und bestätigen, ein Failover zu einem redundanten Subsystem starten und eine sofortige Benachrichtigung veranlassen. Die Benachrichtigungsfunktion ist gemäß den Betriebsprozessen zu konfigurieren, damit die richtigen Mitarbeiter rechtzeitig Bescheid erhalten.

Gefragt: Zuverlässigkeit auf Subsystemebene

Auf der FRU- oder Subsystemebene sind vier Ansätze zur Maximierung der MTBF und zur Integration innovativer SAN-Funktionen zu empfehlen. Da theoretisch jeder einzelne Bestandteil ausfallen kann, ist die Zuverlässigkeit des Subsystems umso höher, je weniger es davon gibt. Unternehmen sollten daher auf eine möglichst kleine Anzahl an Elementen in den Leiterplatten und anderen FRUs achten. Außerdem lohnt es sich, nur auf qualitativ hochwertige Einzelteile zu setzen. Diese sind zwar meist teurer, die bessere Performance und die längere Betriebsdauer zahlen sich aber aus.

Der dritte Ansatz ist das "Derating" ausgewählter Teile. Wird ein Element stets vollständig belastet, senkt dies die Betriebsdauer. Funktioniert eine Komponente beispielsweise bei 50 Prozent des maximalen Verbrauchs an Strom, lassen sich so die Betriebsdauer und somit die MTBF deutlich verlängern.

Ein weiterer Ansatz ist die Auslegung des Systems für Softwarezuverlässigkeit. Zuverlässige Software ist genauso wichtig wie zuverlässige Hardware - wenn nicht wichtiger. Denn Softwarefehler sind langwieriger als Hardwarefehler, da sie sich schwerer eingrenzen lassen und Updates und Patches vor deren Veröffentlichung getestet werden müssen. Die lange MTTR von Softwarefehlern beeinträchtigt die Betriebsfähigkeit und Zuverlässigkeit des Systems. Daher sollten IT-Verantwortliche darauf achten, dass Bugs in der Software möglichst schnell zu entdecken sind.

Verfügbarkeit braucht Qualitätskontrollen

Für eine hohe Verfügbarkeit sind Qualitätskontrollen unentbehrlich, um sicherzustellen, dass das Design den Best Practices für hohe Qualität und Zuverlässigkeit entspricht. Das gilt nicht nur für das System an sich, sondern auch für alle Komponenten.

Dot Hill beispielsweise hat zwei eigene Spezifikationen entwickelt, denen alle Zulieferer folgen müssen. Darüber hinaus testet der Storage-Spezialist die Zuverlässigkeit in regelmäßigen Abständen über einen Zeitraum von vier Wochen und will so sicherstellen, dass die im Design eingebaute Zuverlässigkeit während des Herstellungsprozesses nicht gefährdet wird.

Die Zuverlässigkeit des Systems lässt sich mit einer "Bottom up"-Analyse der Komponenten feststellen. Selbst wenn diese Analysen präzise Ergebnisse liefern können - vor allem unter Einsatz bewährter Methoden -, sollten die Berechnungen stets durch echte Daten aus der Produktion bestätigt werden.

Fazit

Administratoren können durch richtiges Konfigurieren der Hard- und Softwareressourcen die "Magischen fünf Neunen" der Verfügbarkeit erreichen. Dabei ist neben dem eigenen Netzwerk- und Storage-Design auch auf das Engagement der Hersteller für Qualitätssicherung im Rahmen der Verfügbarkeit und Zuverlässigkeit zu achten. (cvi)