RAID, Alarmkette, Derating & Co.

Hochverfügbarkeit - Storage richtig konfigurieren

17.02.2014
Von Warren Reid
Maximale Verfügbarkeit und Vermeiden von Datenverlusten sind für Unternehmen essentiell. Hierfür muss die Storage-Umgebung entsprechend gerüstet sein. Wir geben Tipps, wie Sie durch die richtige Konfiguration von Hard- und Software die "Magischen fünf Neunen" erreichen.

Wenn Daten im Netzwerk nicht verfügbar sind, sind die darauf zugreifenden Applikationen ebenfalls nicht greifbar, und der Betrieb steht still. Das kommt das Unternehmen meist teuer zu stehen. Eine möglichst hohe Verfügbarkeit ist daher das Ziel jeder IT-Abteilung. Die Verfügbarkeit wird als Uptime-Prozentsatz gemessen.

Foto: Creativa - Fotolia.com

Fünf Neunen, also 99,999 Prozent, entsprechen rund fünf Minuten Downtime pro Jahr, vier Neunen (99,99 Prozent) zirka 53 Minuten. Angesichts der finanziellen Verluste, die pro Minute Downtime auflaufen, lohnt es sich, in Technologien zu investieren, die für mehr Redundanz in der Infrastruktur sorgen und die zusätzliche Neun hinter dem Komma sicherstellen können. RAID-Konfigurationen in Verbindung mit Snapshots oder Datenreplikationslösungen helfen beim Erreichen dieser Ziele. Diese Maßnahmen sind effektiver und sogar kostengünstiger, wenn sie auf ein zuverlässiges SAN oder eine virtuelle Storage-Plattform aufbauen.

HA bedeutet Zuverlässigkeit, Redundanz und schnelle Fehlerbehebung

Hochverfügbarkeit (High Availability, HA) lässt sich durch eine Kombination von drei Designelementen sicherstellen:

  • Hohe Zuverlässigkeit (Mean Time Between Failures, MTBF) des Systems und dessen Subsysteme;

  • Redundante Subsysteme, um möglichst viele Fehlerquellen auszuschließen;

  • Schnelle Fehlerbehebung (Mean Time to Repair, MTTR) mit Field Replaceable Units (FRUs) für alle erfolgskritischen Subsysteme.

Folgende Gleichung zeigt die wichtige Rolle der Betriebsfähigkeit im Design des Systems. Die maximale Verfügbarkeit lässt sich nur erreichen, wenn die Zeit zur Fehlerbehebung minimiert wird:

Verfügbarkeit = MTBF dividiert durch (MTBF + MTTR)

RAID, separate Subsysteme und Alarmkette erhöhen Verfügbarkeit

Eine hohe Zuverlässigkeit und Betriebsfähigkeit der Hardware beziehen sich auf das System und dessen Subsysteme. Für eine hohe Verfügbarkeit auf Systemebene muss die Zuverlässigkeit schon während der Entwicklung "eingebaut" werden. Der erste Schritt ist die Redundanz der Storage-Geräte mithilfe von RAID-Konfigurierungen (RAID 1, 3, 5, 10 und 50) und doppelter Stromversorgung mit eigenem Ventilator, um Überhitzung und damit Komponentenausfällen vorzubeugen. Redundante Controller sorgen für eine noch höhere Verfügbarkeit. Durch die Eliminierung einzelner Fehlerquellen kann das System selbst beim Ausfall eines Subsystems (auch FRU, Field Replaceable Unit) normal funktionieren.

Um die Betriebsfähigkeit für eine möglichst kurze MTTR zu erhöhen, sind zwei Designansätze zu empfehlen. Der erste besteht darin, ein modulares Chassis mit FRUs einzusetzen. Dank der Möglichkeit, ein unterbrochenes Subsystem schnell und einfach auszutauschen, lässt sich die Zeit für die Fehlerbehebung und Wiederinbetriebnahme reduzieren. Durch den Einsatz eines modularen Designs kann der Administrator auf alle Subsysteme zugreifen und die Infrastruktur problemlos und ohne Unterbrechung warten.

Der zweite Ansatz geht von einer sofortigen Benachrichtigung bei einem Ausfall aus. Je länger es bis zur Entdeckung eines Ausfalls dauert, umso länger ist die Zeitspanne, bis der Betrieb wieder läuft. Die Zeit drängt zudem aus einem anderen Grund: Fällt ein redundantes Subsystem aus, so steigt das Risiko eines Ausfalls auf Systemebene. Daher sollte die Firmware des Systems möglichst schnell jeden Fehler erkennen, eingrenzen und bestätigen, ein Failover zu einem redundanten Subsystem starten und eine sofortige Benachrichtigung veranlassen. Die Benachrichtigungsfunktion ist gemäß den Betriebsprozessen zu konfigurieren, damit die richtigen Mitarbeiter rechtzeitig Bescheid erhalten.