Ausfallsicherheit lässt sich planen

So sichern Unternehmen ihre geschäftskritischen IT-Systeme

22.10.2018
Von 
Bernd Hanstein ist Diplom-Physiker und verantwortlicher Leiter des Produktmanagements IT der Rittal GmbH & Co. KG in Herborn. Zuvor war er in mehreren Führungspositionen innerhalb der Automobilelektronik, der Telekommunikations- und der IT-Technologie tätig. Für die Siemens AG hat er beispielsweise im Unternehmensbereich „Öffentliche Netze“ die Implementierung großer ITK-Projekte realisiert.
Jedes Rechenzentrum kann theoretisch einmal ausfallen. Eine systematische Planung hilft dabei, Komponenten wie Strom, Kühlung oder das Monitoring vor einem Ausfall zu schützen. Was IT-Verantwortliche bei der Realisierung von ausfallsicheren Rechenzentren beachten sollten, zeigt der folgende Beitrag.
Wer richtig plant, kann seine IT-Systeme vor Ausfällen schützen.
Wer richtig plant, kann seine IT-Systeme vor Ausfällen schützen.
Foto: Connect world - shutterstock.com

Die Verfügbarkeit einer IT-Umgebung lässt sich gemäß der amerikanischen Beratungsgesellschaft Uptime Institute in die vier Verfügbarkeitsklassen Tier 1 bis Tier 4 einstufen. Die niedrigste Tier 1-Stufe erlaubt eine jährliche Ausfallzeit von rund 29 Stunden und kommt ohne Redundanzen für die Energie- und Kälteverteilung aus. Am anderen Ende der Skala erlaubt die Tier 4-Klassifizierung nur 0,4 Stunden Ausfallzeit im Jahr. Hier sind Versorgungswege mehrfach doppelt ausgelegt und eine Wartung ist im laufenden Betrieb möglich, ohne dass es zu einem IT-Stillstand kommt.

In Europa orientieren sich Unternehmen heute an der DIN EN 50600. Diese Norm macht mit einem ganzheitlichen Ansatz umfassende Vorgaben für die Planung, den Neubau und den Betrieb eines Rechenzentrums. Die dort definierte höchste Verfügbarkeitsklasse 4 (VK 4) gibt keine konkreten quantitativen Angaben zu Ausfallzeiten, sondern macht konzeptionelle Vorgaben für eine „sehr hohe Verfügbarkeit“. So sieht die VK 4 eine Auslegung mit Systemredundanzen vor, schlägt also doppelte Versorgungspfade vor, jedoch nur ein Kälteversorgungpfad. Eine weitere Klassifizierung zur Ausfallsicherheit kommt vom Bundesamt für Sicherheit in der Informationstechnik (BSI), das die VK 4 mit 99,999 Prozent definiert, was eine Ausfallzeit von 26 Sekunden im Monat bzw. 6 Minuten im Jahr erlaubt.

Ausfallsicherheit – viel hilft viel

Den Anforderungen einer hohen Ausfallsicherheit begegnen IT-Verantwortliche über das Konzept einer redundant ausgelegten Infrastruktur. Im Bereich der IT bedeutet Redundanz, dass funktional vergleichbare Ressourcen doppelt vorgehalten werden. Es werden also Überkapazitäten geschaffen, um einen Hardware-Ausfall ausgleichen zu können. Die einfachste Form ist die N+1-Redundanz. Hier wird zusätzlich zu den benötigten Einheiten eine weitere Komponente bereitgestellt – also die benötige Einheit N (=Need) plus eins. Fällt in einer solchen Architektur eine Komponente aus, übernimmt die Standby-Einheit. Ausgehend von diesen theoretischen Überlegungen erfolgt die Optimierung der Ausfallsicherheit auf Hardware-Ebene über die Gewerke Strom, Kühlung und Monitoring.

Mit A/B-Einspeisung die Stromversorgung sichern

Die Energieversorgung zu sichern, ist eine zentrale Aufgabe beim Betrieb von Rechenzentren. Netzschwankungen und kurzzeitige Ausfälle werden durch batteriegepufferte USV-Anlagen abgesichert. Arbeitet die USV mit einer modularen Architektur, muss die Gesamtanlage nicht vollständig redundant ausgelegt werden. Vielmehr können ein oder zwei USV-Module dafür vorgesehen werden, um den Ausfall eines anderen Moduls aufzufangen. Der Vorteil sind geringe Kosten, da weniger Standby-Einheiten benötigt werden. Dies lässt sich um das 2N-Konzept erweitern: Hier speisen zwei unterschiedliche Netzzuleitungen die USV-Systeme. Diese sogenannte A/B-Einspeisung sorgt dafür, dass die Energieversorgung immer über eine Zuleitung gesichert wird. Bei höchster Ausfallsicherheit werden die einzelnen Energiepfade bis auf Ebene der IT-Racks redundant ausgelegt. Ein automatischer Transferschalter (STS - Static Transfer Switch) schaltet die jeweils aktive Energiequelle automatisch auf den Strompfad, sodass zu jeder Zeit die Stromversorgung gesichert ist.

Das könnte Sie auch interessieren:

Wie Data-Center-Betreiber Ausfälle vermeiden

In fünf Schritten zum Next Generation Data Center

IT-Kühlung gegen Stromspitzen schützen

Eine weitere kritische Komponente im Rechenzentrum sind die Kühlsysteme: Fällt die Kälteerzeugung aus, besteht die Gefahr einer Überhitzung und Beschädigung der Server. Wird höchste Ausfallsicherheit benötigt, sollte die IT-Kühlung um eine USV-Anlage ergänzt werden, um Stromspitzen und Schwankungen im Stromnetz auszugleichen. Der Fachbegriff für eine unterbrechungsfreie IT-Kühlung: „Continuous cooling“. Darüber hinaus wird bei Kühlsystemen üblicherweise keine A/B-Absicherung der Energieversorgung verwendet. Auch werden keine doppelten Wasserkreise installiert.

Für eine Notkühlung kann es unter Umständen genügen, die Türen der IT-Racks über eine Automatik zu öffnen, um so einen Hitzestau zu verhindern. Letztlich geht es aber bei einem Ausfall der Kühlung primär darum, die Server schnell und ohne Datenverlust herunterzufahren, um die Hardware vor Folgeschäden zu schützen.

Energieversorgung für das Monitoring beachten

Der dritte Aspekt auf Hardware-Ebene ist das Monitoring. Das zur Überwachung der Infrastruktur verwendete Monitoring-System sollte über eine redundante Stromversorgung gesichert werden. So ist es möglich, zusätzlich zu einem regulären Stromkreis das System über PoE (Power over Ethernet) abzusichern. Höchste Sicherheit bietet eine vollständig gespiegelte Monitoring-Plattform, die dann zum Beispiel als Monitor A und Monitor B Instanz arbeitet.