IT-Resilienz optimieren

7 Tipps für optimierte Ausfallsicherheit

18.07.2022
Von 
Mary K. Pratt ist freiberufliche Journalistin in Massachusetts.
Resilienz bedeutet in der heutigen IT-Welt, Störungen ohne Betriebsunterbrechungen und Einschränkungen der User Experience zu bewältigen. Diese Tipps bringen Sie weiter.
Wie steht es um Ihre Resilienz? Diese 7 Tipps unterstützen Sie dabei, den IT-Anforderungen von heute gerecht zu werden.
Wie steht es um Ihre Resilienz? Diese 7 Tipps unterstützen Sie dabei, den IT-Anforderungen von heute gerecht zu werden.
Foto: photoschmidt - shutterstock.com

Seit jeher fokussiert die IT-Ausfallsicherheit auf die Betriebszeit, also darauf, sicherzustellen, dass Systeme nicht ausfallen - und wenn doch, so schnell wie möglich wieder online sind.

Im digitalen Zeitalter gehört zu IT-Resilienz allerdings weit mehr. Als CIO des Beratungsunternehmens Booz Allen Hamilton betrachtet Brad Stone IT-Resilienz in zwei Dimensionen: Zum einen gehe es darum, Geschäftsunterbrechungen zu verhindern, zum anderen um die Fähigkeit, sich anzupassen, mit Veränderungen umzugehen und Unvorhergesehenes zu bewältigen - und all das, ohne die Benutzererfahrung einzuschränken: "Vor zehn Jahren hätten sie einen Ausfall einfach ausgesessen", erklärt Stone. "Heute sind die Erwartungen deutlich höher: Benutzer und Führungskräfte erwarten, dass Technologien immer funktionieren und ein hochwertiges Erlebnis bieten. Die User verlangen keine Perfektion, aber ihre Ansprüche sind sehr hoch".

Das erfordert in Sachen Ausfallsicherheit einen umfassenderen Ansatz. Wir haben im Gespräch mit Experten und IT-Entscheidern sieben Best Practices identifiziert, die CIOs und IT-Manager dabei unterstützen, den Resilienz-Erwartungen gerecht zu werden.

1. Am Business ausrichten

Für Ron Brown, Director of Business Resilience beim Beratungsunternehmen GuidePoint Security, heißt IT-Resilienz, sicherzustellen, dass Technologie ständig verfügbar ist - auch wenn er einräumt, dass es unwahrscheinlich ist, dabei 100 Prozent zu erreichen: "Man muss sich mit der Tatsache abfinden, dass es irgendwann zu einem Ausfall kommt - und das entsprechend einplanen."

CIOs könnten sich darauf am besten vorbereiten, indem sie die für das Unternehmen wichtigsten Systeme identifizieren. So wisse die IT-Abteilung, welche Dinge im Ernstfall Priorität haben: "Zunächst sollten Sie sich mit dem Business abstimmen und ermitteln, was gebraucht wird und wie es mit dem Budget dafür aussieht", meint Brown und fügt an, dass eine Analyse der Geschäftsauswirkungen bei dieser Abstimmungsarbeit helfen könne. "Wenn man erst einmal verstanden hat, wie die Business-Anforderungen aussehen, geht es darum, die Dienste und Fähigkeiten, die man hat, zuzuordnen und zu bestimmen, welche Anwendungen von welchen Gruppen genutzt werden."

2. Silos aufbrechen

Richard Caralli, Ex-CISO und Senior Advisor beim Risk-Managament-Unternehmen Axio Global, sieht Resilienz als "aufstrebende Eigenschaft", die sich aus dem Management von Betriebsrisiken ergebe. Um sie zu erreichen, sollten IT-Betrieb und Cybersicherheit mit den Führungskräften zusammenarbeiten, die für die Business-Continuity- und Recovery-Planung verantwortlich sind. Das sei allerdings nicht immer der Fall, so der Experte: "Diese Aktivitäten sind oft voneinander isoliert, so dass jede Disziplin mit unterschiedlichen Risikoannahmen und -szenarien arbeitet, obwohl sie in Wirklichkeit zusammenlaufen und zusammenarbeiten müssten."

So könne es laut Caralli dazu kommen, dass sich beispielsweise das Security-Team eines Unternehmens darauf konzentriere, eine gute Defense-in-Depth-Strategie zu entwickeln, um Kompromittierungen bestmöglich zu verhindern, zu erkennen und darauf zu reagieren - am Ende aber nicht gut darauf vorbereitet sei, so schnell wie möglich und mit den geringstmöglichen Konsequenzen zu den normalen Betriebsbedingungen zurückzukehren.

"Wenn es allgemein an Kollaboration mangelt, planen oder quantifizieren die Teams möglicherweise für unterschiedliche Risiken. Es gilt, gemeinsam zu planen und Szenarien durchzuspielen. Wenn man sich vorstellen kann, welche Folgen ein bestimmtes Risiko mit sich bringen könnte, lässt es sich quantifizieren. Nur so weiß man, ob Investitionen in die Prävention oder in Praktiken zur Verringerung der Auswirkungen nötig sind", meint Caralli.

3. Metriken reifen

Da sich die IT-Ausfallsicherheit weiterentwickelt habe, sollten CIOs nach Meinung von Jorge Machado, Partner bei der Unternehmensberatung McKinsey, die Messgrößen für den Betrieb managen, um sicherzustellen, dass diese auf die richtigen Ziele einzahlen: "Wenn wir ein Jahrzehnt zurückgehen, ging es traditionell um die Betriebszeit, die Verfügbarkeit von Anwendungen und die mittlere Zeit bis zur Wiederherstellung. Da heutige Anwendungen zunehmend auf Microservices ausgerichtet sind und wir uns von monolithischen Systemen entfernen, müssen die Metriken nuancierter werden."

Er und sein Kollege Arun Gundurao, Associate Partner bei McKinsey, schlagen Metriken vor, die sich auf die Fähigkeit konzentrieren, kritische Transaktionen auszuführen - etwa die Messung von Fehlern bei Kundeninteraktionen, der Anwendungserfahrung aus Nutzerperspektive oder Service-Level-Ziele: "Es geht darum, was dem Business bei einer bestimmten Anwendung oder Customer Journey wichtig ist - das sollten Sie messen", empfiehlt Gundurao.

4. Üben

Für CIO Stone bedeutet IT-Resilienz in erster Linie, erfolgreich mit unerwarteten Umständen umzugehen. Dazu stelle er selbst sicher, dass seine IT-Abteilung nicht unvorbereitet ist. Das bedeute Schulungen, Tests und Simulationen: "Wir schalten beispielsweise Cluster ab, ohne es allen zu sagen und sehen uns an, wie die Leute reagieren. Das ist fast so etwas wie eine Live-Simulation. Man muss das sorgfältig und zum richtigen Zeitpunkt machen, aber es muss Teil der Kadenz sein. Sie müssen bereit sein, Ihre Mitarbeiter herauszufordern und ihnen Unannehmlichkeiten zu bereiten. Die Gewissheit, solche Situationen bewältigen zu können, kann den Teamgeist stärken."

Darüber hinaus gäben solche Übungen CIOs und ihren Managern die Möglichkeit, Vertrauen in gut funktionierende Prozesse aufzubauen, ihr Muskelgedächtnis zu trainieren sowie Schwachstellen zu identifizieren - etwa fehlende Redundanz bei Mitarbeitern, die in Schlüsseltechnologien geschult sind oder fehlende Backup-Verfahren, falls eine bestimmte Anwendung ausfalle, unterstreicht Stone.

5. In der Architektur verankern

Experten betonen, wie wichtig es ist, die Ausfallsicherheit in die Architektur selbst zu integrieren - zum Beispiel, indem Instanzen und Workloads auf verschiedene, geografische Standorte verteilt werden. Laut Stone ist dies eine Möglichkeit, die Resilienz von Systemen zu gewährleisten: "Es geht darum, das, was man tut, so zu vereinfachen, dass man es wirklich gut machen kann, um die Erwartungen zu erfüllen. Das trägt auch dazu bei, die Teams nicht zu überfordern."

Gundurao empfiehlt hingegen, Site Reliability Engineering (SRE) einzuführen, eine Reihe von Prinzipien und Praktiken für Infrastruktur und Betrieb mit dem Ziel, skalierbare, zuverlässige Systeme zu schaffen: "SRE - und diejenigen, die in diesen Prinzipien geschult sind - konzentrieren sich darauf, die IT so zu gestalten, dass sie nicht nur bei blauem Himmel, sondern auch im Fall eines Sturms funktioniert."

Andrew Long, Global Enterprise Architecture Lead bei Accenture, beobachtet, dass große, traditionell geprägte Organisationen zunehmend die Prinzipien, Technologien und Methoden übernehmen, die Digital-Native-Unternehmen verwenden, um widerstandsfähigere IT-Systeme zu entwickeln: "Das ermöglicht es, seine Widerstandsfähigkeit gegenüber disruptiven Geschäftsereignissen zu verbessern und dadurch wettbewerbsfähiger zu werden."

Dabei würden sich die Unternehmen auch zunehmend von der traditionellen, Wasserfall-basierten Delivery verabschieden und auf produktorientiertere Bereitstellung und Betrieb setzen. Long zufolge, berücksichtige dies tendenziell breitere, strategischere Anforderungen, die die IT-Resilienz unterstützen: "Fast alle Unternehmen haben einen Teil ihres IT-Bestandes in der Cloud. Aber der Schlüssel liegt darin, sich zu überlegen, welche einzigartigen Cloud-Funktionen genutzt werden können, um die Fähigkeit des Unternehmens zu erhöhen, agiler und widerstandsfähiger zu werden."

6. Wachsam bleiben

Organisatorische Risiken, geschäftliche Anforderungen und Technologien werden sich weiterentwickeln - also sollten das auch die Praktiken für die IT-Resilienz tun. Davon ist auch der Accenture-Experte Long überzeugt: "Setzen Sie sich mit dem Business zusammen, um zu verstehen, wo sie die Risiken einer Geschäftsunterbrechung sehen, wie hoch diese sind und vor allem, wie sie deren potenziellen Wert quantifizieren." Wer den aktuellen Zustand seiner Technologie-Landschaft genau kenne, könne besser verstehen, wie sein Unternehmen auf diese Unterbrechung reagieren könne und wo die kritischen Risikobereiche liegen, so der Experte weiter.

Ein weiterer Tipp in diesem Zusammenhang: "Bestätigen Sie die spezifischen Maßnahmen, die ergriffen werden müssen, um das Risiko zu minimieren und entwickeln Sie eine Roadmap für die Umsetzung der Veränderungen." Die Umsetzung dieser Roadmap sei allerdings nur möglich sei, wenn sich alle Beteiligten über das Geschäftsrisiko einig sind, fügt Long hinzu.

7. Verantwortung teilen

Auch die Business-Seite müsse in Sachen IT-Resilienz eine Rolle spielen, daher sollten die Leiter der Geschäftsbereiche ebenfalls eine gewisse Verantwortung dafür übernehmen, ist McKinsey-Experte Machado überzeugt: "Ich bin der Meinung, dass ein Verantwortungsmodell nötig ist, das mit dem Business geteilt werden sollte. Wer auch immer die App entwickelt, sollte auch mit Verantwortung übernehmen, das sollte nicht nur Sache des CIOs sein."

Machado plädiert nicht dafür, dass die Geschäftsbereiche gleich den IT-Betrieb und das tägliche Management von Anwendungen und Systemen übernehmen. Stattdessen sollten sie verstehen, dass sich ihre Anforderungen und Prioritäten auf die Ausfallsicherheit auswirken können: "Wenn die Leiter der Geschäftsbereiche beispielsweise die Time-to-Market und die Geschwindigkeit der Wertschöpfung ständig priorisieren, müssen sie mitverantwortlich dafür sein, ob und wie stark sich das auf die IT-Resilienz auswirken kann." (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation CIO.com.