Service-Qualität in der Cloud

Lernende Algorithmen im Rechenzentrum

31.01.2019
Von   IDG ExpertenNetzwerk


Als CEO von gridscale verantwortet Henrik Hasenkamp die Strategie und Ausrichtung des Infrastructure- und Platform-as-a-Service-Anbieters. Bereits bevor er gridscale 2014 mit ins Leben rief war er im Hosting-Geschäft zu Hause. So sammelte er Erfahrung bei der PlusServer AG, beim IaaS-Provider ProfitBricks, der Vodafone-Geschäftssparte „Cloud & Hosting Germany“ und der Host Europe Group.
Anwendungen wie Predictive Maintenance basieren auf Big Date in Verbindung mit lernenden Systemen. Hier lesen Sie, wie ein solches System lernen kann und welche Einsatzmöglichkeiten es gibt.

Die aktuellen Entwicklungen in den Bereichen Industrie 4.0 und Internet of Things (IoT) nutzen Daten, um Produktionsabläufe zu optimieren. Besonders interessant sind beispielsweise die Möglichkeiten, die Datenerfassung und -analyse für die Umsetzung von Predictive Maintenance bringen.

Auch künstliche Intelligenz muss auf vorhandene Informationen zugreifen können, um zu lernen.
Auch künstliche Intelligenz muss auf vorhandene Informationen zugreifen können, um zu lernen.
Foto: Vasilyev Alexandr - shutterstock.com

Predictive Maintenance für Cloud-Infrastrukturen

Wie lässt sich dieses Konzept auf IT-Infrastrukturen in lokalen Rechenzentren oder Cloud-Umgebungen übertragen? Besonders letztere wollen Flexibilität, Agilität und Hochverfügbarkeit bieten. Die Idee dahinter ist im Prinzip einfach: Jedes außergewöhnliche Ereignis – im Tenor der Maintenance sind hiermit Geräteausfälle, Überbelastungen oder externe Einwirkungen wie etwa Hacker-Angriffe gemeint – erzeugt charakteristische Daten. Zum Beispiel gehen einem Ransomware-Angriff ungewöhnliche Aktivitäten im Netzwerk voraus. Werden verschiedene Telemetrie-Daten der Hardware und der Umgebung in den richtigen Zusammenhang gebracht, sind solche Ereignisse vorhersagbar. Wenn kritische Ereignisse schon vor dem Eintreten erkannt und entsprechende Maßnahmen eingeleitet werden, kann der Impact auf den Betrieb minimiert werden.

Normal oder nicht?

Die Daten sind vorhanden: So bringen die meisten Hardware Devices bereits Sensoren mit, mit denen sich zahlreiche Zustands- und Funktionsdaten erfassen lassen. Solche Telemetrie-Daten sind etwa die Temperatur des Devices und der Umgebung, Latenzzeiten, Anzahl der Schreib- und Lesezugriffe, Logfiles und ähnliches. Ihre Erfassung ist das kleinere Problem. Vielmehr ist die Interpretation der Daten die Herausforderung. Nur weil die I/O-Rate sich kurzzeitig deutlich erhöht, muss dies noch lange kein Hacker-Angriff sein. Vielleicht verursacht ein regulärer Applikationstest völlig zurecht diese Zusatzlast. Und nur weil die Temperatur der Devices ansteigt, steht nicht zwingend deren Ausfall bevor. Möglicherweise arbeitet nur die Klimaanlage im Serverraum nicht richtig.

Lesetipp: Im Kopf des Bösen - So denken und handeln Hacker

Das bedeutet, das System muss zunächst lernen, was „normal“ im Sinne des Betriebes ist und was nicht. Denn diese Anomalien einfach vorab zu definieren, ergibt in der Praxis wenig Sinn – zu vielfältig sind die Möglichkeiten und Abhängigkeiten.

Damit der Algorithmus lernen kann, müssen Features gesetzt werden. Das sind die Attribute, die in irgendeiner Weise Einfluss auf den Betrieb der Infrastruktur haben und auf die das Augenmerk gelegt werden soll. In der Realität führt dies zu einer schwierig zu überblickenden Komplexität. Im normalen IT-Betrieb gibt es zumeist Spezialisten für einzelne Softwaresysteme oder IT-Komponenten. Nun ist jedoch eine Definition gefragt, die den Normalbetrieb der ganzen IT-Landschaft beschreibt, die von allen integrierten Systemen – von Mail-Tools bis hin zu Produktionssteuerungs-Anwendungen – beeinflusst wird.

Ein Beispiel: Das System erfasst die zur Verfügung stehenden Metriken, wie etwa Netzwerkauslastung und Latenzzeiten. Weil das ERP-System nur zu bestimmten Zeiten Daten an das Produktionssystem übergibt, ist das zu übertragende Datenvolumen den ganzen Tag über eher gering und steigt am späten Abend plötzlich sprunghaft an. In diesem Fall ist dieser Anstieg ein normales Verhalten, was dem System als positives Ereignis markiert wird. Dazu wird idealerweise ein Wertekorridor definiert, der nicht überschritten werden darf. Das heißt: Der Anstieg des Traffics ist zwar normal, darf aber nicht zur Überlastung führen.
Das System speichert nun nicht nur den Wert der Datenübertragungsmenge als Ereignis ab, sondern auch alle anderen in diesem Moment gemessenen Metriken. Der Algorithmus lernt, welche Daten in welchem Zusammenhang etwas auslösen, das für den Betreiber von Bedeutung ist. Je mehr Features gesetzt und je mehr Ereignisse die Basis für die Dateninterpretation bilden, umso treffsicher sind die Vorhersagen des Algorithmus.

Lesetipp: Wer haftet, wenn die Maschine lernt?