Service-Qualität in der Cloud

Lernende Algorithmen im Rechenzentrum

31.01.2019 von Henrik Hasenkamp

Anwendungen wie Predictive Maintenance basieren auf Big Date in Verbindung mit lernenden Systemen. Hier lesen Sie, wie ein solches System lernen kann und welche Einsatzmöglichkeiten es gibt.

Die aktuellen Entwicklungen in den Bereichen Industrie 4.0 und Internet of Things (IoT) nutzen Daten, um Produktionsabläufe zu optimieren. Besonders interessant sind beispielsweise die Möglichkeiten, die Datenerfassung und -analyse für die Umsetzung von Predictive Maintenance bringen.

Auch künstliche Intelligenz muss auf vorhandene Informationen zugreifen können, um zu lernen.
Foto: Vasilyev Alexandr - shutterstock.com

Predictive Maintenance für Cloud-Infrastrukturen

Wie lässt sich dieses Konzept auf IT-Infrastrukturen in lokalen Rechenzentren oder Cloud-Umgebungen übertragen? Besonders letztere wollen Flexibilität, Agilität und Hochverfügbarkeit bieten. Die Idee dahinter ist im Prinzip einfach: Jedes außergewöhnliche Ereignis – im Tenor der Maintenance sind hiermit Geräteausfälle, Überbelastungen oder externe Einwirkungen wie etwa Hacker-Angriffe gemeint – erzeugt charakteristische Daten. Zum Beispiel gehen einem Ransomware-Angriff ungewöhnliche Aktivitäten im Netzwerk voraus. Werden verschiedene Telemetrie-Daten der Hardware und der Umgebung in den richtigen Zusammenhang gebracht, sind solche Ereignisse vorhersagbar. Wenn kritische Ereignisse schon vor dem Eintreten erkannt und entsprechende Maßnahmen eingeleitet werden, kann der Impact auf den Betrieb minimiert werden.

Normal oder nicht?

Die Daten sind vorhanden: So bringen die meisten Hardware Devices bereits Sensoren mit, mit denen sich zahlreiche Zustands- und Funktionsdaten erfassen lassen. Solche Telemetrie-Daten sind etwa die Temperatur des Devices und der Umgebung, Latenzzeiten, Anzahl der Schreib- und Lesezugriffe, Logfiles und ähnliches. Ihre Erfassung ist das kleinere Problem. Vielmehr ist die Interpretation der Daten die Herausforderung. Nur weil die I/O-Rate sich kurzzeitig deutlich erhöht, muss dies noch lange kein Hacker-Angriff sein. Vielleicht verursacht ein regulärer Applikationstest völlig zurecht diese Zusatzlast. Und nur weil die Temperatur der Devices ansteigt, steht nicht zwingend deren Ausfall bevor. Möglicherweise arbeitet nur die Klimaanlage im Serverraum nicht richtig.

Studie "Predictive Analytics 2018"

Lars Schwabe (Associate Director bei Lufthansa Industry Solutions
„Die Erfolgsquote von Predictive-Analytics-Projekten ist gestiegen, da die Firmen endlich die notwendigen Vorarbeiten geleistet haben, beispielsweise die Schaffung von modernen Datenarchitekturen. Außerdem sind inzwischen sowohl das Personal fachkundiger und die Tools besser geworden."

Daniel Eiduzzis (Solution Architect Analytics bei Datavard)
„Technisch müssen sich die Unternehmen öffnen und sollten sich nicht sklavisch einem Hersteller verpflichten. Heute geht es vielmehr darum, in Abhängigkeit vom jeweiligen Use Case das ideale Instrument zu identifizieren, mit dem die Fragestellungen bestmöglich bedient werden. Daher kann ein Best-of-Breed Ansatz hier sinnvoll sein.“

Jan Henrik Fischer (Bereichsleiter Business Intelligence & Big Data bei Seven Principles)
„Mit Methoden der Predictive Analytics und der parallel weiter steigenden Digitalisierung werden wir Prozesse besser verstehen. Dies wird ausnahmslos alle Bereiche eines Unternehmens betreffen. Das größte Potenzial liegt dabei sicherlich in der Optimierung der Kundenprozesse. Durch ein tieferes Verständnis für seine Bedürfnisse werden wir in der Lage sein, den Kunden effizienter und besser zu bedienen sowie seine Loyalität zu steigern.“

Vladislav Malicevic (Vice President Development & Support bei Jedox)
„Viele Unternehmen experimentieren bereits seit längerem mit Predictive Analytics. Bislang mangelte es oft an konkreten Anwendungsfällen mit einem klaren Mehrwert, dem sogenannten Business Case. Aber die nächste Phase im Technologie-Lebenszyklus hat bereits begonnen, und Firmen führen nicht mehr nur rein innovationsgetriebene Experimente durch. Sie verknüpfen Predictive-Analytics- und KI-Projekte zunehmend mit einem bereits im Vorfeld klar definierten Mehrwert für bestimmte Fachbereiche oder Geschäftsprozesse, inklusive der erwarteten Ergebnisse und den möglichen Auswirkungen auf bisherige Prozesse.“

Lesetipp: Im Kopf des Bösen - So denken und handeln Hacker

Das bedeutet, das System muss zunächst lernen, was „normal“ im Sinne des Betriebes ist und was nicht. Denn diese Anomalien einfach vorab zu definieren, ergibt in der Praxis wenig Sinn – zu vielfältig sind die Möglichkeiten und Abhängigkeiten.

Damit der Algorithmus lernen kann, müssen Features gesetzt werden. Das sind die Attribute, die in irgendeiner Weise Einfluss auf den Betrieb der Infrastruktur haben und auf die das Augenmerk gelegt werden soll. In der Realität führt dies zu einer schwierig zu überblickenden Komplexität. Im normalen IT-Betrieb gibt es zumeist Spezialisten für einzelne Softwaresysteme oder IT-Komponenten. Nun ist jedoch eine Definition gefragt, die den Normalbetrieb der ganzen IT-Landschaft beschreibt, die von allen integrierten Systemen – von Mail-Tools bis hin zu Produktionssteuerungs-Anwendungen – beeinflusst wird.

Ein Beispiel: Das System erfasst die zur Verfügung stehenden Metriken, wie etwa Netzwerkauslastung und Latenzzeiten. Weil das ERP-System nur zu bestimmten Zeiten Daten an das Produktionssystem übergibt, ist das zu übertragende Datenvolumen den ganzen Tag über eher gering und steigt am späten Abend plötzlich sprunghaft an. In diesem Fall ist dieser Anstieg ein normales Verhalten, was dem System als positives Ereignis markiert wird. Dazu wird idealerweise ein Wertekorridor definiert, der nicht überschritten werden darf. Das heißt: Der Anstieg des Traffics ist zwar normal, darf aber nicht zur Überlastung führen.
Das System speichert nun nicht nur den Wert der Datenübertragungsmenge als Ereignis ab, sondern auch alle anderen in diesem Moment gemessenen Metriken. Der Algorithmus lernt, welche Daten in welchem Zusammenhang etwas auslösen, das für den Betreiber von Bedeutung ist. Je mehr Features gesetzt und je mehr Ereignisse die Basis für die Dateninterpretation bilden, umso treffsicher sind die Vorhersagen des Algorithmus.

Lesetipp: Wer haftet, wenn die Maschine lernt?

IT-Maintenance als mehrstufiges System

In der Praxis ist ein mehrstufiges hierarchisches Modell sinnvoll, das im Notfall warnt, aber eben auch datenbasiert vorausschaut. Die oberste Stufe eines solchen Systems deckt extreme Situationen ab, etwa wie bei einem herkömmlichen Monitoring. Sticht ein Wert aus den erfassten Daten so heraus, dass sofort eingegriffen werden muss? Wenn beispielsweise der Datenstrom von oder zu einer Datenbank abgebrochen ist, gibt es genügend Gründe zu der Annahme, dass hier ein Problem vorliegt. Gegenmaßnahmen sollten sofort und möglichst automatisiert angestoßen werden.

Kern eines intelligenten Systems ist Hierarchiestufe 2. Auf der Basis der zuvor definierten Features und Werte-Korridore sowie der gelernten Zusammenhänge zwischen den Daten entwickelt sich ein System, welches vorausschauend arbeitet. Devices werden gewartet oder getauscht, kurz bevor sie kaputt gehen, in einem Zeitfenster, welches perfekt in den laufenden Betrieb eingetaktet ist. In diesem Ansatz der Predictive Maintenance steckt viel Optimierungspotential, eben genau weil die Abhängigkeiten untereinander und die gegenseitigen Beeinflussungen berücksichtigt werden.

Lesetipp: Predictive Maintenance in der Verpackungsindustrie

Im Praxis-Einsatz beginnt sich darüber hinaus eine Stufe 3 zu entwickeln. Aufsetzend auf dem optimierten Betrieb der Cloud-Infrastruktur sind Cloud-Anbieter nun in der Lage proaktive Services aufzusetzen. So könnten zusätzlich benötigte Ressourcen beispielsweise genau dann automatisch skaliert werden, wenn sie benötigt werden und nicht erst dann, wenn ein Engpass bereits entstanden ist. Der Algorithmus kann dann berechnen, welche Umlagerung für welchen Workload in Frage kommt – unter Berücksichtigung von Risiken und Aufwand. Oder aber der Dienstleister kann hinsichtlich der Infrastruktur-Dimensionen beraten, wenn anhand der Telemetrie-Daten deutlich wird, dass Datenbank und Speicher dauerhaft an ihrer Leistungsgrenze arbeiten.

Künstliche Intelligenz mag noch in den Kinderschuhen stecken. Doch schon jetzt eröffnen die Analyse und Interpretation von Daten neue Möglichkeiten, die, wenn sie mit einem lernenden Algorithmus überdacht werden, weit über das herkömmliche Monitoring hinaus gehen. Doch erst wenn solche Systeme in der Lage sind, weitgehend automatisiert Entscheidungen zu treffen, können sie sinnvoll zum Einsatz kommen und die Servicequalität in der Cloud erhöhen.

Zum Video: Lernende Algorithmen im Rechenzentrum