KI im Rechenzentrum

Mit Machine Learning den IT-Störungen auf der Spur

Jan Schulze ist freier Autor in Erding bei München.
Künstliche Intelligenz (KI) ist auch im IT-Management auf dem Vormarsch. Vor allem bei der frühzeitigen Prognose von Störungen kann die Technologie helfen. Susanne Greiner, Data Scientist beim Software-Dienstleister Würth Phoenix, erklärt den Stand der Entwicklung.
  • Es geht darum, sich anbahnende Störungen zu erkennen, bevor Netzwerk oder kritische Anwendungen beeinträchtigt werden
  • Die Herausforderung besteht beim maschinellen Lernen darin, dem Algorithmus die richtigen Features als Input zu liefern
  • Im Cloud-Zeitalter stoßen die bisherigen Monitoring-Methoden an ihre Grenzen

Was genau muss man sich unter KI im IT-System-Management vorstellen?

Susanne Greiner, Data Scientist beim Software-Dienstleister Würth Phoenix im Bereich Performance Monitoring und User Experience.
Susanne Greiner, Data Scientist beim Software-Dienstleister Würth Phoenix im Bereich Performance Monitoring und User Experience.
Foto: Würth Phoenix

Greiner: KI ist grundsätzlich schwer zu definieren. Je nach Forschungsbereich ist bereits der Grundbegriff "Intelligenz" anders besetzt. Prinzipiell geht es aber darum, dass ein Computer in der Lage ist, auf neue Situationen quasi intelligent - und damit sinnvoll - zu reagieren. Im System-Management ist die Herausforderung, so schnell zu reagieren, dass in den Fachbereichen keiner etwas von einem Problem bemerkt. Ein Alarm, der erst beim Administrator eintrifft, nachdem ein Problem bereits zu einer Störung geworden ist, ist heute nicht mehr viel wert. Es geht darum, per Früherkennung sich anbahnende Störungen zu bemerken, bevor sich das Netzwerk oder eine kritische Anwendung in die falsche Richtung bewegen. Das Ideal der KI im Monitoring wäre also, dass ein Problem noch vor seinem Auftreten mit hoher Sicherheit prognostiziert wird.

Wie lässt sich ein intelligentes Frühwarnsystem einrichten?

Greiner: Dabei kommen zwei Ansätze zusammen. Zum einen benötigt man eine bessere Sicht auf die IT, als das mit den heute üblichen Durchschnittswerten im Monitoring möglich ist. Zum anderen muss sich die Monitoring-Lösung über maschinelles Lernen selbst fortlaufend trainieren. Die bessere Sicht gewinnt man unter anderem mit komplexeren statistischen Methoden. Wir arbeiten hier erfolgreich mit Wahrscheinlichkeitsdichte-Funktionen, die viel aussagekräftigere Daten liefern als Mittel- und Schwellwerte: Geht man im Monitoring von einem Mittelwert aus, der als normal gilt, kommt es durch die gesetzten Zeitintervalle zu Informationsverlusten. Denn ein Problem muss nicht zwingend eine merkliche Auswirkung auf den Mittelwert haben. So gehen Peaks unter, die zugrundeliegenden Probleme bleiben unerkannt. Man erhält eine eindimensionale Abbildung eines einzelnen Messwerts, der mit einem mehr oder weniger willkürlich definierten Schwellwert verglichen wird. Ist der Schwellwert zu niedrig, gibt es viele Fehlalarme. Ist der Wert zu hoch, bleiben viele Probleme unerkannt.

Zudem können in heterogenen Netzen die Eigenarten der jeweiligen Komponenten nicht abgebildet werden. Jedes Betriebssystem und jede Geräteart erzeugen ein typisches Muster von Minimal- und Maximalwerten. Über die Dichte erhält man hingegen eine informationsreichere Abbildung der Daten, die man zu Clustern zusammenfassen kann. Sinnvoll ist hier, die Cluster anhand der Dichte des Traffics im Netz zu bilden. Dabei geht man davon aus, dass dichter Datenverkehr dem normalen Betrieb entspricht. Bereiche mit wenig Traffic - man spricht hier von Sparse Traffic - sind dagegen ein Hinweis auf Probleme. So kann man die gemessenen Daten genauer analysieren.

Susanne Greiner

Susanne Greiner studierte Experimentalphysik an der Universität Erlangen mit dem Schwerpunkt Medizintechnik. Parallel zum Studium arbeitete sie als Werkstudentin bei der Siemens AG in einer Entwicklungsabteilung für Software zu bildgebenden Verfahren. Um insbesondere die Aspekte des maschinellen Lernens zu vertiefen, promovierte Greiner nach dem Master-Abschluss an der Universität Trient im Bereich „Machine Learning for Neuroscience“. Sie arbeitet seit 2015 als Data Scientist beim Software-Dienstleister Würth Phoenix im Bereich Performance Monitoring und User Experience. Eines ihrer Ziele ist es, Verfahren des maschinellen Lernens gezielt einzusetzen, um Monitoring-Systeme wie die von Würth Phoenix entwickelte Lösung NetEye zu verbessern.

Und diese Daten werden dann im maschinellen Lernen verarbeitet?

Greiner: Genau. Beim maschinellen Lernen kommt es ja darauf an, ein mathematisches Modell mit Beispielen zu befüllen, deren Output, das so genannte Label, bekannt ist. Damit wird das System trainiert. Man kann also in Hinblick auf das Monitoring zwischen Statistik und maschinellem Lernen unterscheiden: Der statistische Ansatz ist darauf ausgerichtet, mittels Interferenzen den Prozess zu finden, der die Daten generiert hat. Beim maschinellen Lernen wiederum geht es vorwiegend darum, zu prognostizieren, wann bestimmte Daten auftreten werden. Die Statistik liefert also die Grundlage für das Lernen. Das grundsätzliche Problem dabei ist, dass wir oft die relevanten Merkmale nicht hinreichend genau beschreiben können.

Stößt das maschinelle Lernen an seine Grenzen, wenn die Merkmale nicht genau beschreibbar sind? Wie kann das System dann lernen, was relevant ist?

Greiner: Nein, das schränkt das maschinelle Lernen nicht ein. Es ist aber auf jeden Fall eine Herausforderung, dem Algorithmus die richtigen Features als Input zu liefern. Ein einfaches Beispiel: Ein System soll Hunde erkennen. Es ist kaum möglich, alle Merkmale eines Hundes so exakt zu beschreiben, dass jeder Hund sicher durch den Algorithmus als Vertreter dieser Art erkannt wird. Hier setzt das Deep Learning an. Dabei optimiert die Software fortlaufend die Daten und spezifiziert die Merkmale selbst. Dabei werden neuronale Netze gebildet, die einen ähnlichen Aufbau haben wie das menschliche Gehirn und in mehreren Schichten angeordnet sind.

Dieser Ansatz kam zum Beispiel auch bei den Go-Algorithmen zum Einsatz, die 2016 und 2017 für Furore gesorgt haben. Das Ganze geht natürlich nicht von alleine. Es kommt beim maschinellen Lernen sehr darauf an, wie die Trainingsdaten aufbereitet und kodiert werden, damit der Algorithmus überhaupt lernt, auf welche Merkmale zu achten ist. Wir experimentieren im Bereich Monitoring auch viel mit unbeaufsichtigtem Lernen. Dabei versucht der Algorithmus, in einem ansonsten strukturlosen Datenrauschen Muster zu erkennen.

Mit welchen Daten arbeiten Sie dazu im Monitoring?

Greiner: Wir verwenden in der Regel zwei unterschiedliche Sichten auf die IT. Zum einen nutzen wir die klassischen Performance-Daten wie CPU-Last, Netzwerklatenz, I/O-Auslastung und dergleichen. Diese reichern wir mit der so genannten Real User Experience an. Dabei wird das Verhalten der IT aus Sicht des Anwenders erfasst. Hier gibt es zwei Ansätze: aktiv und passiv. Passiv nutzt man dazu klassische Monitoring-Daten, etwa aus dem Application Performance Monitoring. Für die aktive Messung der User Experience nutzen und unterstützen wir das Open-Source-Projekt Alyvix. Damit simulieren wir typische Anwenderaktionen am Client, zum Beispiel eine Buchung in SAP, um dessen Wahrnehmung mit aufzunehmen. Die Erfahrung zeigt, dass die Sicht der IT-Abteilung anhand der herkömmlichen Monitoring-Daten und der Eindruck der Endanwender oft nicht übereinstimmen.

Wie weit ist die Technologie des maschinellen Lernens im IT-System-Management fortgeschritten?

Greiner: Wir haben bereits einige Funktionen wie maschinelles Lernen oder auch erweiterte Statistik in unsere Produkte und bei Kunden implementiert. Aber bis zur vollautomatischen IT-System-Management-Lösung ist es noch ein weiter Weg. Doch die Forschung im Bereich des Machine Learning macht rasante Fortschritte. Zudem ist der Bedarf in den Unternehmen da: Im Cloud-Zeitalter reichen die bisherigen Monitoring-Methoden einfach nicht mehr, da die Unternehmens-IT keinen Zugriff auf diesen Teil der Services hat. Deswegen denke ich, dass wir durch KI in den kommenden Monaten und Jahren viele spannende Entwicklungen im IT-System-Management sehen werden.