AIOps

Die 10 besten Tools und Plattformen

26.07.2021
Von 
Peter Wayner schreibt unter anderem für unsere US-Schwesterpublikation InfoWorld.com und ist Autor verschiedener Bücher - unter anderem zu den Themen Open Source Software, autonomes Fahren und digitale Transaktionen.
AIOps macht Unternehmen das Infrastruktur-Monitoring-Leben leichter. Das sind die besten Plattformen und Tools.
AIOps unterstützt mit Hilfe von KI und ML beim Monitoring der IT-Infrastruktur. Diese Plattformen und Tools sollten Sie kennen.
AIOps unterstützt mit Hilfe von KI und ML beim Monitoring der IT-Infrastruktur. Diese Plattformen und Tools sollten Sie kennen.
Foto: McLittle Stock - shutterstock.com

Künstliche Intelligenz war einst ein magiebehaftetes Konzept - der Stoff, aus dem Science-Fiction-Träume gemacht sind. Jetzt, nach Jahrzehnten der Forschung und Kommerzialisierung, hat sich KI zu einem grundlegenden Werkzeug entwickelt, um den Unternehmens-Stack am Laufen zu halten. Nirgendwo wird das deutlicher als in der DevOps-Welt, die einen perfekten "Sandkasten" für die Erkundung der Leistungsfähigkeit von Künstlicher Intelligenz darstellt. Die Teams, die für den Betrieb verantwortlich sind, haben inzwischen eine wachsende Sammlung von arbeitssparenden und effizienzsteigernden Tools und Plattformen unter dem Akronym "AIOps" im Angebot. Das Versprechen: Die besten KI-Algorithmen für die Wartung der IT-Infrastruktur einzusetzen.

Eine grundlegende Aufgabe für AIops bestehen darin, die Bereitstellung von Software auf Cloud-Instanzen zu beschleunigen. Die gesamte Arbeit eines DevOps-Teams kann durch eine intelligentere Automatisierung verbessert werden, die in der Lage ist, die Auslastung zu überwachen, den Bedarf vorherzusagen und sogar neue Instanzen zu starten. Gute AIOps Tools erstellen zudem prädiktive Schätzungen über die Maschinenauslastung und beobachten dann, ob der Ist-Zustand davon abweicht.

Ein großer Teil des AIOps-Stacks ist der Verwaltung von Alarmen gewidmet und stellt sicher, dass nur echte Probleme Meetings oder die Nachtruhe unterbrechen. Hochentwickelte AIOps Tools bieten darüber hinaus auch die Möglichkeit einer Root Cause Analysis (Ursachenanalyse) und erstellen Flussdiagramme, um zu verfolgen, wie sich Probleme durch die verschiedenen Maschinen in einer modernen Unternehmensanwendung ausbreiten können.

AIOps-Plattformen und -Tools - Top 10

Einige AIOps-Plattformen werden sich besser in Ihren Stack integrieren als andere. Wenn Sie die Einführung von AIOps in Erwägung ziehen, sollten Sie vorab genau prüfen, wie gut sich das jeweilige Angebot mit Ihren Datenbanken und Services integrieren lässt. Wir haben die zehn führenden AIOps-Plattformen und -Tools für Sie zusammengestellt.

AppDynamics

AppDynamics gehört zum Performance-Monitoring-Spezialisten Cisco. Der Anbieter hat seine Flaggschiff-Plattform um maschinelles Lernen erweitert. Auf diese Weise ist die Lösung in der Lage, auch Metriken mit einbeziehen zu können, die von der historischen Basislinie abweichen. Das System kann ein Flussdiagramm erstellen und lernen, wie Ereignisse bis zum Systemausfall kaskadieren können - und hilft so bei der Identifizierung von Problemursachen. AppDynamics forciert die Korrelation dieser Metriken mit harten "Geschäftsergebnissen" wie Verkaufszahlen und eine "Selbstheilungsmentalität" für seine Plattform, indem es Links bereitstellt, die die Behebung von häufigen Fehlern automatisieren können.

BigPanda

BigPanda konzentriert sich sowohl darauf, verdächtiges Verhalten zu erkennen als auch auf die Orchestrierung der Teams, die mit der Lösung des Problems beauftragt werden. Die gleichnamige Plattform bietet Ursachenanalyse und Ereigniserkennung, die mit den wichtigsten Cloud-Anbietern integriert ist. Die "Level-0-Automatisierung" minimiert den Arbeitsaufwand, der nach dem Auftreten eines Problems entsteht. BigPanda vereinfacht den Arbeitsablauf, indem es Tickets erstellt, Warnmeldungen versendet und sogar virtuelle "War Rooms" für schwerwiegende Probleme einrichtet.

Datadog

Datadog hat vor kurzem sein Performance-Management-Tool um das "Watchdog"-Modul erweitert. Dieses ermöglicht DevOps-Teams, automatische Warnungen anzufordern, wenn die Performance schwächelt. Das AIOps Tool erstellt Leistungsprognosen auf Grundlage historischer Daten. Änderungen bei Metriken wie Latenz, RAM-Verbrauch oder Netzwerkbandbreite können Warnungen auslösen, wenn sie von den Normen abweichen. Das Tool ist mit dem Sicherheitserkennungssystem von Datadog integriert und kann mit virtuellen Maschinen, Cloud-Instanzen und auch Serverless-Funktionen arbeiten.

Dynatrace

Dynatrace ist ein umfassendes Monitoring-Tool zur Überwachung von Cloud-basierten VMs, Containern und anderen Serverless-Lösungen. Es saugt Logdateien, Ereignisberichte und andere Auslöser auf, um laut Hersteller "präzise, KI-gestützte Antworten zu liefern." Das Herzstück der Plattform heißt Davis - eine deterministische KI, die Flussdiagramme und Bäume konstruiert, um die Ursache einer Anomalie oder eines Fehlers genau bestimmen zu können. Ist die Lösung richtig konfiguriert, kann sie autonom arbeiten.

Github Copilot

Die meisten AIOps Tools sind darauf ausgelegt, Software zu unterstützen, die bereits in Betrieb ist. Github Copilot setzt früher im Prozess ein und hilft, wenn der Code zum ersten Mal geschrieben wird. Das Tool beobachtet, was die Programmierer eintippen und macht auf dieser Basis Vervollständigungs-Vorschläge. Github Copilot wurde auf Basis einer Unmenge von Open-Source-Code trainiert.

IBM

IBM hat das "Watson Cloud Pak for AIOps" geschaffen, indem es die Watson-KI in seine größere Cloud-Präsenz integriert hat. Das Tool bietet eine automatisierte Ursachenanalyse für die von der Cloud-Monitoring-Software gesammelten Daten. Wenn die Ereignisse einen konfigurierbaren Schwellenwert erreichen, können sie entweder grundlegende Warnungen oder mehr automatisierte Reaktionen innerhalb der Toolchain auslösen. IBM hat die Ergebnisse in seine übrigen Cloud Paks integriert, um Netzwerk, Business und Robotic Process Automation bereitzustellen.

LogicMonitor

LogicMonitor bündelt einen Root Cause Detector mit einem Alarmsystem, das auf dynamischen Schwellenwerten basiert, die aus historischen Daten erzeugt werden. Das Frühwarnsystem hängt von einem Prognosemodul ab, das diese historischen Daten erweitert, um Schwellenwerte für Latenz, Bandbreite und andere Metriken zu berechnen. LogicMonitor legt Wert darauf, die "Alarmmüdigkeit" zu reduzieren, damit sich die Teams auf wirklich anomales Verhalten konzentrieren können. Die Datensammler greifen auf die wichtigsten Clouds zu und überwachen Rechenressourcen, Netzwerkverkehr und Speichersysteme.

Moogsoft

Moogsoft ist eine spezialisierte KI-Engine, die sich in die wichtigsten Performance-Monitoring-Tools wie New Relic, Datadog, AWS Cloudwatch und AppDynamics integrieren lässt. Wenn Sie Open-Source- oder Inhouse-Lösungen einsetzen, ist das jedoch kein Ausschlusskriterium - laut Hersteller soll das Tool sich mit "allem, überall und jederzeit" integrieren. Das Produkt bewegt die Daten durch eine Pipeline, die Ereignisse de-dupliziert, sie mit Kontextdaten aus anderen Quellen anreichert und dann die Daten korreliert, bevor ein Alarm ausgelöst wird. Die Clustering-Algorithmen und historischen Aufzeichnungen helfen dabei, das Rauschen zu reduzieren und nützlichere Problem-Reportings zu erstellen.

New Relic

New Relic One verfolgt alle Ereignisse, einschließlich derer von anderen Tools wie Splunk, Grafana oder AWS CloudWatch. Das AIOps Tool kann mit flexiblen Empfindlichkeitsstufen für eine Vielzahl von Ereignissen mit potenziellem Schweregrad konfiguriert werden. Sie können New Relic zum Beispiel mitteilen, dass ein Fehler mit niedriger Priorität nur dann einen Alarm auslösen soll, wenn er innerhalb von fünfzehn Minuten mehrmals auftritt. Das Fehlerprotokoll verfolgt alle Ereignisse und enthält einen Korrelationsentscheidungsbericht, der die logischen Schritte aufzeigt, die von der KI auf dem Weg zur Alarmmeldung unternommen wurden.

Splunk

Splunk war ursprünglich ein Tool, um Protokolldateien zu sammeln und ein umfassendes Reporting-Tool zur Leistungsnachverfolgung, Anomalieerkennung und Problemdiagnose aufzusetzen. Das Produkt integriert Infografiken mit einem Indizierungstool, um die Ereignisse zu katalogisieren. Künstliche Intelligenz und maschinelle Lernalgorithmen sollen Probleme vorhersehen und deren Ursache verstehen. Diese Algorithmen verfolgen alle in Splunk integrierten Dienste, um die Problemursachen zu finden. Die Funktionen für maschinelles Lernen sind tief in die Plattform integriert, so dass Servicetechniker, die sich mit Performance-Monitoring auskennen, die besten maschinellen Lernfunktionen ohne viel zusätzliches Training nutzen können. (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation CIO.com.