Root Cause Analysis

So optimieren Sie Ihre Prozesse ganzheitlich

01.06.2022

Von

Dr. Theo Steininger ist Gründer und CEO der Erium GmbH. Er ist Experte für KI-Anwendungen und Machine Learning in komplexen Prozessen mit kleinen Datensätzen. Als promovierter Astrophysiker hat er bereits während seiner Zeit an der Technischen Universität München und am Max-Planck Institut für Astrophysik an Informationstheorie, Statistik und Machine Learning geforscht. Heute profitieren Firmen verschiedenster Branchen und insbesondere der produzierenden Industrie von seinem Wissen.

Alle Posts des Autors Email: Connect:

Die Root-Cause-Analyse ist ein beliebtes Werkzeug, um Einflussfaktoren auf ein bestimmtes Ergebnis zu ermitteln. Erfahren Sie, was hinter dieser Methodik steckt.

Um ein Problem zu durchleuchten, sollte in der IT eine Root-Cause-Analyse (Ursachenanalyse) der erste Schritt sein.
Foto: Noind40 - shutterstock.com

In der Industrie haben sich beim Einsatz von Künstlicher Intelligenz Whiteboxing-Verfahren bewährt. So modellieren beim Causal Machine Learning Data Scientists bekannte Zusammenhänge eines Problems und bringen so neue Informationen zur Korrelation ins Spiel, die nicht nur Antworten auf die Frage liefern "was kommt häufig gemeinsam vor?", sondern auch "was bedingt was?". Die Root Cause Analysis - oder Fehler-Ursachen-Analyse - ist eine mögliche Anwendung dessen. Aus ihr entstehen - korrekt angewendet - im industriellen Umfeld enorme Potenziale für Unternehmen.

Root Cause Analysis - Definition

Eine Root-Cause-Analyse hat zum Ziel, die Haupteinflussfaktoren auf ein bestimmtes Ergebnis zu ermitteln, und dient dem Zweck, die richtigen Entscheidungen und Handlungen für die Zukunft abzuleiten. Dazu wird beispielsweise untersucht, warum, wie und wann ein Problem entstanden ist. Funktioniert also beispielsweise ein System nicht mehr oder hat es sich verändert, können Verantwortliche mit Hilfe der Root Cause Analysis untersuchen, wie es zu diesem Vorfall kam. Die Analyse der Ursachen ist damit ein Schritt, der über die Problemlösung hinausgeht, stattdessen wird die initiale Ursache für das Problem identifiziert. So können Verantwortliche dieses direkt beheben, statt nur die daraus entstehenden Symptome zu behandeln.

Weitere Anwendungsgebiete, die von der Root Cause Analysis profitieren, sind die Analyse und Strukturierung von Prozessen sowie Aufgabenstellungen, in denen das Beziehungsgeflecht komplexer Strukturen zu visualisieren und zu gewichten ist. Die Root-Cause-Analyse eignet sich außerdem für die Erörterung verschiedener Problemstellungen innerhalb eines Teams, gerade wenn unterschiedliche Meinungen darüber existieren, warum ein bestimmtes Problem aufgetreten ist. Mithilfe qualitativer und quantitativer Daten kann die Root Cause Analysis hier die wahren Gründe für ein Problem aufzeigen und dabei helfen, eine objektive Zustimmung aller Beteiligten zu erhalten.

Root-Cause-Analyse - Methoden

Eine der beliebtesten Methoden ist das Ursache-Wirkungs-Diagramm, das auch Fischgräten-Modell genannt wird. Hierbei wird das Problem im Kopf der Fischgrätenform definiert, Ursache und Auswirkungen liegen links daneben. Mögliche Ursachen sind mit Kategorien verbunden, die alle mit der Wirbelsäule über die Fischgräten in Verbindung stehen und einen Überblick darüber geben, in welchen Bereichen welche Probleme zu dem aufgetretenen Ereignis geführt haben.

Die 5-Why-Methode wird häufig in Kombination mit dem Fischgräten-Modell verwendet, um bei der Suche nach dem "warum" die einzelnen Gräten des Fisches zu ermitteln. Dabei wird nach der Definition des konkreten Problems zu jeder Antwort eine "Warum"-Frage gestellt. Im Anschluss gilt es so lange weiterzusuchen, bis man zu den Gründen kommt, die das Warum erklären. Die Zahl Fünf im Namen dieser Methodik dient dabei nur als Anhaltspunkt, hat sich allerdings bewährt, um zu jenen Antworten zu gelangen, die wirklich die Ursache des ursprünglich definierten Problems aufzeigen.

Eine weitere interessante Methode ist die Änderungsanalyse. Dabei werden die Änderungen, die einem ganz bestimmten Ereignis vorausgingen, ausgewertet, um herauszufinden, auf welche Änderung sich das Ereignis zurückführen lässt. Hier wird nicht nur auf den unmittelbaren Zeitpunkt, an dem sich etwas in einem System verändert hat oder es nicht mehr funktioniert, sondern auf einen längeren Zeitraum geblickt. So lässt sich idealerweise die ganze Vorgeschichte des Vorkommnisses rekonstruieren. Zu diesem Zweck werden zunächst alle Veränderungen aufgelistet, die vor dem zu betrachtenden Ereignis stattgefunden haben. Anschließend wird analysiert, ob die Veränderungen auch als potenzielle Ursachen für das Ereignis eingestuft werden können. Dies ist der wichtigste Analyseschritt, in den auch andere Techniken - wie etwa die bereits erwähnte 5-Why-Methode - eingebunden werden können.

Root Cause Analysis - Grenzen und Chancen

Gerade bei komplexen Problemen werden die genannten Methoden schnell zu unübersichtlich und zu umfangreich. Aus diesem Grund lassen sich vernetzte Ursache-Wirkungs-Zusammenhänge damit kaum darstellen. Auch zeitliche Abhängigkeiten sind nicht zu erfassen. Dazu kommt, dass die Analyse qualitativ ausgelegt ist. Eine übergreifende statistische Auswertung, die die gewonnenen Ergebnisse quantitativ belegen würde, gibt es dabei nicht. Diese würde anhand von konkreten Daten darlegen, wie stark beispielsweise die Abhängigkeit zwischen zwei Parametern ist. Dadurch ist das Risiko hoch, zum einen entscheidende Zusammenhänge zu übersehen, deren Muster für eine Eins-zu-Eins-Betrachtung zu komplex sind. Zum anderen besteht das Risiko, vermeintliche Ursachen für einen Effekt zu entdecken, die tatsächlich nur Zufall waren.

Mit Causal Machine Learning können Data Scientists jedoch Zusammenhänge modellieren und auf den Prüfstand stellen. Dabei kommen datengetriebene statistische Methoden mit dem Ziel zum Einsatz, nicht nur Korrelationen, sondern Wirkzusammenhänge zu betrachten. Dabei gibt es grundsätzlich zwei Kategorien:

Zusammenhänge werden aus Daten extrahiert: Wenn Data Scientists lernen möchten, wie die Wirkketten im Prozess aufgebaut sind, lassen sich mithilfe von Algorithmen, die die sogenannten D-Separationen betrachten, eine Vielzahl von Varianten ausschließen. D-Separation bezeichnet dabei die Eigenschaft der Verbindung zweier Knoten in einem Bayes'schen Netz zueinander. Allerdings lassen sich rein anhand der Daten nicht alle Fälle differenzieren. So kann beispielsweise nicht zwischen "aus A folgt B" und "aus B folgt A" unterschieden werden. Man lernt vielmehr die grundlegende Topologie der kausalen Struktur aus den vorhandenen Daten. Rein aus Beobachtungsdaten lassen sich kausale Zusammenhänge jedoch nicht vollständig rekonstruieren; lediglich die Korrelationen. Dies liefert aber zumindest die Kandidaten für Ursache-Wirkungspaare/netze, die in anschließenden Versuchen validiert, beziehungsweise falsifiziert werden können.
Vorhandene Informationen durch kausale Modelle ergänzen: Reine Beobachtungsdaten können immer nur über Korrelation, nicht jedoch über die kausalen Zusammenhänge, die die Daten erzeugt haben, Aufschluss geben. Wenn man allerdings zusätzliche Informationen hat - beispielsweise empirisches Wissen aus der Vergangenheit, Verständnis über die Wirkmechanismen und deren Wirkreihenfolge bis hin zu physikalischen (Natur)gesetzmäßigkeiten - dann lässt sich dieses Wissen als kausaler Graph in Form eines Bayes'schen Netzes formulieren und ergänzend zu den Daten nutzen. Genauer gesagt: Die noch unbekannten Größen werden im Bayes'schen Netz mithilfe der Daten gelernt (im klassischen Machine Learning würde man Training dazu sagen). Nach diesem Training erhält man genau jene Ausprägung bzw. Parametrisierung des kausalen statistischen Modells, das die Trainingsdaten bestmöglich erklärt. Dieses trainierte Modell fungiert so als ein digitaler Zwilling des echten Systems und lässt sich nutzen, um Simulationen durchzuführen, wie sich beispielsweise der Output verändert, wenn eine einzelne Größe isoliert vom Rest variiert wird. Wiederholt man das mit allen für eine Root Cause Analysis in Frage kommenden Variablen, erhält man damit ein relatives Ranking der Variablen untereinander, damit natürlich auch die Hauptbeitragsleister und somit das Ergebnis der Root-Cause-Analyse.

Lesetipp: Wer braucht den Digitalen Zwilling wirklich?

In dieser Kategorie profitieren Data Scientists zudem von zusätzlichen Boni:

Das kausale Modell nutzen, um die optimale Maßnahme zu berechnen: Die Ursache für einen Prozess-Outcome zu berechnen, ist das Eine. In einem Unternehmen interessiert jedoch insbesondere die Frage: "Mit welcher Handlung erreichen wir unser Ziel bestmöglich?". Diese Handlung ist statistisch gesprochen eine Intervention. Die dabei entstehenden Daten unterscheiden sich fundamental von reinen Beobachtungsdaten, da sie von einem System erzeugt wurden, das in seinem Verhalten durch die Intervention beeinflusst wurde. Eine Intervention ist ein gezielter Eingriff in ein System. Der Clou: Data Scientists können anhand kausaler Graphen den erwarteten Outcome einer Intervention berechnen. Damit können sie einen kausalen Graphen dazu nutzen, um über Simulationen nach der optimalen Intervention zu suchen. Auf diese Weise erfahren sie nicht nur, woran etwas lag, sondern auch, welche Schritte sie als nächstes angehen sollten.
Über gezielte Interventionen noch mehr über das System lernen: Anhand reiner Beobachtungsdaten lässt sich zwar nicht der Unterschied zwischen "A bedingt B" und "B bedingt A" auflösen, aber dennoch es gibt es einen Weg, den Unterschied herauszufinden: ausprobieren. Oder technisch ausgedrückt: Interventionen. Führen Data Scientists Intervention nämlich tatsächlich aus, können sie anhand der Übereinstimmung von Vorhersage und Realität beurteilen, ob das Modell korrekt ist. Ein Beispiel: Ein Modell besagt "A bedingt B", allerdings ist nicht sicher, ob es nicht auch "B bedingt A" sein könnte. Aus den bisherigen Beobachtungsdaten konnte man (prinzipbedingt) nur schließen, dass A und B korreliert sind. Im anschließenden Test wird A (per Hand) auf bestimmte Werte festgelegt und anschließend beobachtet, ob B entsprechend korreliert ist. Ist das nicht der Fall, gilt nicht mehr die Ursprungshypothese, sondern stattdessen "B bedingt A".
Ein kausales Modell als statistisches Modell nutzen: Als statistisches Modell kann ein kausales Modell auch dazu genutzt werden, um das richtige Experiment für einen schnellstmöglichen Erkenntnisgewinn zu finden - im Sinne von "auf welchen Wert sollte A gesetzt werden, um die Hypothese ,A bedingt B´ schnellstmöglich zu testen?" Darüber hinaus kann es wie klassische Machine-Learning-Modelle regulär für Prädiktionen und Regelkreise eingesetzt werden. Gegenüber nicht-kausalen Modellen hat es aber zusätzlich den offensichtlichen Vorteil, dass statistische Problemfälle vermieden werden können, die sonst zu irreführenden Ergebnissen führen, da Ursache und Wirkung vertauscht wurden. Oder: Wer möchte schon, dass die KI die Feuerwehr wieder nach Hause schickt, damit das Haus aufhört, zu brennen?

Lesetipp: Der Data Scientist muss Aufgaben abgeben

Root Cause Analysis bietet in Kombination mit Machine Learning eine ideale Kombination für Unternehmen, um initiale Ursachen für aufgetretene Probleme statistisch belegt zu identifizieren, dann aber auch durch Interventionsanalyse gezielt zu beheben und so Prozesse langfristig zu optimieren. Robuste Machine-Learning-Modelle gibt es dabei als Nebenprodukte "for free" dazu. (bw)

Aktuelle IDG-Studien

Seit der Einführung von ChatGPT beherrscht kein anderes IT-Thema so die Schlagzeilen wie (generative) künstliche Intelligenz. Wir schauen auf Einsatzszenarien, Hintergründe und Folgen.

Mehr zur Studie erfahren
Der Einsatz von No-/Low-Code boomt. Lange dauert es wohl nicht mehr, bis Software-Entwicklung und Prozessmodellierung via grafischer UI das klassische Coding überholen. Mehr in der Studie.

Mehr zur Studie erfahren
Unternehmen rüsten auf: Je komplexer die Gefährdungslage, desto stärker der Bedarf an Security Services. Dazu alles zu Cyberattacken und Gegenmaßnahmen.

Mehr zur Studie erfahren
Hybrid Work: Wer als Arbeitgeber für die jungen Generationen interessant und attraktiv sein will, darf nicht auf eine moderne IT-Infrastruktur und -Arbeitsumgebung verzichten. Mehr in der Studie.

Mehr zur Studie erfahren
Das datengesteurte Unternehmen - Realität oder Hirngespinst? Erst wenige Firmen schaffen es, mithilfe von Daten-Insights neue Geschäftsmodelle auf die Beine zu stellen. Mehr in der Studie.

Mehr zur Studie erfahren
Für knapp neun von zehn Unternehmen kommt künftig eine Migration in die Cloud ohne strategischen Ansatz nicht infrage. Trends und Zahlen rund ums Thema in unserer Studie.

Mehr zur Studie erfahren
Unternehmen wollen energieeffizienter und nachhaltiger werden. Dazu müssen sie aber noch ihre IT-Strategien anpassen und die notwendige Datenbasis schaffen. Mehr dazu in der Studie.

Mehr zur Studie erfahren
Integrationsplattformen sind Drehscheiben für die Vernetzung von Anwendungen im Unternehmen und unterstützen zudem die Prozessautomatisierung. Mehr in der Studie.

Mehr zur Studie erfahren
Die End-to-End-Automatisierung von Geschäftsprozessen stellt einen wichtigen Eckpfeiler der digitalen Transformation der Unternehmen dar. Trends und Zahlen rund ums Thema in unserer Studie.

Mehr zur Studie erfahren
Auch in wirtschaftlich schwierigen Zeiten ist das (IT/Enterprise) Service Management geschäftskritsich - gerade mit Hinblick auf eine stärkere (Prozess-)Automatisierung. Trends und Zahlen dazu in der Studie.

Mehr zur Studie erfahren