Machine Learning

Vom Hype zur Realität

Kommentar  14.08.2017
Von 


Paul Salazar ist Vice President Central EMEA bei Elastic. Er verfügt über 30 Jahre Erfahrung in führenden Positionen  in den Bereichen  Engineering, Produktmanagement, Marketing und Sales, sowohl bei international tätigen Unternehmen als auch Startups im Silicon Valley. Seit 20 Jahren liegt sein Fokus auf Open Source Software-Management und Open Source-Businessmodellen.
Machine Learning - ein Begriff, der aus der Statistik hervorgekommen und zum modernen Schlagwort geworden ist. Das bloße Flüstern von "ML" erregt heute Aufmerksamkeit. Doch der geheimnisvolle Nimbus des Begriffs wird nur selten richtig verstanden und ist mit allerlei gehypten Erwartungen behaftet.

Viele Unternehmen betrachten ML als die geheime Zutat, die ihre Berge von Daten wie von Zauberhand in unglaubliche Intelligenz verwandeln wird. Es existiert der naive Glaube, dass die Anstellung eines intelligenten Wissenschaftlers, der ihre Datenberge in einen superschnellen, mit künstlicher Intelligenz programmierten Computer verschiebt, ihnen ermöglicht, die Konkurrenz wie auf einer Rennstrecke zu überholen.

Bei Machine Learning gehen Wunsch und Wirklichkeit weit auseinander.
Bei Machine Learning gehen Wunsch und Wirklichkeit weit auseinander.
Foto: maxuser - shutterstock.com

Die produktive Realität stellt sich jedoch deutlich anders dar: Um nützliche Resultate zu erzielen, kann Machine Learning außerordentlich viel Zeit und Aufwand in Anspruch nehmen, was nicht selten zu Frustration und verschwendeten Bemühungen führen kann. Wie können Unternehmen vor diesem Hintergrund also den Hype um Machine Learning in eine produktive Realität verwandeln? Dieser Artikel beschreibt drei grundlegende Probleme des Machine Learning und wie man sie effektiv lösen kann.

Machine Learning: Die Grundlagen

Ich arbeitete früher für ein reines Machine-Learning-Unternehmen. Dort haben wir extrem schnelle Algorithmen kreiert, die große Menge an Daten sehr schnell verarbeiten konnten. Daneben haben wir über eine Bibliothek verschiedener Machine-Learning-Methoden für echte Ergebnisse gesorgt - darunter z. B. Nearest Neighbor, Support Vector Machine, Random Forest, Decision Tree und weitere.

Eine Machine-Learning-Methode ist eine gut definierte Vorgehensweise zur Analyse von Daten und der Generation von Erkenntnissen in Form von statistischen Wahrscheinlichkeiten. Diese Methoden basieren auf einer Vielzahl von statistischen Formeln, die je nach verfügbaren Daten und der angestrebten Schlussfolgerung variieren. Einige dieser Methoden eignen sich besser für eindimensionale periodische Daten, andere eher für Text und Dokumente und wiederum andere für multidimensionale Daten.

Machine Learning: Die Herausforderungen

Es hört sich zunächst einmal sehr eindrucksvoll an, wenn ein Anbieter mit einer Vielzahl von Machine-Learning-Methoden in seiner Bibliothek auftrumpfen kann. Für den Datenwissenschaftler-Veteranen mit fundierter Erfahrung im Kampf mit Daten bietet eine solche Bibliothek eine immense Leistungskraft, mit der die verfügbaren Daten durchkämmt werden können.

Allerdings birgt dieser Ansatz zahlreiche Herausforderungen.

Zunächst einmal müssen die Daten, bevor sie von einer Methode verwendet werden können, entsprechend vorverarbeitet werden. Dies kann eine extrem mühsame und zeitraubende Aufgabe sein, wobei kleinste Änderungen an den geschäftlichen Anforderungen oder den Datenquellen den Datenwissenschaftler dazu zwingen können, den gesamten Datensatz von Grund auf neu zu erstellen.

Zweitens hat jede Methode eine derartig große Anzahl von Einsatzmöglichkeiten und Ergebnissen, dass die Lösung vorab klar definiert werden muss. Dies setzt voraus, dass der Geschäftsanwender die nuancenreichen Unterschiede zwischen den verschiedenen Methoden zu schätzen weiß oder der Datenwissenschaftler wortgewandt genug ist, um diese Unterschiede entsprechend zu erklären. Leider ist genau dies oft nicht der Fall.

Drittens muss der resultierende Datensatz formatiert oder für die Verwendung durch den Endbenutzer umgewandelt werden. Der Endbenutzer ist in der Regel ein Geschäftsanwender oder Prozessbenutzer, der die zum Einsatz gekommenen komplexen statistischen Methoden nicht versteht. Normalerweise benötigt dieser Endbenutzer nur solche Ergebnisse, die sofort genutzt werden können - egal, ob es sich hierbei um eine Webseite handelt, die einem Endnutzer eine bestimmte Seite präsentiert, oder um eine Heatmap, die einen Sicherheitsanalysten bei der Fahndung nach Bedrohungen unterstützt.

Vom Traum zum Zeit- und Ressourcenfresser

Meine persönliche Erfahrung war, dass sich diese drei Herausforderungen ständig und auf unterschiedliche Art und Weise gestellt haben. Allzu oft verwandelte dies den Traum von Machine-Learning-orientierten Lösungen von einer großartigen Idee in einen albtraumhaften Strudel, der wie ein schwarzes Loch Zeit und Ressourcen verschlang. Das Ganze produzierte Ergebnisse auf einer schmalen Basis - und nicht in einer allgemeinen und vor allem wiederholbaren Form.

Ohne erheblichen Aufwand bei der Bewältigung der Herausforderungen in Bezug auf Vorverarbeitung, Lösungsdefinition und Datenpräsentation konnten die Endkunden der Analyse die generierten Daten kaum nutzbringend verwenden. Dies war sehr frustrierend. Wenn es um die Lieferung der erhofften Ergebnisse ging, die Manager und Führungskräfte erwartet hatten, waren hoch-performante und erstklassige Methoden letztendlich unwirksam.