Tipps für Maschinelles Lernen

Machine-Learning-Algorithmen: Missverständnisse

Ryan Francis arbeitet als leitender Redakteur für die CW-Schwesterpublikationen Network World und CSO.
Florian Maier beschäftigt sich mit dem Themenbereich IT-Security und schreibt über reichweitenstarke und populäre IT-Themen an der Schnittstelle zu B2C. Daneben ist er für den Facebook- und LinkedIn-Auftritt der COMPUTERWOCHE zuständig. Er schreibt hauptsächlich für die Portale COMPUTERWOCHE und CIO.
Machine Learning ist eines der derzeit angesagtesten Themen in der Tech-Branche. Doch die Sache mit dem maschinellen Lernen kann auch schnell nach hinten losgehen. Wir sagen Ihnen, was Unternehmen bei der Umsetzung solcher Projekte beachten sollten.

Das Thema Machine Learning ist längst nicht mehr nur Stoff für filmische Science-Fiction-Fabriken: Inzwischen liefert das maschinelle Lernen die Grundlage für viele unserer Alltags-Technologien - egal, ob Siri und Alexa unsere Stimme erkennen, Facebook Fotos automatisch mit Tags versieht oder Amazon und Spotify uns neue Produkte auf Basis unserer Vorlieben empfehlen. Viele Unternehmen arbeiten eifrig an neuen Machine-Learning-Algorithmen, um die Effizienz ihrer Netzwerke und Plattformen weiter zu steigern. Einige Firmen nutzen maschinelles Lernen inzwischen aber auch, um sich gegen mögliche Cyber-Bedrohungen zu schützen und Wide Area Networks zu optimieren.

Aber Sie wissen ja, wie das mit Technologie ist: Eine falsche Implementierung kann zum Super-GAU im Netzwerk führen. Das ist beim Thema Machine Learning nicht anders. Deshalb sollten sich Unternehmen vor der Einführung von maschinellem Lernen der Gefahren bewusst sein, die eine fehlerhafte Implementierung zur Folge haben kann. Dazu zählen nicht nur Einbußen im operativen Geschäft, sondern auch die Gefahr, dass die Technologie vom C-Level zu Unrecht als untauglich eingestuft wird.

Machine Learning will gelernt sein!
Machine Learning will gelernt sein!
Foto: Vasilyev Alexandr - shutterstock.com

Tipps für die Einführung von Machine Learning in Unternehmen

Roman Sinayev ist Entwickler für Security Intelligence Software bei Juniper Networks und kennt die Fallstricke, die Unternehmen bei der Einführung von Machine Learning beachten sollten. Er hat sie für uns im Folgenden zusammengestellt:

1. Unerwartete Verhaltensvariablen

Es ist erstaunlich zu beobachten, dass Dinge, die ein Computer als wichtig erachtet von einem Menschen oft postwendend als trivial eingestuft werden. Gerade deshalb ist es unabdingbar, möglichst viele relevante Variablen und mögliche Ergebnisse in Erwägung zu ziehen, bevor ein Machine-Learning-Algorithmus ausgerollt wird.

Lass Dich überraschen...was für einen Computer relevant ist.
Lass Dich überraschen...was für einen Computer relevant ist.
Foto: pathdoc - shutterstock.com

Ein Beispiel: Stellen Sie sich ein Modell vor, das Bilder von Fahrzeugen in zwei Kategorien einordnen soll: Pkw und Lkw. Wenn nun alle Lkw-Bilder bei Nacht und alle Pkw-Bilder bei Tag aufgenommen wurden, würde der Algorithmus wohl annehmen, dass jedes Bild eines Fahrzeugs, das bei Nacht aufgenommen wurde, einen Lkw zeigt. Die Identifikation von Schlüsselvariablen und -Ergebnissen hilft also dabei, ungewollte oder unerwartete Verhaltensweisen der Lösung zu minimieren.

2. Unerledigte Daten-Hausaufgaben

Um ein gutes Statistik-Modell zu kreieren, sollten Sie verstehen, welche Daten dafür analysiert werden und woher diese kommen. Diese Informationen sind nötig, um die Variablen und möglichen Ergebnisse bestimmen zu können, die wiederum die Performance des Algorithmus beeinflussen. Wenn ein solches Modell die Daten fehlerhaft klassifiziert, dann vielleicht deswegen, weil das Modell nicht auf den repräsentativsten Datensätzen beruht. Das ist allerdings notwendig, wenn die Lösung funktionieren soll.

Daten-Hausaufgaben "vergessen"? Schlecht!
Daten-Hausaufgaben "vergessen"? Schlecht!
Foto: JStaley401 - shutterstock.com

3. Entwicklung, Testing, Release

Um ein nützliches Machine-Learning-Framework zu produzieren, müssen Datenstruktur und -qualität stimmen. Bevor Sie also Machine-Learning-Lösungen auf Ihr Unternehmen loslassen, sollten Data Scientists ein Algorithmus-Modell testen, um dessen Performance sicherzustellen. Wenn neue Daten zum Zwecke des (maschinellen) Lernens hinzugefügt werden, müssen diese gewissenhaft visualisiert und die gesamte Daten-Pipeline überwacht werden. Es kann auch vorkommen, dass die Datenwissenschaftler ein Modell so schnell wie möglich testen wollen und im Zuge dessen Test-Datensätze verwendet werden, die mit den Informationen, denen der Algorithmus in der Praxis ausgesetzt ist, nur wenig zu tun haben.

Datenwissenschaftler sollten vor ausgiebigem Testing keine Scheu haben.
Datenwissenschaftler sollten vor ausgiebigem Testing keine Scheu haben.
Foto: Alena Zamotaeva - shutterstock.com

Sie sollten deshalb über ausreichend Daten zu den ausgewählten Variablen verfügen, um das Algorithmus-Modell angemessen testen zu können. In dieser Phase mehr Daten zur Verfügung zu haben, sorgt für eine deutlich höhere Performance und stellt zudem sicher, dass das Machine-Learning-Projekt später in der realen Produktionsumgebung echten Mehrwert bringt.

4. Potenzielle Fehler

Das letztlich mit einem Projekt verfolgte Ziel kann neue Probleme oder Fragestellungen aufwerfen, die wiederum zu schwerwiegenden Fehlern führen können. In einem berühmten Beispiel hatte ein Großunternehmen einen Social-Media-Bot gelauncht, der das Kommunikationsverhalten von Teenagern analysieren und sich auf Basis von Interaktionen selbst weiterentwickeln sollte. Der Bot wurde allerdings von Usern mit allerlei kontroversen Äußerungen und Themen konfrontiert, so dass das betroffene Unternehmen das Projekt innerhalb von nicht einmal 24 Stunden auf Eis legen musste.

Natürlich werden die meisten Machine-Learning-Projekte nicht in einem solchen öffentlichen Raum eingeführt und die User haben in der Regel auch nicht die Möglichkeit, Daten in einem solchen Ausmaß zu manipulieren - dennoch lehrt dieser Vorfall, dass Unternehmen sich bewusst machen sollten, in welcher Umgebung ihr Algorithmus für maschinelles Lernen "leben" wird. Nur so können sie mögliche Gefahren und schwerwiegende Fehler vorab verhindern.

Nicht jede Umgebung eignet sich für Machine-Learning-Projekte.
Nicht jede Umgebung eignet sich für Machine-Learning-Projekte.
Foto: Stokkete - shutterstock.com

5. Mehr Daten

Wenn Sie beim Test des Machine-Learning-Modells nicht die gewünschten Ergebnisse erzielen, gibt es zwei weitere Optionen: Entweder Sie bauen einen besseren Algorithmus oder Sie sammeln mehr Daten. Letzteres hilft den Entwicklern dabei, die Leistungsgrenzen des Projekts besser zu verstehen.

Wenn es kein Problem darstellt, mehr Daten zu sammeln, sollten Sie damit weiter Ihren Algorithmus füttern, um vielleicht doch noch zum gewünschten Ergebnis zu kommen - ohne einen neuen Designprozess anstoßen zu müssen.

Eine ausgedehnte Daten-Sammlung kann selten schaden.
Eine ausgedehnte Daten-Sammlung kann selten schaden.
Foto: Ryan DeBerardinis - shutterstock.com

6. Das Ensemble-Modell

Seit kurzem gelten sogenannte Ensemble-Learning-Algorithmen in der App-Praxis als sehr erfolgreich. Dabei handelt es sich um einen Prozess, bei dem mehrere Algorithmus-Modelle zur Lösung eines komplexen Problems kombiniert werden.

Viele Algorithmen verfeinern den Brei. Möglicherweise.
Viele Algorithmen verfeinern den Brei. Möglicherweise.
Foto: MNStudio - shutterstock.com

Diese Ensemble-Methoden können die Zuverlässigkeit von Vorhersagen über die Performance wesentlich verbessern.

Dieser Artikel basiert auf einem Beitrag unserer US-Schwesterpublikation networkworld.com.