Unsupervised Machine Learning

Wie KI menschliches Niveau erreicht

30.08.2019 von Martin Heller
Unüberwachtes maschinelles Lernen hat das Potenzial, Künstliche Intelligenz auf ein völlig neues Level zu heben. Wir sagen Ihnen, wie und warum.

Dem Erfolg von Supervised Machine Learning und Deep Learning zum Trotz - es gibt Experten, die dem Unsupervised Learning noch weitaus größeres Potenzial zuschreiben. Denn die Lernleistung eines Systems für Supervised Learning wird durch das Training, das ihm zukommt, limitiert. Ein solches System kann lediglich Aufgaben erledigen, auf die es vorher trainiert wurde. Ein System für Unsupervised Learning könnte theoretisch den Status der "artificial general intelligence" erreichen - also die Fähigkeit, sich jedes Skillset anzueignen, das auch ein Mensch verinnerlichen könnte. Aber noch ist die Technologie nicht so weit.

Während beim Supervised Learning das Labeling der Trainingsdaten regelmäßig eines der größten Probleme darstellt, hapert es beim Unsupervised Learning (wo Daten grundsätzlich nicht gelabelt werden) noch daran, dass es generell nicht besonders gut funktioniert. Nichtsdestotrotz hat Unsupervised Learning bereits jetzt eine Daseinsberechtigung, denn gerade wenn es darum geht, die Dimension eines Datensets zu reduzieren, Verhaltensmuster und Strukturen in Daten zu erkennen sowie Relationen, Sonderfälle und Fehler zu identifizieren, hat sich die Machine-Learning-Methode als hilfreich erwiesen.

Unüberwachtes maschinelles Lernen hat das Potenzial, die Künstliche Intelligenz der menschlichen ein entscheidendes Stück näher zu bringen.
Foto: Immersion Imagery - shutterstock.com

Ganz generell kann es sich lohnen, dem Unsupervised-Learning-Ansatz eine Chance zu geben - beispielsweise im Rahmen Ihrer explorativen Datenanalysen, die Muster und Cluster aufdecken sollen. Ob Sie im Anschluss auf Supervised Learning oder vortrainierte Modelle setzen, hängt ganz von Ihren Zielen - und nicht zuletzt auch von Ihren Daten - ab.

Was ist Unsupervised Learning?

Als Elternteil oder auch Lehrer müssen Sie jungen Menschen nicht jede Hunde- oder Katzenrasse im Einzelnen zeigen, damit diese zwischen den beiden unterscheiden können. Einige wenige Beispiele reichen aus, damit Kinder ohne weitere Erklärung zwischen Hund und Katze unterscheiden können. Eventuell kommt es dabei zu initialen Irrtümern - ein Chihuahua könnte beispielsweise auch mal als Katze durchgehen. Allerdings lassen sich solche Fehler relativ einfach korrigieren.

Kinder klassifizieren Dinge völlig intuitiv in Gruppen - dieses Ziel verfolgt auch Unsupervised Learning. Die KI-Experten Alex Graves und Kelly Clancy liefern in ihrem Blog-Post "Unsupervised Learning: the curious pupil" folgende Definition für die Machine-Learning-Methode:

Unsupervised Learning ist ein Paradigma, das über ein Belohnungssystem autonome Intelligenz schaffen will. Dabei lernen die Systeme nicht vor dem Hintergrund eines bestimmten Tasks: Sie lernen um des Lernens Willen.

Das Potenzial eines solchen Systems ist im Vergleich zu konventionellen Systemen, die komplexe Bilder auf eine binäre Entscheidung herunterbrechen, wesentlich höher. Die Erkennung von Datenmustern kann - im Gegensatz zur Ausführung eines vordefinierten Tasks - zu überraschend nützlichen Ergebnissen führen, wie dieses Beispiel aus der Wissenschaft zeigt.

Wie läuft das mit der Clusteranalyse?

Wenn ein System für Unsupervised Learning Gruppen von ähnlichen Datenpunkten ermitteln soll, kommt es zur Bildung von Clustern. Derzeit kommen dazu verschiedene Clustering-Algorithmen zum Einsatz, die unterschiedliche Charakteristika aufweisen. Ganz allgemein analysieren Clustering-Algorithmen die Metriken oder Distanzfunktionen zwischen den Vektoren der Datenpunkte und gruppieren im Anschluss diejenigen, die sich ähneln. Dabei funktionieren diese Algorithmen am besten, wenn ihre Klassifizierungen sich nicht überlappen.

Hierarchische Clusteranalysen (HCA) können agglomerativ oder divisiv berechnet werden. Der Prozess des Clusterings an sich wird für gewöhnlich in einem Baumdiagramm abgebildet. HCA-Algorithmen benötigen im Regelfall eine Menge Rechenleistung und Speicherressourcen - was ihre Anwendbarkeit auf eher kleine Datensets beschränkt.

Eine Clusteranalyse kann auch mit dem k-Means-Algorithmus erledigt werden. Hierbei wird aus einer Menge von (ähnlichen) Beobachtungen eine bestimmte Anzahl von Gruppen gebildet, die sich durch eine geringe Varianz und eine ähnliche Größe auszeichnen. Es handelt sich hierbei ursprünglich um ein Verfahren zur Vektorquantisierung, das auch zur Clusteranalyse zur Anwendung kommt.

Darüber hinaus existieren auch Mischmodelle - der Expectation-Maximization-Algorithmus ist der wohl populärste Vertreter dieser Gattung.

Neuronale Netze "in unsupervised"

Neuronale Netze werden im Regelfall mit strukturierten Daten trainiert - was per Definition Supervised Machine Learning ist. Doch diese Netze lassen sich mit verschiedenen Methoden auch mit unstrukturierten Daten trainieren:

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.

Roundtable Machine Learning Dezember 2018
Christian Dyballa, Head of Sector Financial Services – Insights & Data bei Capgemini in Deutschland
"Die größte Herausforderung bei Machine Learning besteht in der Aufbereitung der Daten. Hinzu kommt, dass die Transparenz bezüglich der verwendeten Machine-Learning-Algorithmen und deren Modellen von zentraler Bedeutung ist."
Dr. Frank M. Graeber, Manager Application Engineering and Technical Account Management bei MathWorks in Ismaning bei München
"Die Cloud ermöglicht es Unternehmen, auf vergleichsweise einfache Weise Machine-Learning-Anwendungen zu nutzen."
Dr. Kay Knoche, Principal Solution Consultant DACH Decisioning Solutions bei der Pegasystems GmbH in München
"Das Versprechen von Machine Learning und KI ist, die persönliche Beziehung zum Kunden wiederherzustellen, die durch den Einsatz von Callcentern und digitalen Kanälen verloren gegangen ist – also das alte Tante-Emma-Prinzip."
Farhad Khakzad, Experte im Bereich Analytics und zuletzt in der Funktion als Head of Risk Analytics in einem internationalen Technologieunternehmen tätig
"Generell lässt sich festhalten, dass es in hiesigen Unternehmen an Ideen für praxistaugliche Anwendungsbeispiele, also Use Cases, fehlt."
Dr. Dieter Mayr, Digital Services -Vertical Market Solutions bei A1 Digital
"Mithilfe von Low-Code Platform können Unternehmen KI- und ML-Anwendungen rasch entwickeln und ausprobieren. Dadurch haben sie die Möglichkeit, auf einfache Weise erste Erfahrungen mit maschinellem Lernen zu sammeln."
Paul-Louis Pröve, Consultant Data Analytics, Artificial Intelligence & Blockchain bei der Lufthansa Industry Solutions AS GmbH in Norderstedt
"Die Diskussion um ML und KI ist derzeit stark durch Marketingaussagen geprägt, nach dem Motto 'Wir machen Machine Learning'. Doch ein beträchtlicher Teil der Unternehmen muss zunächst einmal entsprechende Anwendungsfelder entwickeln."
Dr. Karsten Johannsen, Business Development Executive Artificial Intelligence bei der Tech Data GmbH & Co. OHG in München
"Ein guter Startpunkt für das Thema KI und Machine Learning im Unternehmen ist ein einfach umsetzbarer, exemplarischer Use Case. Das Ziel sollte hier nicht sein, ein konkretes Business-Problem zu lösen, sondern ein Gefühl für die Möglichkeiten dieser Technologie zu bekommen."
Karl Schriek, Head of AI / Leading Machine Learning Engineer bei der Alexander Thamm GmbH in München
"Komplexe Use Cases beziehungsweise neue KI-basierte Geschäftsmodelle erfordern, wie jedes innovative Vorgehen, die Bereitschaft, Risiken einzugehen – und möglichweise zu scheitern."
Thorsten Kühlmeyer, Head of Business Analytics & Artificial Intelligence / Lead Analytical Insights Center bei Telefónica Deutschland
"Zunächst sollten Unternehmen die Problemstellung erkennen und analysieren. Anschließend wird daraus ein Use Case abgeleitet. Erst danach sucht man das passende Werkzeug."
Dr. Jürgen Wirtgen, Dataplatform Lead bei der Microsoft Deutschland GmbH in München
"Künstliche Intelligenz muss transparent sein. Wichtig ist, die Ausgewogenheit der Ergebnisse von Berechnungen und Analysen sicherzustellen. Das erfordert umfassende Tests von Prozessen."