Was ist Reinforcement Learning?

11.07.2021
Von 
Martin Heller schreibt als freier Autor für die Schwesterpublikation InfoWorld.
Reinforcement Learning nutzt Belohnungen und Bestrafungen, um Computern Brettspiele beizubringen oder Robotern Autonomie zu verleihen.
Lernen anhand von Belohnungen - und Bestrafungen - funktioniert auch im Reich der Algorithmen. Lesen Sie, wie.
Lernen anhand von Belohnungen - und Bestrafungen - funktioniert auch im Reich der Algorithmen. Lesen Sie, wie.
Foto: Maya Shustov - shutterstock.com

Sehr wahrscheinlich haben Sie schon einmal von Googles KI-Spezialisten DeepMind und "AlphaGo" gehört oder gelesen. Im Jahr 2015 schaffte es das Computerprogramm in die Schlagzeilen, nachdem es einen mehrfachen Europameister im Brettspiel Go schlagen könnte. Weiterentwicklungen der Software schlugen in den Folgejahren auch Go-Weltmeister. Die nächste Generation der Software - AlphaZero - ist deutlich performanter als AlphaGo und beherrscht neben Go auch Schach und Shogi.

Beiden Machine-Learning-Projekten ist gemein, dass sie auf Basis von Reinforcement Learning trainiert wurden. Dabei wurden auch neuronale Netzwerke mit einbezogen, um die Wahrscheinlichkeit bestimmter Ergebnisse vorherzusagen. Dieser Artikel beschreibt, wie Reinforcement Learning funktioniert und wo es zur Anwendung kommt.

Reinforcement Learning - Definition

Generell unterscheidet man drei verschiedene Machine-Learning-Modelle:

  • Unsupervised Learning funktioniert mit einem vollständigen Datenset ohne Labels und eignet sich, um Datenmuster aufzudecken. Unsupervised Learning kommt unter anderem zum Clustering, zur Dimensionsreduktion oder für Feature Learning zum Einsatz.

  • Supervised Learning funktioniert mit einem vollständigen, gelabelten Datenset und ist dazu geeignet, Klassifikationsmodelle für Discrete Data und Regressionsmodelle für Continuous Data zu erzeugen. Durch Supervised Learning erzeugte Machine-Learning-Modelle werden für gewöhnlich für prädiktive Analysen eingesetzt.

  • Reinforcement Learning (oder verstärkendes Lernen) beschreibt eine Machine-Learning-Methode, bei denen ein Agent mit einer Umgebung interagiert und dabei selbständig "lernt" - auf Basis des Belohnungsprinzips.

Das Beispiel von Alpha Go verdeutlicht die Funktionsweise von Reinforcement Learning: Um das Spiel zu meistern, musste die Software zunächst lernen, menschliche Spieler zu imitieren (auf Grundlage eines riesigen historischen Datensets). Im Anschluss verfeinerte sie ihre Spielweise durch die Anwendung des Trial-and-Error-Prinzips auf eine Vielzahl von Go-Partien gegen sich selbst - also Reinforcement Learning. Dabei versucht AlphaGo jedoch nicht wie menschliche Spieler, möglichst viele Siege anzuhäufen. Stattdessen führt die Software ihren jeweils nächsten Zug entsprechend der maximalen Siegwahrscheinlichkeit aus. Dabei ist ihr egal, ob sie mit einem oder fünfzig Punkten Unterschied gewinnt.

Reinforcement Learning - in der Praxis

Reinforcement Learning kommt aber nicht nur zum Einsatz, um Software Brettspiele beizubringen. Zwei andere Einsatzgebiete für die Machine-Learning-Methode sind beispielsweise Videospiele und die Robotik.

Video Games

Im Jahr 2013 veröffentlichte DeepMind Forschungsergebnisse zum Thema "Playing Atari with Reinforcement Learning" (PDF-Download). Die Applikationen waren in diesem Fall sieben Spiele für die betagte Atari-2600-Konsole. Ein Convolutional Neural Network (CNN) wurde mit Q-Learning (einer gängigen Reinforcement-Learning-Methode) trainiert und konnte sowohl alle bisher erzielten Ergebnisse übertreffen, als auch menschliche Experten in drei von sieben Spielen schlagen. Der Input für das CNN bestand dabei aus Pixeln, der Output eine Wertfunktion, die die Wahrscheinlichkeit künftiger Belohnungen schätzt. Die CNN-basierte Funktion lieferte wesentlich bessere Ergebnisse als lineare Funktionen.

DeepMind hat seine Forschungen im Bereich Reinforcement Learning inzwischen auf das Echtzeit-Strategiespiel StarCraft II ausgeweitet. Die AlphaStar-Software erlernte das Game, indem es gegen sich selbst spielte - und zwar so lange, bis es in der Lage war, die Top-Spieler zu schlagen.

Robotics

Im Bereich Robotics spielt Reinforcement Learning bei den Steuerungsmechanismen eine Rolle. Dies geschieht häufig in Verbindung mit neuralen Netzwerken, konkret sind das oftmals CNNs , die darauf trainiert werden, Merkmale aus Videoeinzelbildern zu extrahieren. Mit physischen Robotern zu trainieren, ist jedoch zeitaufwändig. Um die Trainingszeiten zu reduzieren, starten viele Projekte mit Simulationen, bevor die Algorithmen auf Drohnen, Roboterhunde oder -arme "losgelassen" werden.

Reinforcement Learning - Funktionsweise

Wie bereits beschrieben, interagiert beim Reinforcement Learning ein Agent mit einer Umgebung. Diese kann diverse Zustandsvariablen (Stati) aufweisen, die entsprechend der Aktionen des Agenten variieren können. Die Umgebung oder der Trainingsalgorithmus können dem Agenten Belohnungen oder auch Bestrafungen zukommen lassen, um eine Verstärkung (Reinforcement) zu implementieren.

Eine Belohnung steht dabei für einen sofortigen Gewinn, ein Wert für einen langfristigen. Allgemein gesprochen ist der Wert eines Status die erwartete Summe künftiger Belohnungen. Aktionsmöglichkeiten - also Richtlinien - müssen statt auf der Basis von sofortigen Belohnungen auf der von langfristigen Werten berechnet werden.

Effektive Richtlinien für Reinforcement Learning müssen eine Balance zwischen "Gier" und "Erkundung" schaffen. Ersteres beschreibt das Ausführen der Aktion, von der die aktuelle Richtlinie glaubt, sie habe den höchsten Wert. Zweiteres zufällige Aktionen, die zur Verbesserung der Richtlinien beitragen können. Es gibt viele Algorithmen, um das nachzuvollziehen, diese arbeiten mit verschiedenen Ansätzen zwischen Gier und Erkundung.

Algorithmen für verstärkendes Lernen stehen ebenfalls in großer Zahl zur Verfügung, sowohl modellbasiert (zum Beispiel Dynamic Programming), als auch model-free (Monte-Carlo-Simulation). Letztere sind für Reinforcement-Learning-Zwecke oft nützlicher, weil sie auf Grundlage von Erfahrungen lernen - und weil es ganz generell schwierig ist, entsprechende Modelle zu generieren.

Wenn Sie tiefer in Reinforcement-Leanring-Algorithmen und -Theorie abtauchen wollen und mit dem Markow-Entscheidungsproblem vertraut sind, sollten Sie einen Blick in das Buch "Reinforcement Learning: An Introduction" von Richard S. Sutton und Andrew G. Barto werfen. (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.com.