Interview mit Dr. Christian Hidber

„Reinforcement Learning hat Ähnlichkeit mit einem Kind, das ein neues Spiel lernt“
Keine Kommentare

Maschinelles Lernen kann auf verschiedene Arten implementiert werden, eine davon ist das Reinforcement Learning. Was genau ist das und wie kann man es einsetzen? Zur ML Conference haben wir mit dem Speaker Dr. Christian Hidber über die zugrunde liegenden Ideen und Herausforderungen des Reinforcement Learning und die Frage gesprochen, warum es sich für die Anwendung in industriellen Settings eignet.

Entwickler: Für all diejenigen, die nicht mit dem Begriff vertraut sind: Was ist die grundlegende Idee des Reinforcement Learning?

Hidber: Beim Reinforcement Learning lernen Computer komplexe Verhaltensweisen durch clevere Trial-and-Error-Strategien. Das ist ähnlich wie bei einem Kind, das ein neues Spiel lernt: Sie beginnen mit dem Drücken einiger zufälliger Tasten und sehen, was passiert. Nach einer Weile verbessern sie kontinuierlich ihre Spielstrategie und werden immer besser. Außerdem muss man einem Kind nicht erklären, wie das Spiel funktioniert, da es Teil des Spaßes ist, es herauszufinden. Algorithmen für das Reinforcement Learning versuchen im Wesentlichen zu lernen, indem sie dieses Verhalten nachahmen.

Entwickler: Reinforcement Learning benötigt keine großen Datensätze für das Training. Auf welchem Weg wird das erreicht?

Hidber: Diese Algorithmen lernen durch die Interaktion mit einer Umgebung. Im obigen Spielbeispiel ist die Spiel-Engine, die alle Spielregeln enthält, die Umgebung. Die Algorithmen beobachten, welche Spielsequenzen gute Ergebnisse liefern und versuchen dann daraus zu lernen. In gewisser Weise generiert das Reinforcement Learning seinen Datensatz direkt aus der Umgebung und erzeugt so viele Trainingsdaten wie nötig – sehr praktisch!

Beim Reinforcement Learning lernen Computer komplexe Verhaltensweisen durch clevere Trial-and-Error-Strategien.

Entwickler: Wie gut schneidet die Genauigkeit des Reinforcement Learning im Vergleich zu anderen Arten des maschinellen Lernens ab?

Hidber: Reinforcement Learning befasst sich mit Problemen für maschinelles Lernen, die für andere Arten davon nur schwer zu lösen sind— und vice versa. Deswegen ist man seltener in einer Situation, in der man die Genauigkeiten direkt vergleichen könnte. Die Genauigkeit beim Reinforcement Learning kann für das gleiche Problem sehr unterschiedlich sein, je nach Modell, Daten und Algorithmenwahl. Das ist daher dem klassischen maschinellen Lernen sehr ähnlich.

ML Conference 2019

Workshop: Machine Learning 101++ using Python

mit Dr. Pieter Buteneers (Chatlayer.ai)

Honey Bee Conservation using Deep Learning

mit Thiago da Silva Alves, Jean Metz (JArchitects)

Python Summit 2019

Daten analysieren und transformieren mit Python

mit Doniyor Jurabayev (Freelancer)

Advanced Flow Control

mit Oz Tiram (noris network AG)

Entwickler: In deiner Session auf der ML Conference gibst du einen Einblick in die Anwendung von Reinforcement Learning auf Dachentwässerungssysteme mit Siphonrohr. Warum hast du dich in diesem Anwendungsfall für das Reinforcement Learning entschieden?

Hidber: Eigentlich benutzen wir das Reinforcement Learning auf ergänzende Art. Unsere Berechnungs-Pipeline verwendet sowohl traditionelle Heuristiken als auch überwachte Methoden, wie neuronale Netze und Support Vector Machines. An einem bestimmten Punkt mussten wir feststellen und konnten auch beweisen, dass wir unsere klassische Machine-Learning-Lösungen nicht weiter verbessern konnten. Mit dem Reinforcement Learning als zusätzlichem Schritt in unserer Pipeline konnten wir unsere bisherige Ausfallquote um mehr als 70 % senken.

Entwickler: In welchen Bereichen könnte Reinforcement Learning zukünftig eine zentrale Rolle spielen?

Hidber: Es gibt bereits einige reale Anwendungen in der Produktion, wie die Kühlung eines Rechenzentrums oder die Steuerung von Roboterbewegungen. Ich persönlich denke, dass das Reinforcement Learning besonders bei Problemen mit der industriellen Steuerung von Bedeutung ist. In diesen Fällen können wir oft die Umgebung simulieren, aber es gibt keinen eindeutigen Weg, wie man zu einer guten Lösung kommt. Das war auch bei unserem Problem der hydraulischen Optimierung der Fall. Ich erwarte daher noch viele weitere industrielle Anwendungen.

Mit dem Reinforcement Learning konnten wir unsere bisherige Ausfallquote um mehr als 70 % senken.

Entwickler: Fällt dir irgendein typischer Fehler ein, der beim Einstieg in die Arbeit mit dem Reinforcement Learning häufig gemacht wird?

Hidber: Oh ja, absolut, denn wir haben ja selber viele Fehler gemacht. Einige davon führten zu sehr witzigen und überraschenden Strategien. Es ist immer eine große Versuchung, die Belohnungsfunktion besonders clever gestalten zu wollen. Die Belohnungsfunktion ist dafür verantwortlich, zu definieren, welches Ergebnis als „gut“ und welches als „schlecht“ gilt. Die Algorithmen sind unglaublich intelligent darin, Abkürzungen und Schlupflöcher zu finden, was zu hohen Belohnungen für Verhaltensweisen führt, die definitiv „schlecht“ sind. Es scheint, dass man umso mehr Überraschungen erlebt, je cleverer man die Belohnungsfunktion gestaltet.

Entwickler: Was ist das wichtigste Take-away für Teilnehmer deiner Session?

Hidber: Mein Ziel ist es, den Teilnehmern ein gutes Gespür dafür zu vermitteln, wie diese Algorithmen funktionieren. Die Teilnehmer können dann selbst entscheiden, ob ein vorliegendes Problem für das Reinforcement Learning geeignet ist oder nicht. Und ich würde mich natürlich freuen, darüber zu  hören, wenn ein Teilnehmer bereits eine Idee für eine Anwendung hat.

Entwickler: Vielen Dank für das Interview!

Im Interview: Dr. Christian Hidber

Die Session: Reinforcement Learning: a gentle Introduction and industrial Application
Christian is a consultant at bSquare with a focus on Machine Learning, .NET development and Azure, and an international conference speaker. He has a PhD in computer algebra from ETH Zurich and did a postdoc at UC Berkeley, where he researched online data mining algorithms. Currently, he applies machine learning to industrial hydraulics simulations.

Unsere Redaktion empfiehlt:

Relevante Beiträge

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu:
X
- Gib Deinen Standort ein -
- or -