Von Mäusen, Menschen und Maschinen
Ein historischer Blick auf Bestärkendes Lernen
Bestärkendes Lernen, eine für viele Anwendungen eingesetzte Art des maschinellen Lernens, hat seine Wurzeln in der Beobachtung des Verhaltens von Tieren. Seine Entwicklung von den Anfängen im 19. Jahrhundert bis zur Gegenwart ist beispielhaft für einen Weg, der in der biologischen Kybernetik oft beschritten wird: von der Natur zur Abstraktion – und wieder zurück zur Natur.
Senta lernt Fahrrad fahren. Ein Saugroboter kehrt zur Ladestation zurück. Ein Rehkitz macht seine ersten wackeligen Schritte. Leon kauft einen Fruchtjoghurt. Spotify schlägt ein neues Lied vor.
Die Ähnlichkeiten zwischen diesen Situationen sind so grundlegend, dass man sie leicht übersehen kann: Ein aktiver Akteur versucht ein Ziel zu erreichen, sei es Fortbewegung, ein leckerer Snack oder eine digitales Belohnungssignal. Dieser Akteur interagiert mit seiner Umgebung durch Ausprobieren und lernt aus früheren Versuchen: „Ananasjoghurt schmeckt gut“, „Wenn ich zu schnell fahre, kann ich leicht stürzen“ oder „Dieser Nutzer überspringt Songs von Taylor Swift.“
Die Methode von Versuch und Irrtum und eine (oft zeitversetzte) Belohnung machen all diese Situationen zu Beispielen für Bestärkendes Lernen. In der Informatik ist Bestärkendes Lernen eines der drei grundlegenden Paradigmen des maschinellen Lernens. Es kann hilfreich sein, es in Abgrenzung zu den beiden anderen Ansätzen zu verstehen: Beim Überwachten Lernen wird ein Computer explizit von menschlichen „Lehrern“ trainiert. Oft wird es zum Beispiel für Bilderkennung eingesetzt; das Training kann vereinfacht gesagt etwa so aussehen: „Diese 500 Bilder zeigen Fahrräder, und jene 500 Bilder zeigen keine Fahrräder.“ Beim Unüberwachten Lernen hingegen entdeckt der lernende Algorithmus selbstständig Strukturen im Input. Er kann zum Beispiel die Aufgabe „Sortiere das Obst in diesem Korb!“ lösen, indem er alle Objekte nach Größe, Farbe und Form anordnet – ohne dass man ihm beibringt, wie eine Pflaume oder ein Apfel aussehen.
Thorndikes Katzen und Pawlows Hunde
Wenn Bestärkendes Lernen also grundverschieden von diesen beiden Ansätzen ist, wie funktioniert es, und woher stammt die Idee? Es ist kein Zufall, dass die obigen Beispiele von Robotern und Apps bis hin zu Tieren und Menschen reichen. In der Tat ist das erstaunlich alte Konzept vom frühen Behaviorismus inspiriert: In den 1890er-Jahren führte der Psychologe Edward Thorndike eine Reihe von Experimenten über das Lernverhalten von Katzen durch. Seine wichtigsten Erkenntnisse fasste er im Gesetz der Wirkung zusammen: „Von verschiedenen Reaktionen auf die gleiche Situation werden diejenigen, die von einer Befriedigung Tieres begleitet oder gefolgt werden (...), mit größerer Wahrscheinlichkeit wieder auftreten; diejenigen, die von Unbehagen für das Tier begleitet oder gefolgt werden (...), werden mit geringerer Wahrscheinlichkeit auftreten.“ Fast 40 Jahre später tauchte das Wort „Bestärkung“ („reinforcement“) zum ersten Mal im Kontext des Lernens auf: in der englischen Originalübersetzung von Ivan Pawlows Arbeit über konditionierte Reflexe, in der er seine berühmten Experimente an Hunden beschreibt.
Die Maus, die die Welt der KI veränderte
Wie aber kam die Idee auf, das Lernen durch Versuch und Irrtum in Computer zu implementieren? Es mag überraschen, dass sie fast so alt ist wie die ersten konkreten Überlegungen zu Künstlicher Intelligenz: Mitte des 20ten Jahrhunderts beschrieb Alan Turing ein mögliches „Lust-Schmerz-System“. Für eine Maschine bedeuten „Schmerz“ und „Lust“ einfach ein numerisches Belohnungssignal: So kann etwa ein Saugroboter, der schnell zur Station zurückkehrt, eine hohe Zahl erhalten, während Rumtrödeln oder Zurückkommen mit fast entladener Batterie mit einer niedrigeren Zahl entgolten wird.
Was der Vater der modernen Informatik in der Theorie erdachte, fand nur zwei Jahre später eine praktische Umsetzung: Claude Shannon, der Begründer der Informationstheorie, entwickelte eine mechanische Maus, die durch Versuch und Irrtum und „Erinnerung“ an frühere Versuche lernen konnte, sich in einem Labyrinth zu orientieren. Viele Informatiker betrachten dieses Projekt, das nach dem griechischen Helden Theseus benannt wurde, als erstes Beispiel für Künstliche Intelligenz und als Inspiration für das gesamte Forschungsgebiet.
Belohnung und Strafe
Um Bestärkendes Lernen auf ein breites Spektrum von Problemen anwenden zu können, musste das Konzept jedoch zunächst formalisiert werden. In seiner einfachsten Form modelliert man es als sogenannten Markow-Entscheidungsprozess: Ein Entscheider kann verschiedene Aktionen ausführen, um von einem von mehreren möglichen Zuständen in einen anderen zu wechseln. Für den Staubsaugerroboter könnte solch ein Zustand sein Standort und sein Ladezustand sein, und eine Aktion könnte bedeuten, sich in eine bestimmte Richtung zu bewegen. Nach jeder Aktion erhält der Akteur eine unmittelbare Belohnung: ein numerisches Feedback, das eine Bewegung in Richtung der Station belohnt und eine unnötige Schleife bestraft. In der Regel weiß der Akteur jedoch nicht im Voraus, wozu seine Handlung führt; er kennt nur die Wahrscheinlichkeiten der möglichen Ergebnisse. Sein Ziel: die Maximierung einer kumulativen Belohnung, die sich aus vielen sofortigen Belohnungen zusammensetzt.
Durch die verzögerte Belohnung eignet sich das Bestärkende Lernens besonders gut für Probleme, die eine langfristige Herangehensweise erfordern. Dementsprechend hat es bemerkenswerte Erfolge bei hochkomplexen Spielen wie Go oder Schach und beim autonomen Fahren gefeiert, und ebenso dabei, Robotern menschenähnliche motorische Fähigkeiten beizubringen – vom Fahrradfahren bis zum Wenden von Pfannkuchen. Da es gilt, eine Strategie zu finden, die nicht nur für den jeweils nächsten Schritt, sondern für das Gesamtergebnis optimal ist, müssen sowohl lang- als auch kurzfristige Ziele berücksichtigt werden: Für Leon ist es vermutlich nicht ideal, immer nur Ananasjoghurt zu kaufen, da ihm andere, noch unbekannte Joghurts besser schmecken könnten. Diese Herausforderung nennt man Explore-Exploit-Dilemma: Eine gute Strategie muss das Erkunden (explore) neuer Möglichkeiten und das Ausnutzen (exploit) früherer Erfahrungen gegeneinander abwägen.
Zurück zur Natur
Bedenkt man, in welchen Kontexten Forschende am Max-Planck-Institut für biologische Kybernetik heute das Bestärkende Lernen untersuchen, könnte man sagen, dass sich ein Kreis schließt: Der präzise Formalismus hat sich als nützlich für das Verständnis des Verhaltens von Tieren und Menschen erwiesen. Neurowissenschaftler*innen finden zunehmend Belege dafür, dass einige Mechanismen des menschlichen Hirns den Algorithmen des Bestärkenden Lernens verblüffend ähneln. Besonders bemerkenswert ist das Beispiel des Neurotransmitters Dopamin, der vermutlich ein Update der zu erwartenden Belohnung an verschiedene Hirnareale übermittelt. Darüber hinaus nutzen Forschende den Formalismus des Bestärkenden Lernens, um zu verstehen, wie Menschen und Tiere Veränderungen ihrer Umgebung vorhersagen, diese kontrollieren, Entscheidungen treffen und lernen.
In diesem Sinne ist Bestärkendes Lernen paradigmatisch für die biologische Kybernetik: Von der Natur abgeschaut, inspirierte es bahnbrechende Erfindungen; und nachdem seine abstrakten Prinzipien offengelegt waren, wurde es seinerseits zu einem Werkzeug, um die Natur zu verstehen.