Reinforcement
Prinzip des Verstärkungslernens
Das Lernen aus Feedback über richtiges und falsches Verhalten entstammt der behavioristischen Idee des operanten Konditionierens. Dem künstlichen neuronalen Netz wird kein korrekter Output vorgegeben, sondern nur eine Information über die Richtigkeit oder den Nutzen des gerade produzierten Ergebnisses – das sogenannte Belohnungs- oder Reinforcementsignal. Diese Information wird im Netz so wirksam, dass Verbindungen mit Knoten, die an einem korrekten Output beteiligt waren, verstärkt werden, während die Verbindungen zu Knoten, welche an einem inkorrekten Output beteiligt waren, geschwächt werden.
Das Reinforcementsignal ergibt sich aus einer Umwelt, in der man sich das Netzwerk als handelnden Agenten vorstellen kann. Beispielsweise sollte der Agent beim Weg durch einen Irrgarten exploratives Verhalten zeigen, das heißt, zufällig verschiedene Gassen ausprobieren. Das Abbiegen in eine Sackgasse wird nicht belohnt, die Wahl eines offenen Ganges hingegen schon. So entsteht eine Belohnungsfunktion, die festlegt, welches Verhalten des Agenten verstärkt wird. Eine Belohnung lässt ein Verhalten häufiger auftreten, indem erfolgreiche Aktionen eine stärkere Gewichtung bekommen. Neben dem Prinzip der Exploration, der beliebigen Auswahl von Handlungen, spielt die Exploitation eine Rolle. Darunter versteht man das Beibehalten eines erfolgreichen Verhaltens. Dies maximiert die Belohnung zumindest kurzfristig, da auch ein langer offener Gang in einer Sackgasse enden kann. Daher ist das Zusammenspiel von Exploration und Exploitation für die Belohnungsmaximierung – und das Herausfinden aus dem Irrgarten – unentbehrlich.
Konkretes Beispiel für Reinforcement Learning in neuronalen Netzen
Verstärkungslernen wird häufig mit Dopamin in Verbindung gebracht. Daher kann die Ausschüttung von Dopamin als Belohnung betrachtet werden, die Voraussetzung für das Verändern von Verbindungsgewichten ist. Nach einem Modell von Eugene Izhikevich (2007) sind Verbindungsgewichte für eine gewisse Zeitspanne nach dem gemeinsamen Feuern zweier Neuronen für eine Veränderung zugänglich. Diese Modifizierbarkeit sinkt mit der Zeit exponentiell. Wenn in der kritischen Zeitspanne extrazelluläres Dopamin ausgeschüttet wird, findet ein Lernvorgang statt. Die Stärke der Gewichtsveränderung ist dabei abhängig davon, wie hoch die Modifizierbarkeit noch ist. Das heißt, je früher nach einem gemeinsamen Feuern Dopamin ausgeschüttet wird, desto stärker ist der Lernvorgang. Wird kein Dopamin ausgeschüttet, lernt das Netz nicht, das heißt, es findet keine Gewichtsanpassung statt.
Vor- und Nachteile
Sowohl auf Ebene des Individuums als auch auf evolutionärer Ebene ist das Reinforcement-Lernen gut begründbar, da Lernvorgänge dieser Art in der Realität häufig vorkommen. Von Nachteil ist hingegen, dass Verstärkungslernen mehr Zeit benötigt als überwachtes Lernen, welches schon nach wenigen Lernschritten den korrekten Output hervorbringen könnte. Als weitere Schwierigkeit kommt hinzu, dass Belohnung oftmals zeitversetzt zur Handlung eines Agenten auftritt. Entsprechend gibt es Lernregeln, welche die Belohnung bzw. die dadurch ausgelöste Veränderung der Gewichte sozusagen in der Zeit rückwärts auf ehemals aktive Knoten verteilt. Die vorgestellte Regel von Izhikevich kann dieses Problem ebenfalls lösen, indem ein kritischer Zeitraum für die das Lernen nach dem Feuern eines Knotens festgelegt wird.