Wehner am 27. August 2018 um 09:45 Uhr

2018-08-27T09:45:43Z

← Nächstältere Version		Version vom 27. August 2018, 11:45 Uhr
Zeile 1:		Zeile 1:
	{{Nav\|Navigation\|Kognitive Modellierung\|Hauptseite}}		{{Nav\|Navigation\|Neuronale Netze\|Kognitive Modellierung\|Hauptseite}}
	== Prinzip des Verstärkungslernens ==		== Prinzip des Verstärkungslernens ==

Reichert am 24. August 2018 um 19:23 Uhr

2018-08-24T19:23:00Z

← Nächstältere Version		Version vom 24. August 2018, 21:23 Uhr
Zeile 1:		Zeile 1:
	{{Nav\|Navigation\|Kognitive Modellierung\|Hauptseite}}		{{Nav\|Navigation\|Kognitive Modellierung\|Hauptseite}}
	~~= Reinforcement =~~

	== Prinzip des Verstärkungslernens ==		== Prinzip des Verstärkungslernens ==

Reichert am 6. August 2018 um 08:04 Uhr

2018-08-06T08:04:55Z

← Nächstältere Version		Version vom 6. August 2018, 10:04 Uhr
Zeile 1:		Zeile 1:
	{{Nav\|Navigation\|Kognitive Modellierung\|Hauptseite}}		{{Nav\|Navigation\|Kognitive Modellierung\|Hauptseite}}
	~~Artikelinhalt~~		= Reinforcement =

			== Prinzip des Verstärkungslernens ==

			Das [[Lernen]] aus Feedback über richtiges und falsches Verhalten entstammt der behavioristischen Idee des [https://de.wikipedia.org/wiki/Instrumentelle_und_operante_Konditionierung operanten Konditionierens]. Dem [[Neuronale Netze\|künstlichen neuronalen Netz]] wird kein korrekter Output vorgegeben, sondern nur eine Information über die Richtigkeit oder den Nutzen des gerade produzierten Ergebnisses – das sogenannte Belohnungs- oder Reinforcementsignal. Diese Information wird im [[Neuronale Netze\|Netz]] so wirksam, dass Verbindungen mit Knoten, die an einem korrekten Output beteiligt waren, verstärkt werden, während die Verbindungen zu Knoten, welche an einem inkorrekten Output beteiligt waren, geschwächt werden.

			Das Reinforcementsignal ergibt sich aus einer Umwelt, in der man sich das [[Neuronale Netze\|Netzwerk]] als handelnden Agenten vorstellen kann. Beispielsweise sollte der Agent beim Weg durch einen Irrgarten exploratives Verhalten zeigen, das heißt, zufällig verschiedene Gassen ausprobieren. Das Abbiegen in eine Sackgasse wird nicht belohnt, die Wahl eines offenen Ganges hingegen schon. So entsteht eine Belohnungsfunktion, die festlegt, welches Verhalten des Agenten verstärkt wird. Eine Belohnung lässt ein Verhalten häufiger auftreten, indem erfolgreiche Aktionen eine stärkere Gewichtung bekommen. Neben dem Prinzip der Exploration, der beliebigen Auswahl von Handlungen, spielt die Exploitation eine Rolle. Darunter versteht man das Beibehalten eines erfolgreichen Verhaltens. Dies maximiert die Belohnung zumindest kurzfristig, da auch ein langer offener Gang in einer Sackgasse enden kann. Daher ist das Zusammenspiel von Exploration und Exploitation für die Belohnungsmaximierung – und das Herausfinden aus dem Irrgarten – unentbehrlich.

			== Konkretes Beispiel für Reinforcement Learning in [[Neuronale Netze\|neuronalen Netzen]] ==

			Verstärkungslernen wird häufig mit Dopamin in Verbindung gebracht. Daher kann die Ausschüttung von Dopamin als Belohnung betrachtet werden, die Voraussetzung für das Verändern von Verbindungsgewichten ist. Nach einem [https://doi.org/10.1093/cercor/bhl152 Modell von Eugene Izhikevich (2007)] sind Verbindungsgewichte für eine gewisse Zeitspanne nach dem gemeinsamen Feuern zweier Neuronen für eine Veränderung zugänglich. Diese Modifizierbarkeit sinkt mit der Zeit exponentiell. Wenn in der kritischen Zeitspanne extrazelluläres Dopamin ausgeschüttet wird, findet ein Lernvorgang statt. Die Stärke der Gewichtsveränderung ist dabei abhängig davon, wie hoch die Modifizierbarkeit noch ist. Das heißt, je früher nach einem gemeinsamen Feuern Dopamin ausgeschüttet wird, desto stärker ist der Lernvorgang. Wird kein Dopamin ausgeschüttet, lernt das Netz nicht, das heißt, es findet keine Gewichtsanpassung statt.

			== Vor- und Nachteile ==

			Sowohl auf Ebene des Individuums als auch auf evolutionärer Ebene ist das Reinforcement-Lernen gut begründbar, da Lernvorgänge dieser Art in der Realität häufig vorkommen. Von Nachteil ist hingegen, dass Verstärkungslernen mehr Zeit benötigt als [[Supervised\|überwachtes Lernen]], welches schon nach wenigen Lernschritten den korrekten Output hervorbringen könnte. Als weitere Schwierigkeit kommt hinzu, dass Belohnung oftmals zeitversetzt zur Handlung eines Agenten auftritt. Entsprechend gibt es Lernregeln, welche die Belohnung bzw. die dadurch ausgelöste Veränderung der Gewichte sozusagen in der Zeit rückwärts auf ehemals aktive Knoten verteilt. Die vorgestellte Regel von Izhikevich kann dieses Problem ebenfalls lösen, indem ein kritischer Zeitraum für die das Lernen nach dem Feuern eines Knotens festgelegt wird.

Wehner: Die Seite wurde neu angelegt: „{{Nav|Navigation|Kognitive Modellierung|Hauptseite}} Artikelinhalt“

2018-07-28T19:29:49Z

Die Seite wurde neu angelegt: „{{Nav|Navigation|Kognitive Modellierung|Hauptseite}} Artikelinhalt“

Neue Seite

{{Nav|Navigation|Kognitive Modellierung|Hauptseite}}
Artikelinhalt

Reinforcement - Versionsgeschichte

Wehner am 27. August 2018 um 09:45 Uhr

Reichert am 24. August 2018 um 19:23 Uhr

Reichert am 6. August 2018 um 08:04 Uhr

Wehner: Die Seite wurde neu angelegt: „{{Nav|Navigation|Kognitive Modellierung|Hauptseite}} Artikelinhalt“