Supervised

Aus eLearning - Methoden der Psychologie - TU Dresden
Zur Navigation springen Zur Suche springen

Prinzip des überwachten Lernens

Beim supervised Learning wird der Lernvorgang durch einen „Lehrer“ überwacht. Dies geschieht, indem dem künstlichen neuronalen Netz zu jedem Inputmuster ein zugehöriges Outputmuster vorgegeben wird. Es findet dann ein Vergleich des tatsächlichen vom Netz produzierten Outputs mit dem vorgegebenen Output statt, auf Basis dessen die Gewichte zwischen Knoten verändert werden. Nach dem überwachten Lernen ist das Netz auch ohne Lehrer in der Lage, sowohl den ursprünglichen Inputmustern den korrekten Input, als auch neuen, ähnlichen Mustern einen möglichst passenden Output zuzuordnen (Generalisierung). Der Output kann beispielsweise eine Einordnung eines Inputs in eine Kategorie sein.

Beispiele für überwachte Lernregeln

Die wohl einfachste Lernregel, die dem supervised Learning zugeordnet werden kann, ist die Deltaregel. Bei dieser Lernregel erfolgt die Gewichtsanpassung aufgrund der Differenz zwischen gewünschtem und beobachteten Output, der durch die Aktivierung des Inputknotens und eine Lernrate gewichtet wird. Die DeltaDeltaregel eignet sich jedoch nur für Netze ohne Hiddenschicht (hidden layer). Beim Vorhandensein einer oder mehrerer Hiddenschichten wird die sogenannte Backpropagation-Regel benutzt, um Fehlersignale von der Outputschicht (output layer) durch die einzelnen Hiddenschichten zurück zur Inputschicht (input layer) zu übertragen. Dabei werden schichtweise die Gewichte angepasst.

Woher kommt der Trainingsoutput?

Während supervised Learning oftmals wegen seiner biologischen Plausibilität hinterfragt wird, so stellt sich auch die Frage nach seiner psychologischen Plausibilität. Hier gibt es verschiedene Situationen, in denen es zu einer Differenz zwischen Outcome und Erwartung kommen kann.

  1. Expliziter Lehrer
    In dieser Situation kommt das Fehlersignal von einem externen Korrektor. Dies kann man zum Beispiel beim Fremdsprachenlernen beobachten. Der Lernende hat Karteikarten mit dem deutschen Wort auf der Vorderseite und dem fremdsprachigen Wort auf der Rückseite. Die Vorderseite ist der Input, aufgrund dessen der Lernende einen Output generiert, das heißt, er nennt das fremdsprachige Wort. Wird die Karte umgedreht, erscheint der korrekte Output. Ein Lernvorgang ist dann erforderlich, wenn das genannte Wort vom Wort auf der Karte abweicht.
  2. Implizite Erwartung
    Dieses Szenario ist dem vorherigen recht ähnlich, jedoch besteht der Output des Lernenden nicht im Aussprechen des Wortes, sondern nur in einer Erwartung, was auf der Rückseite der Karte zu sehen sein wird. Auch zwischen diesem Erwartungsoutput und dem korrekten Output auf der Kartenrückseite kann eine Differenz entstehen, die einen Lernvorgang anregt.
  3. Implizite Rekonstruktion
    Der aktuelle Input kann auch zu seinem eigenen Trainingssignal werden, indem der Lernende ihn rekonstruiert. Dies passiert beispielsweise, wenn der Lernende einem langweiligen Vortrag zuhört. Er generiert die Erwartung, dass der Vortrag auch im nächsten Moment langweilig sein wird. Diese Erwartung ist der Output. Als korrekter Output gilt hier die Vortragssituation im nächsten Moment. Bleibt der Vortrag langweilig, findet keine Gewichtsanpassung statt. Wird der Vortrag jedoch entgegen der Erwartung des Lernenden im nächsten Moment interessant, findet ein Lernvorgang statt.

Vor- und Nachteile

Überwachtes Lernen ist sehr schnell und effizient, da der Lernprozess gezielter auf den korrekten Output zusteuert. Zudem können komplexere und detailliertere Zusammenhänge gelernt werden als mit einer unüberwachten Lernregel. Von Nachteil ist hingegen die geringere biologische und ökologische Plausibilität: Erstens ist beim Lernen in der realen Welt oftmals kein korrektes Ergebnis vorgegeben und zweitens ist es unplausibel, dass das gesamte Gehirn über die Information des richtigen Musters verfügt, wie es die Backpropagation-Regel annimmt – vielmehr finden synaptische Veränderungen im Gehirn lokal statt. Während die Beispielsituationen oben zumindest eine gewisse psychologische Plausibilität suggerieren, bleiben auch hier Fragen offen, zum Beispiel inwiefern die korrekte Antwortvorgabe im Falle eines Fehlers tatsächlich direkt zur Korrektur genutzt wird oder doch vor allem als Fehler-Signal im Sinne eines Reinforcement Learnings.