eLearning - Methoden der Psychologie - TU Dresden - Benutzerbeiträge [de]

Unsupervised: Hebb

2018-10-09T11:31:38Z

Reichert:

{{Nav|Navigation|Neuronale Netze|Kognitive Modellierung|Hauptseite}}
== Unüberwachtes Lernen im Allgemeinen ==

Unüberwachtes Lernen ist dadurch gekennzeichnet, dass das [[Neuronale Netze|Netz]] ohne einen „Lehrer“ [[Lernen|lernen]] muss, der einen korrekten Output vorgibt. Stattdessen lernen Netze beim unüberwachten Lernen allein aufgrund der gezeigten Inputmuster und finden in diesen Mustern statistische Regularitäten wie Cluster oder Korrelationen. Jeder Knoten lernt durch Koaktivierung seiner Inputknoten die Assoziation der Inputs. Daher ist diese Form des Lernens geeignet, wenn unbekannte Strukturen in Datensätzen gefunden werden sollen.

== Hebb'sches Lernen im Konkreten ==

Eine der einfachsten Lernregeln stammt von Donald O. Hebb (1949): 
''"Wenn ein Axon der Zelle A [...] Zelle B erregt und wiederholt und dauerhaft zur Erzeugung von Aktionspotentialen in Zelle B beiträgt, so resultiert dies in Wachstumsprozessen oder metabolischen Veränderungen in einer oder in beiden Zellen, die bewirken, dass die Effizienz von Zelle A in Bezug auf die Erzeugung eines Aktionspotentials in B größer wird."'' 
Kurz gesagt: ''"What fires together, wires together"''.

Diese Lernregel lässt sich auch als Formel ausdrücken:

[[Datei:Unsupervised_Hebb.png|130px]]

Dabei steht w für „weight“, also die Verbindungsgewichte zwischen den Inputknoten x und dem Outputknoten y . Entsprechend ist ∆wxy die Veränderung dieser Verbindungsgewichte in einem Lerndurchgang. Diese Lernveränderung ist abhängig von einer (üblicherweise sehr kleinen) Lernrate λ, welche die Geschwindigkeit des Lernens bestimmt.
Ein anschauliches Beispiel für Hebb’sches Lernen ist das klassische Konditionieren. Die Glocke sowie das Essen werden jeweils durch einen Inputknoten repräsentiert und der Speichelfluss durch einen Outputknoten.

[[Datei:Hebb_konditionierung.png]]

Essen und Speichelfluss sind von Anfang an stark assoziiert, deshalb liegt ein hohes Verbindungsgewicht vor. Die Wahrnehmung von Essen (Aktivierung des „Essensknotens“) ruft Speichelfluss (Aktivierung des „Speichelflussknotens“) hervor. Eine Glocke allein sorgt üblicherweise nicht für Speichelfluss – es liegt keine Assoziation vor und das Verbindungsgewicht liegt bei Null. Wenn jedoch häufiger die Glocke läutet (Aktivierung des Glockenknotens), während der Essensknoten aktiv ist und Speichel produziert wird, führt die gemeinsame Aktivierung von Glocken- und Speichelflussknoten zu einer Stärkung der Verbindung zwischen ihnen. Daher kann die Glocke nach einigen Lerndurchgängen auch ohne Vorhandensein von Essen Speichelfluss anregen.

== Vor- und Nachteile des unüberwachten Lernens ==

Eine Stärke des unüberwachten Lernens liegt darin, dass kein Output vorgegeben werden muss und somit gänzlich neue Zusammenhänge entdeckt werden können. Auch ist das Lernen ohne „Lehrer“ ökologisch valide, da die meisten Lernvorgänge implizit und ohne Korrektur stattfinden. Die biologische Plausibilität des Verfahrens ist höher als beim [[Supervised|überwachten Lernen]], stößt jedoch auch an ihre Grenzen. Klassisches Hebb’sches Lernen steht beispielsweise vor dem Problem, dass ein unbegrenztes Wachstum der Gewichte möglich ist, was auf biologischer Ebene aufgrund der räumlichen und ressourcenbedingten Einschränkungen der Hirnkapazität nicht gewährleistet ist. Ebenso kann durch den Algorithmus der Befund nicht erklärt werden, dass Synapsen auch wieder an Stärke verlieren können. Entsprechend gibt es viele Varianten bzw. Verbesserung der Grundregeln des Hebb‘schen Lernens, welche diese Probleme auf unterschiedliche Art und Weise zu lösen versuchen.

Ein einfaches Beispiel für Hebb'sches Lernen kann in der R-Shiny-App [http://141.76.19.82:3838/mediawiki/NeuroNetz/ "Neuronale Netze"] beobachtet und untersucht werden.

Lernen

2018-10-09T11:30:26Z

Reichert:

{{Nav|Navigation|Neuronale Netze|Kognitive Modellierung|Hauptseite}}
Die Verbindungsgewichte zwischen Neuronen bzw. Knoten bilden das „Gedächtnis“ [[Neuronale Netze|neuronaler Netze]]. In ihnen ist das Wissen gespeichert, welches das [[Neuronale Netze|neuronale Netz]] während seiner Verarbeitung von Input-Information (der Trainingsphase) erworben hat. Zu Beginn werden die Gewichte üblicherweise zufällig gewählt oder alle mit Null beziehungsweise einem anderen Fixwert initialisiert. Darauf folgt die Trainingsphase, in welcher dem [[Neuronale Netze|neuronalen Netz]] ein Set an Inputmustern dargeboten wird. Die Aktivierung der Inputneuronen breitet sich im Netzwerk aus und regt eine Modifikation der Verbindungsgewichte an (=> Lernen). Das grundlegende Prinzip der Gewichtsveränderung stammt von Hebb (1949): „What fires together, wires together“. Damit wird ausgedrückt, dass die Verbindung zwischen zwei gemeinsam aktivierten Neuronen stärker wird.

Im Grunde lassen sich drei Arten von Lernregeln unterscheiden:

* Das klassische [[Unsupervised: Hebb|Hebb’sche Lernen]] wird als '''unsupervised''' oder '''selbstorganisiertes''' Lernen bezeichnet, da es keine Vorgabe gibt, wie der Output aussehen soll. Die Gewichtsveränderungen erfolgen in Abhängigkeit der Ähnlichkeit der Gewichte mit den Inputs bzw. Outputs.
* Beim '''[[Supervised|supervised]]''' beziehungsweise '''error-driven''' Lernen ist das Endergebnis bekannt und die Gewichtsanpassung erfolgt in Abhängigkeit der Abweichung vom Zielmuster (teaching output).
* Eine weitere Form ist das '''[[Reinforcement]]-''' oder '''Verstärkungslernen''', bei dem kein Output vorgegeben wird, sondern nur eine Rückmeldung darüber, ob der vom Netz erzeugte Output korrekt ist oder nicht.

Wenn die Trainingsphase beendet ist, kann eine Testphase angeschlossen werden, die Auskunft darüber gibt, was und wie viel das [[Neuronale Netze|neuronale Netz]] gelernt hat. Dazu werden erneut Inputmuster präsentiert, jedoch ohne anschließende Veränderung der Gewichte. Es wird lediglich beobachtet, welchen Output das Netzwerk berechnet und mit dem korrekten Output abgeglichen. Neben der erneuten Präsentation der Ausgangsmuster ist es möglich, neue Inputmuster einzuführen, um die Generalisierungsfähigkeit des Netzes zu überprüfen.

[[Datei:Lernen.PNG|600px]]

Ein einfaches Beispiel für das Lernen in künstlichen neuronalen Netzen kann in der R-Shiny-App [http://141.76.19.82:3838/mediawiki/NeuroNetz/ "Neuronale Netze"] beobachtet und untersucht werden.

Lernen

2018-10-09T11:30:15Z

Reichert:

Neuronale Netze

2018-10-09T11:28:10Z

Reichert:

{{Nav|Navigation|Neuronale Netze|Kognitive Modellierung|Hauptseite}}
Künstliche neuronale Netze, die in der Psychologie auch als konnektionistische Modelle bezeichnet werden, sind Modelle, deren Entwicklung ursprünglich durch das biologische Vorbild natürlicher Neurone inspiriert wurde. Die wohl grundlegendste Gemeinsamkeit zum Gehirn liegt in der Fähigkeit zu '''[[Lernen|lernen]]'''. So könnte zum Beispiel ein künstliches neuronales Netz ebenso wie der Mensch ein ihm bekanntes Bild einer Katze wiedererkennen (im Sinne von richtig zuordnen). Darüber hinaus sind beide Systeme in der Lage, über Bekanntes hinaus zu '''generalisieren'''. Ein Kind, welches bisher nur seine gefleckte Hauskatze kannte, kann auch die einfarbige Katze des Nachbarn auf den ersten Blick als Katze einordnen. Hier spielt auch die Fähigkeit zur '''Mustererkennung''' eine Rolle. Sowohl Menschen als auch neuronale Netzwerke können Regelmäßigkeiten in Daten erkennen, so zum Beispiel, dass alle Katzen vier Beine haben. Sollten gerade nur drei davon zu sehen sein – kein Problem. Das Gehirn ist '''tolerant gegenüber Fehlern''' wie unvollständigem oder verrauschtem Input, sodass die Katze trotzdem erkannt wird. Auch diese Fähigkeit des Gehirns imitieren künstliche neuronale Netze. Aufgrund ihrer funktionellen Ähnlichkeit mit dem Gehirn liefern neuronale Netze ein Modell zur Erklärung von Funktionen wie Lernen und Gedächtnis. Außerdem werden sie genutzt, um (nicht nur kognitive) Phänomene zu replizieren und vorherzusagen.

== Aufbau von Netzwerkmodellen ==

Angelehnt an die neuronale Struktur des Gehirns bestehen künstliche neuronale Netze aus miteinander verknüpften Knoten, die simulierten Neuronen bzw. Verbänden von Neuronen, sogenannten Assemblies, entsprechen. Die Knoten kommunizieren miteinander über gewichtete Verbindungen, welche simulierten Synapsen entsprechen. Der Einfluss von Knoten aufeinander hängt von der Stärke ihrer Verbindung ab. Verbindungen können ein positives oder ein negatives Gewicht haben und damit sowohl exzitatorische als auch inhibitorische Synapsen nachahmen. Verändern sich die Verbindungsgewichte, spricht man von [[Lernen]]. Dies kann durch verschiedene Verfahren, sogenannte Lernregeln, realisiert werden. Die einfachste Lernregel, die sogenannte [[Unsupervised: Hebb|Hebb’sche Regel]], besagt zum Beispiel, dass die Verbindung zwischen zwei Neuronen dann gestärkt wird, wenn diese gemeinsam aktiv sind. Dadurch werden assoziative Lernvorgänge erzielt.
Knoten lassen sich zu Schichten zusammenfassen. In der Regel verfügen neuronale Netze über eine Input- und eine Outputschicht, in denen Aktivierungen entweder als Inputmuster erzeugt oder als Reaktion des Netzes abgelesen werden. Die meisten Modelle beinhalten dazwischen noch eine oder mehrere Schichten, sogenannte hidden layers, die einer komplexeren Verarbeitung dienen.

== Funktionsweise eines Knotens ==

[[File:Netzinput_Neuron.png||600px]]

Knoten sind als simulierte Neurone kleine Recheneinheiten. Sie wandeln einen Input ''x'' in einen Output ''o'' um. Der Input ist ein Vektor aus Aktivierungsstärken oder Feuerraten. Dieser wird an den simulierten Synapsen gewichtet und schließlich aufsummiert, sodass ein einzelner Wert, der Netzinput, übrigbleibt. Um aus diesem die Outputaktivierung zu berechnen, wird eine Aktivierungsfunktion zwischengeschaltet, welche jedem Netzinput eine Outputstärke zuordnet. Dies kann zum Beispiel eine lineare Funktion, eine Sigmoidfunktion oder eine Schwellwertfunktion sein. Eine Schwellwertfunktion implementiert die Aktivierungsschwelle, die jedes einzelne natürliche Neuron auszeichnet. Bis zu einer bestimmten Inputstärke bleibt das Neuron inaktiv, bei darüber hinausgehendem Input entwickelt es ein Aktionspotential, es „feuert“. Dieser Schwellwert ist für jedes Neuron individuell und variiert über Neuone hinweg. An dieser Stelle ist es wichtig, das Knoten in Netzen oftmals nicht einzelne Neurone simulieren, sondern eigentlich viele Neurone, sogenannte Neuronenverbände (neural assemblies). Entsprechend unscharf wird die Aktivierungsschwelle des gesamten Knotens, denn einige Neurone feuern leichter und einige schwerer. Eine Sigmoidfunktion fasst diese individuellen Schwellwerte zusammen, indem sie die Aktivierungsstärke nicht mehr sprungartig, sondern soft, abhängig von der Anzahl der bereits feuernden Neurone, abbildet. Daher wird diese Aktivierungsfunktion oft für die Simulation biologischer Neuronenverbände verwendet.

[[File:aktivierungsfkt.png|500px]]

Ein einfaches neuronales Netz kann in der R-Shiny-App [http://141.76.19.82:3838/mediawiki/NeuroNetz/ "Neuronale Netze"] beobachtet und untersucht werden.

Objective Functions

2018-10-09T11:23:16Z

Reichert:

{{Nav|Navigation|Fitting & Parameter Estimation|Kognitive Modellierung|Hauptseite}}
Möchte man einen vorliegenden Datensatz bestmöglich durch ein Modell mit einem oder mehreren Parametern beschreiben, ist es notwendig, die Parameterwerte zu ermitteln, mit welchen das Modell bestmöglich an die existierenden Daten angepasst ist. Diesen Prozess bezeichnet man als [[Fitting & Parameter Estimation|„Fitting“]] .

Um die Anpassung quantitativ beurteilen zu können, ist ein objektives Maß für den Fit notwendig. Dieses kann durch die Verwendung einer ''Fehlerfunktion'' gewonnen werden, die man im Englischen ''objective function'' nennt. Die ''objective function'' gibt an, wie sehr ein Modell von den erhobenen Daten abweicht.

'''''Beispiel'''''

Es wurde ein psychologisches Experiment zum [[Statistische Modelle 2|exponentiellen Discounting]] durchgeführt. Die Messwerte DU(x) geben den subjektiven Wert einer Belohnung x zum Zeitpunkt t an und wurden im Vektor Y gespeichert.

Das Modell nimmt an, dass sich der subjektive Wert einer Belohnung zum Zeitpunkt t aus dem absoluten Betrag der Belohnung U(x) und einem Parameter δ, welcher das Ausmaß der Abwertung beschreibt, bestimmen lässt:

:: [[Datei:Objective_Functions_1.png]]

Man möchte nun wissen, mithilfe welches Parameters δ die erhobenen Daten am besten durch das Modell vorhergesagt werden können. Dazu muss die Abweichung zwischen Modelldaten und empirisch erhobenen Daten ermittelt werden. Dies ist beispielsweise mithilfe der [[SSE|Fehlerquadratsumme SSE]] möglich:

:: [[Datei:Objective_Functions_2.png]]

:: [[Datei:Objective_Functions_3.PNG]]

Das Ziel des Fittings besteht nun darin, Parameterwerte δ zu finden, sodass der Wert dieser Fehlerfunktion minimiert wird.
Alternativ zur Verwendung der Fehlerquadratsumme können auch andere [[Abweichungsmaße|Abweichungsmaße]] (z.B. [[MLE|Maximum Likelihood]] ) benutzt werden.

Die Rolle der Fehlerfunktion beim Fitting kann in der R-Shiny-App [http://141.76.19.82:3838/mediawiki/Fitting/fitting/ "Fitting"] beobachtet und untersucht werden.

Fitting & Parameter Estimation

2018-10-09T11:21:41Z

Reichert:

{{Nav|Navigation|Fitting & Parameter Estimation|Kognitive Modellierung|Hauptseite}}
Die Begriffe „Fitting“ oder „Parameter Estimation“ beschreiben den Prozess der Verwendung eines Beispieldatensatzes zur Schätzung der Parameterwerte eines Modells, um diese bestmöglich an den Datensatz anzupassen.

Handelt es sich um ein einfaches statistisches Modell wie beispielsweise das Modell der linearen Regressionsanalyse, ist es möglich, die Parameter mithilfe entsprechender Formeln direkt aus den vorliegenden Daten zu berechnen.

:: '''''Beispiel einfache lineare Regressionsanalyse'''''

:: Das ist das einfache lineare Regressionsmodell. Es ermöglicht die Art des linearen Zusammenhangs zwischen einer Prädiktorvariable und einer Kriteriumsvariable zu beschreiben. Dazu wird eine Regressionsgleichung ermittelt, welche die Vorhersage des Wertes einer Kriteriumsvariable Y aus dem Wert einer Prädiktorvariable X erlaubt.

:: Der Wert der Kriteriumsvariable eines Probanden i wird dabei mittels folgender Formel berechnet:

:: [[Datei:Fitting_Parameter_Estimation_1.png]]

:: [[Datei:Fitting_Paramter_Estimation_2.PNG]]

:: Möchte man nun die Parameterwerte bo und b1 bestimmen, um das Modell bestmöglich an den Datensatz anzupassen, ist dies mithilfe von entsprechenden Formeln direkt aus den Daten möglich. Dazu ist es zunächst einmal notwendig Mittelwert μ und Standardabweichung σ der Daten zu ermitteln:

:: [[Datei:Verteilungsmodelle_3_1.png]] , [[Datei:Verteilungsmodelle_3_2.png]]

:: Diese Werte können im folgenden Schritt in die Formeln zur Berechnung der Modellparameter b1 und bo eingesetzt werden:

:: [[Datei:Fitting_Parameter_Estimation_3.png]]

:: [[Datei:Fitting_Parameter_Estimation_4.png]]

Es besteht keine Möglichkeit die Parameter komplexerer Modelle auf diese Weise zu ermitteln, da sie nicht analytisch errechenbar sind und somit eine iterative Lösung erfordern. Das heißt, die Modellparameter müssen schrittweise an die gegebenen Daten angepasst werden, bis das Modell die Daten mit so wenig Abweichungen wie möglich beschreibt und man infolgedessen den maximalen Fit erreicht hat.

Der Prozess des Fittings verläuft dabei nach dem folgenden Schema:

[[Datei:Fitting_Parameter_Estimation_5.png|600px]]

Die durch das Modell unter einer bestimmten Parameterwerteinstellung simulierten Daten werden mit den gegebenen empirischen Ergebnissen durch eine [[Objective Functions|''Fehlerfunktion'' (= Objective Function)]] verglichen, welche berechnet, wie stark das Modell von den Daten abweicht und dies in Form eines Fit-Wertes ausgibt. Mithilfe eines [[Algorithmen|''Algorithmus'']] ist es möglich, die Parameter schrittweise zu verändern, um das Modell besser an den gegebenen Datensatz anzupassen. Im Anschluss jeder Parameteranpassung werden die simulierten Daten erneut durch die Fehlerfunktion mit den gegebenen Werten verglichen, bis der bestmögliche Fit erreicht wird und die Parameterschätzung somit abgeschlossen ist.

Der Prozess des Fittings wird in der R-Shiny-App [http://141.76.19.82:3838/mediawiki/Fitting/fitting/ "Fitting"] anschaulich dargestellt.

MLE

2018-10-09T11:19:23Z

Reichert:

{{Nav|Navigation|Fitting & Parameter Estimation|Kognitive Modellierung|Hauptseite}}
Maximum Likelihood Estimation (MLE) ist eine Methode zur [[Fitting & Parameter Estimation|Parameterschätzung]], bei der die Plausibilität (Likelihood) der empirischen Daten unter dem Vorliegen bestimmter Modellparameter berechnet wird. Sie gilt als effiziente Methode und eignet sich für beliebige Wahrscheinlichkeitsverteilungen. Voraussetzung ist lediglich, dass alle Datenpunkte der gleichen (bekannten) Verteilung entstammen und statistisch unabhängig voneinander sind. Außerdem muss das Modell korrekt spezifiziert sein, das heißt, die bedingten Wahrscheinlichkeiten sollten tatsächlich der angenommenen Verteilung folgen. Empfehlenswert ist zudem eine große Stichprobe von mindestens 100 Datenpunkten (Andres, 1996). Die Passung eines Modells zu den Daten wird dann als bedingte Wahrscheinlichkeit angegeben: P(Daten|Modellparameter).

[[Datei:Mle_estimation.png|550px]]

Die hier dargestellte Abbildung stellt Reaktionszeiten dar, von denen vermutet wird, dass sie aus einer [[Verteilungsmodelle#Gammaverteilung|Gammaverteilung]] mit den Parametern p und b stammen. Um nun die Plausibilität dieser Daten unter der Bedingung der gegebenen Parameterwerte zu bestimmen, werden zunächst die Wahrscheinlichkeiten der einzelnen Datenpunkte di mithilfe einer [[Verteilungsmodelle#Gammaverteilung|Gammaverteilung]] mit bestimmten Parameterwerten geschätzt. Die gemeinsame Wahrscheinlichkeit (Likelihood) L der Datenpunkte ergibt sich durch die Multiplikation der Einzelwahrscheinlichkeiten:

[[Datei:Mle1.png|360px]]

Die so bestimmte Likelihoodfunktion ist abhängig von den Parametern p und b der [[Verteilungsmodelle#Gammaverteilung|Gammaverteilung]]. Das Ziel beim [[Fitting & Parameter Estimation|Fitting]] ist es, die Parameter zu finden, für die die Likelihood am höchsten ist, da so die Verteilung bestimmt werden kann, der die Daten am ehesten entstammen. Beim Fitting mittels der Maximum-Likelihood-Methode ist zu beachten, dass [[Algorithmen|Optimierungsalgorithmen]] darauf ausgelegt sind, das Minimum einer Funktion zu finden. Da der optimale Wert hier jedoch die maximale Wahrscheinlichkeit ist, müssen die Werte zuvor negativiert werden.

Ein Nachteil der Maximum-Likelihood-Methode ist, dass das Endergebnis eine sehr kleine Zahl sein kann (im Beispiel der Abbildung 1,2 * 10-12) und dass die Multiplikation einen hohen Rechenaufwand verursacht. Daher wird meist auf die sogenannte Log-Likelihood zurückgegriffen. Für die Berechnung bedeutet das, dass nur die Logarithmen der einzelnen Wahrscheinlichkeiten aufsummiert werden müssen und keine Multiplikation mehr nötig ist. Das folgt aus dem Logarithmengesetz, welches besagt, dass der Logarithmus eines Produktes auch als Summe der Logarithmen der Faktoren geschrieben werden kann. Allgemein gesagt wird aus log⁡(u*v)⁡ nun log(u)+log⁡(v). Angewendet auf die Likelihoodfunktion wird aus dem Logarithmus des Produktes der Einzelwahrscheinlichkeiten log(∏P(di|p,b)) nun die Summe:

[[Datei:Mle2.png|480px]]

Die Ermittlung der Fehleroberfläche mittels der MLE wird in der R-Shiny-App [http://141.76.19.82:3838/mediawiki/Fitting/fitting/ "Fitting"] veranschaulicht.

SSE

2018-10-09T11:18:09Z

Reichert:

{{Nav|Navigation|Fitting & Parameter Estimation|Kognitive Modellierung|Hauptseite}}
Die Abkürzung SSE bezeichnet die Fehlerquadratsumme, welche im Englischen Sum of Squared Errors genannt wird. Zur Berechnung dieses [[Abweichungsmaße]]s wird für jeden empirischen Datenpunkt die Differenz vom entsprechenden Modellwert ermittelt. Durch Quadrieren und anschließendes Aufsummieren der Werte ergibt sich schließlich die Fehlerquadratsumme.

[[Datei:plot_sse.png|600px]]

Wenn ''Yd'' die empirischen Y-Werte und ''Ym'' die Y-Werte des Modells sind, wird das Vorgehen durch folgende Formel beschrieben:

[[Datei:Sse.png|150px]]

Die Fehlerquadratsumme ist eines der häufigsten [[Abweichungsmaße]], da sie maßgebliche Vorteile mit sich bringt:
* Durch das Quadrieren der Abweichungen werden große Fehler stärker bestraft als kleinere, sodass erstere mehr Gewicht bei der [[Fitting & Parameter Estimation|Optimierung]] bekommen.
* Ein gegenseitiger Ausgleich positiver und negativer Abweichungen wird verhindert.
* Nicht zuletzt wird die Fehlerquadratsumme verwendet, weil sie unkompliziert zu implementieren und leicht zu interpretieren ist.

Nachteile und Grenzen der Methode:
* Ein Problem stellen Ausreißer in den Daten dar, welche das [[Abweichungsmaße|Abweichungsmaß]] stark verzerren können und dadurch zu einer scheinbar schlechten Passung des Modells führen.
* Zudem wird jede Differenz zwischen empirischen und entsprechenden Modelldaten gleichwertig in die Berechnung der SSE einbezogen. Dies kann ein Nachteil sein, wenn die Streuung der y-Werte sich für verschiedene x-Werte systematisch unterscheidet (das heißt, wenn Heteroskedastizität vorliegt). Ebenso ist die gleiche Gewichtung unvorteilhaft, wenn ein Teil der Daten für relevanter erachtet wird als ein anderer. Beispielhaft könnte man es für wichtiger halten, dass das Modell den subjektiven Wert über kurze Intervalle gut beschreiben kann. In diesem sowie im vorherigen Fall ist die Verwendung der gewichteten Fehlerquadratsumme eine Lösungsmöglichkeit, bei welcher jeder Abweichung ein eigenes Gewicht zugewiesen werden kann.

Die Entstehung der Fehleroberfläche aus der Fehlerquadratsumme wird in der R-Shiny-App [http://141.76.19.82:3838/mediawiki/Fitting/fitting/ "Fitting"] veranschaulicht.

Abweichungsmaße

2018-10-09T11:15:46Z

Reichert:

{{Nav|Navigation|Fitting & Parameter Estimation|Kognitive Modellierung|Hauptseite}}
Der Prozess des [[Fitting & Parameter Estimation|Fittings]] versucht zu ermitteln, welches Modell mit welchen Parametern einen Datensatz am besten beschreibt, indem Modelle mit verschiedenen Parametern erstellt und mit den Daten verglichen werden. Doch wie kann diese Passung bestimmt werden? Die nachfolgende Abbildung zeigt Datenpunkte eines Discounting-Experiments und zwei mögliche Modelle zur Beschreibung dieser Daten. Die rote exponentielle Discounting-Kurve verläuft recht genau durch die ersten drei Punkte, während die blaue hyperbolische Discounting-Kurve die letzten beiden Punkte besser erfasst. Es ist demnach schwierig, mittels Augenmaß zu bestimmen, welches Modell das geeignetere ist. Stattdessen kann die Passung durch ein Abweichungsmaß quantifiziert werden.

[[Datei:Fit_discounting.png]]

Abweichungsmaße geben an, wie gut die Daten des Modells und der empirischen Erhebung übereinstimmen. Besonders gebräuchlich sind dabei die [[SSE|Fehlerquadratsumme (Sum of Squared Errors)]] und die [[MLE|maximale Plausibilität (Maximum Likelihood)]].

Die Entstehung der Fehleroberfläche aus diesen Abweichungsmaßen wird in der R-Shiny-App [http://141.76.19.82:3838/mediawiki/Fitting/fitting/ "Fitting"] veranschaulicht.

Simulated Annealing

2018-10-09T11:12:15Z

Reichert:

{{Nav|Navigation|Fitting & Parameter Estimation|Kognitive Modellierung|Hauptseite}}
== Intuition des Simulated Annealing ==

Unter Simulated Annealing versteht man einen [[Algorithmen|Optimierungsalgorithmus]], der der Thermodynamik entlehnt ist. Beim Abkühlen eines Metalls bewegen sich die Atome aufgrund der hohen Temperatur zunächst schnell und schließlich mit dem Sinken der Temperatur immer langsamer. Dabei organisieren sie sich in einer stabilen Struktur, die einen nahezu optimalen energiearmen Zustand darstellt. Auch bei [[Algorithmen|Fittingalgorithmen]] wird ein optimaler Zustand gesucht – das Minimum der [[Fehleroberfläche, lokale und globale Minima|Fehlerfunktion]]. Der [[Algorithmen|Algorithmus]] durchläuft also verschiedene Positionen auf der [[Fehleroberfläche, lokale und globale Minima|Fehleroberfläche]], wobei die Temperatur ein Maß dafür ist, mit welcher Wahrscheinlichkeit eine Verschlechterung akzeptiert wird.

== Ablauf des Algorithmus ==

# '''Festlegung eines Startpunktes und des Temperaturverlaufes''' Zunächst wird eine Stelle der [[Fehleroberfläche, lokale und globale Minima|Fehleroberfläche]] zufällig ausgewählt, um die [[Fitting & Parameter Estimation|Optimierung]] von dort zu beginnen. Es muss außerdem festgelegt werden, bei welcher Temperatur gestartet wird und wie sie sich mit jedem Schritt verändert. Dazu kann beispielsweise eine Exponentialfunktion verwendet werden.
# '''Auswahl eines Nachbarpunktes''' Ein Punkt in der Nähe des vorherigen Wertes wird zufällig ausgewählt.
# '''Entscheidung, ob der Nachbarpunkt akzeptiert wird''' Wenn der gewählte Punkt einen geringeren [[Abweichungsmaße|Fehlerwert]] als der vorherige hat, wird er als neuer Punkt akzeptiert. Wenn der Punkt schlechter ist, wird zufällig bestimmt, ob er akzeptiert wird. Die Wahrscheinlichkeit des Akzeptierens ist dabei umso höher, je höher die Temperatur ist.
# '''Abkühlen''' Die Temperatur wird dann entsprechend der in Schritt 1 festgelegten Verlaufskurve aktualisiert.
# '''Wiederholung der Schritte 2 bis 5, solange keine vollständige Abkühlung erfolgt ist'''

== Vor- und Nachteile des Simulated Annealing ==

Im Gegensatz zum [[Gradient Descent]] ist das Simulated Annealing weniger anfällig für [[Fehleroberfläche, lokale und globale Minima|lokale Minima]], da kein deterministisches Voranschreiten in Richtung des steilsten Abstiegs erfolgt. Stattdessen können auch schlechtere Werte vorläufig akzeptiert werden.

Zu Schwierigkeiten kann es kommen, wenn die Parameter des Algorithmus nicht optimal gewählt werden. Zum Beispiel können eine zu geringe Anfangstemperatur oder ein zu schnelles Abkühlen dafür sorgen, dass [[Fehleroberfläche, lokale und globale Minima|lokale Minima]] nicht mehr verlassen werden. Außerdem kann ein einmal gefundenes Optimum wieder verloren gehen, wenn der Algorithmus später nicht mehr dorthin zurückkehrt, da kein Beibehalten der besten Lösung vorgesehen ist.

Das Verhalten des Simulated-Annealing-Verfahrens kann in der R-Shiny-App [http://141.76.19.82:3838/mediawiki/Fitting/fitting/ "Fitting"] beobachtet und untersucht werden.

Simulated Annealing

2018-10-09T11:11:51Z

Reichert:

{{Nav|Navigation|Fitting & Parameter Estimation|Kognitive Modellierung|Hauptseite}}
== Intuition des Simulated Annealing ==

Unter Simulated Annealing versteht man einen [[Algorithmen|Optimierungsalgorithmus]], der der Thermodynamik entlehnt ist. Beim Abkühlen eines Metalls bewegen sich die Atome aufgrund der hohen Temperatur zunächst schnell und schließlich mit dem Sinken der Temperatur immer langsamer. Dabei organisieren sie sich in einer stabilen Struktur, die einen nahezu optimalen energiearmen Zustand darstellt. Auch bei [[Algorithmen|Fittingalgorithmen]] wird ein optimaler Zustand gesucht – das Minimum der [[Fehleroberfläche, lokale und globale Minima|Fehlerfunktion]]. Der [[Algorithmen|Algorithmus]] durchläuft also verschiedene Positionen auf der [[Fehleroberfläche, lokale und globale Minima|Fehleroberfläche]], wobei die Temperatur ein Maß dafür ist, mit welcher Wahrscheinlichkeit eine Verschlechterung akzeptiert wird.

== Ablauf des Algorithmus ==

# '''Festlegung eines Startpunktes und des Temperaturverlaufes''' Zunächst wird eine Stelle der [[Fehleroberfläche, lokale und globale Minima|Fehleroberfläche]] zufällig ausgewählt, um die [[Fitting & Parameter Estimation|Optimierung]] von dort zu beginnen. Es muss außerdem festgelegt werden, bei welcher Temperatur gestartet wird und wie sie sich mit jedem Schritt verändert. Dazu kann beispielsweise eine Exponentialfunktion verwendet werden.
# '''Auswahl eines Nachbarpunktes''' Ein Punkt in der Nähe des vorherigen Wertes wird zufällig ausgewählt.
# '''Entscheidung, ob der Nachbarpunkt akzeptiert wird''' Wenn der gewählte Punkt einen geringeren [[Abweichungsmaße|Fehlerwert]] als der vorherige hat, wird er als neuer Punkt akzeptiert. Wenn der Punkt schlechter ist, wird zufällig bestimmt, ob er akzeptiert wird. Die Wahrscheinlichkeit des Akzeptierens ist dabei umso höher, je höher die Temperatur ist.
# '''Abkühlen''' Die Temperatur wird dann entsprechend der in Schritt 1 festgelegten Verlaufskurve aktualisiert.
# '''Wiederholung der Schritte 2 bis 5, solange keine vollständige Abkühlung erfolgt ist'''

== Vor- und Nachteile des Simulated Annealing ==

Im Gegensatz zum [[Gradient Descent]] ist das Simulated Annealing weniger anfällig für [[Fehleroberfläche, lokale und globale Minima|lokale Minima]], da kein deterministisches Voranschreiten in Richtung des steilsten Abstiegs erfolgt. Stattdessen können auch schlechtere Werte vorläufig akzeptiert werden.

Das Verhalten des Simulated-Annealing-Verfahrens kann in der R-Shiny-App [http://141.76.19.82:3838/mediawiki/Fitting/fitting/ "Fitting"] beobachtet und untersucht werden.

Zu Schwierigkeiten kann es kommen, wenn die Parameter des Algorithmus nicht optimal gewählt werden. Zum Beispiel können eine zu geringe Anfangstemperatur oder ein zu schnelles Abkühlen dafür sorgen, dass [[Fehleroberfläche, lokale und globale Minima|lokale Minima]] nicht mehr verlassen werden. Außerdem kann ein einmal gefundenes Optimum wieder verloren gehen, wenn der Algorithmus später nicht mehr dorthin zurückkehrt, da kein Beibehalten der besten Lösung vorgesehen ist.

Genetische Algorithmen

2018-10-09T11:07:57Z

Reichert:

{{Nav|Navigation|Fitting & Parameter Estimation|Kognitive Modellierung|Hauptseite}}
== Intuition genetischer Algorithmen ==

Das grundlegende Prinzip dieser Art von [[Algorithmen|Optimierungsverfahren]] ist an die Prinzipien der Evolutionstheorie angelehnt: So wie evolutionäre Prozesse in der biologischen Entwicklung Individuen hervorbringen, die in ihren Eigenschaften möglichst gut an ihre ökologische Nische angepasst sind, bringen sie bei der Parametersuche Modelle hervor, die in ihren Parametern möglichst optimal an die Daten angepasst sind.

Um konkret ein Beispiel aus dem Tierreich zu nennen, könnten wir eine Gruppe von Hasen betrachten, die unterschiedlich lange Ohren und unterschiedliche Fellfarben haben. Diese Merkmale bestimmen die Fitness, also die Überlebenswahrscheinlichkeit der Hasen in ihrer Nische, z.B. einem Wald. Ein Hase mit weißem Fell kann sich beispielsweise schlechter im Wald tarnen und wird deshalb vielleicht eher gefressen. Dies führt zu natürlicher Selektion: Nur Hasen, die nicht gefressen werden, können Nachkommen bekommen, die die Eigenschaften der Eltern in neuer Kombination und mit eigenen Mutationen tragen. Schrittweise entstehen so immer besser an die Umwelt angepasste Hasen.

Ein Individuum mit einer bestimmten Kombination von Eigenschaften entspricht beim [[Fitting & Parameter Estimation|Data Fitting]] mit genetischen Algorithmen einem Punkt auf der [[Fehleroberfläche, lokale und globale Minima|Fehleroberfläche]] für eine bestimmte Kombination von Parameterwerten des Modells. Die Fitness wiederum stellt der Wert der [[Fehleroberfläche, lokale und globale Minima|Fehlerfunktion]] beim Vergleich mit konkreten Daten dar. Der Algorithmus selektiert aus einer Gruppe von Individuen – der Population – die fittesten Parameterkombinationen und erstellt aus ihnen neue Individuen, die die erfolgreichen Parameterkombination neu kombinieren und mutieren. So entwickelt der Algorithmus über viele Generationen schließlich Parameterkombinationen, die die Fitness maximieren.

== Ablauf des Algorithmus ==

#'''Festlegung einer Grundpopulation''' Zuerst wird eine Gruppe von Individuen (das heißt Parameterkombinationen des Modells) festgelegt. Diese bilden die erste Generation. Die Auswahl dieser Parameterkombinationen erfolgt zufällig und/oder versucht einen möglichst großen Raum verschiedener Kombinationen abzudecken.
#'''Berechnung der Fitness''' Für jedes Mitglied der Population wird der Wert der [[Fehleroberfläche, lokale und globale Minima|Fehlerfunktion]] berechnet.
#'''Selektion der besten Individuen''' Die Punkte mit den besten Fehlerfunktionswerten, also der größten Fitness, werden ausgewählt, um sich zu reproduzieren. Das bedeutet, dass neue Punkte aus den Parametern ausgewählter Punkte generiert werden.
#'''Ableitung der nächsten Generation''' Hierfür gibt es drei der Biologie entlehnte Mechanismen, nämlich Rekombination, Mutation und Reproduktion. Rekombination bedeutet, dass die Parameter zweier Punkte gemischt werden, sodass ein neuer Punkt entsteht. Zusätzlich werden Mutationen vorgenommen, durch die ein Merkmal innerhalb eines Individuums zufällig verändert wird. Die besten Individuen können außerdem reproduziert, das heißt, in die neue Generation unverändert übernommen werden, um ein bisher gefundenes Optimum zu behalten. So entsteht eine neue Generation der Population. [[Datei:Gen_alg.PNG|900px]] 
#Das Vorgehen ab 2. wird für die neue Generation wiederholt, bis ein Abbruchkriterium erreicht wird, welches bestimmt, dass ein Individuum der Population den erstrebten maximalen Fitnesswert erreicht hat oder eine bestimmte Anzahl an Generationen berechnet wurde.

== Vor- und Nachteile genetischer Algorithmen ==

Genetische Algorithmen sind nur in relativ geringem Maße anfällig für [[Fehleroberfläche, lokale und globale Minima|lokale Minima]], da die [[Fehleroberfläche, lokale und globale Minima|Fehleroberfläche]] an vielen Punkten evaluiert wird und neue Punkte durch Mutation unabhängig von einem vorherigen Wert erschlossen werden können. Es ist daher auch weniger wichtig als zum Beispiel beim [[Gradient Descent]], wo die Startwerte gesetzt werden.
Nachteilig ist wie bei anderen [[Algorithmen]] auch, dass das Finden des Minimums nicht garantiert ist. Es sollten deshalb mehrere Startpopulationen genutzt werden. Zudem können ungünstige Einstellungen des [[Algorithmen|Algorithmus]] problematisch sein. Wird beispielsweise die Mutationsrate zu hoch gewählt, werden Punkte eher zufällig auf der [[Fehleroberfläche, lokale und globale Minima|Fehleroberfläche]] verteilt, ohne bisherigen guten Parameterkombinationen Beachtung zu schenken. Bei einer zu geringen Mutationsrate hingegen kann es sein, dass die Populationsmitglieder sich so ähnlich sind, dass ein [[Fehleroberfläche, lokale und globale Minima|lokales Minimum]] nicht verlassen wird. Schließlich sind genetische Algorithmen sehr rechenaufwändig, da in jeder Generation alle Individuen (oft mehr als 100) evaluiert, also simuliert, werden müssen.

Das Verhalten eines genetischen Algorithmus kann in der R-Shiny-App [http://141.76.19.82:3838/mediawiki/Fitting/fitting/ "Fitting"] beobachtet und untersucht werden.

Gradient Descent

2018-10-09T11:04:27Z

Reichert:

{{Nav|Navigation|Fitting & Parameter Estimation|Kognitive Modellierung|Hauptseite}}
== Intuition des Gradientenverfahrens ==

Unter Gradient Descent versteht man einen [[Algorithmen|Optimierungsalgorithmus]], der das Minimum einer Funktion findet, indem er sich schrittweise in Richtung des stärksten Gefälles bewegt. Dies kann man sich anschaulich wie eine blinde Person vorstellen, die auf einem Berg steht, und einen im Tal gelegenen See erreichen möchte. Die Person kennt die Beschaffenheit der Landschaft nicht und weiß daher auch nicht, wo genau sich der See (und damit der tiefste Punkt) befindet. Trotzdem kann sie zum See gelangen, indem sie sich immer in die Richtung bewegt, in die der Abstieg am steilsten ist.

== Ablauf des Algorithmus ==

# '''Initialisierung einer Startposition auf der [[Fehleroberfläche, lokale und globale Minima|Fehleroberfläche]]''' Der erste Parameterwert (bzw. bei mehreren Parametern die erste Kombination) kann zufällig gewählt werden. Jedoch ist es von Vorteil, wenn der Algorithmus in der Nähe des [[Fehleroberfläche, lokale und globale Minima|globalen Minimums]] seine Suche beginnt. 
# '''Berechnung des Fehlers''' Mit dem gegebenen Startwert werden nun Modelldaten berechnet. Anhand eines zuvor festgelegten [[Abweichungsmaße|Abweichungsmaßes]] wird der Fehler ermittelt.
# '''Bestimmung des Gradienten''' Für den Punkt, an dem sich der Algorithmus gerade befindet, wird berechnet, wie stark sich der Fehler verkleinert oder vergrößert, wenn der Parameterwert sich in einem kleinen Schritt in verschiedene Richtungen ändert. Der Gradient bezeichnet den Vektor, der in Richtung des steilsten Abstiegs zeigt.
# '''Bewegung zu einem neuen Punkt auf der [[Fehleroberfläche, lokale und globale Minima|Fehleroberfläche]]''' Der Gradient führt nun zu einem neuen Parameterwert, für den der Fehler kleiner ist als zuvor. Dieser Punkt ist das neue vorläufige Minimum.
# '''Berechnung des Fehlers für den neuen Punkt''' Der neue Parameterwert wird genutzt, um neue Modelldaten vorherzusagen. Wieder kann zwischen Modelldaten und empirischen Daten die Abweichung ermittelt werden.
# '''Wiederholung der Schritte 3 – 5 bis sich der Fehler nicht mehr wesentlich verkleinert'''

== Mögliche Probleme des Gradientenverfahrens ==

Zwar ist Gradient Descent ein Algorithmus, der ohne hohen Rechenaufwand zum Ziel führt, jedoch besitzt er auch einige Nachteile. Zu den größten Schwierigkeiten zählen [[Fehleroberfläche, lokale und globale Minima|lokale Minima]]. Da der Algorithmus immer dem steilsten Gefälle folgt, kann ein lokales Minimum, nachdem es erreicht wurde, nicht mehr verlassen werden, um einen tiefergelegenen Punkt außerhalb dieses Minimums zu erreichen. Dieses Problem kann verringert werden, indem man verschiedene Startpunkte wählt.

Des Weiteren muss die Schrittweite des Algorithmus beachtet werden. Ist sie zu klein, dauert es sehr lang, bis das Minimum erreicht wird. Eine zu große Schrittweite hingegen kann schmale Tiefpunkte überspringen, sodass das Minimum nicht gefunden wird.

Ein Problem für den Algorithmus sind zudem Diskontinuitäten in der [[Fehleroberfläche, lokale und globale Minima|Fehleroberfläche]]. An solchen Stellen, die nicht glatt und kontinuierlich verlaufen, kann kein Gradient berechnet werden, da die Funktion dort nicht differenzierbar ist. Ist dies der Fall, muss auf ableitungsfreie Algorithmen wie zum Beispiel das [[Simplex]]-Verfahren zurückgegriffen werden.

Das Verhalten des Gradient-Descent-Algorithmus inklusive der beschriebenen Probleme kann in der R-Shiny-App [http://141.76.19.82:3838/mediawiki/Fitting/fitting/ "Fitting"] beobachtet und untersucht werden.

Fehleroberfläche, lokale und globale Minima

2018-10-09T11:02:54Z

Reichert:

{{Nav|Navigation|Fitting & Parameter Estimation|Kognitive Modellierung|Hauptseite}}
== Was ist die Fehleroberfläche? ==

Die Fehleroberfläche ist die üblicherweise unbekannte Kurve oder Fläche, die entsteht, wenn für jeden Parameter bzw. jede Parameterkombination des Modells ein [[Abweichungsmaße|Abweichungsmaß]] zwischen Modell und Daten berechnet wird. Dafür eignen sich beispielsweise die [[SSE|Quadratfehlersumme (SSE)]] oder die [[MLE|maximale Plausibilität (MLE)]]. Mit jedem Parameter kommt eine Dimension der Fehleroberfläche hinzu. Bei nur einem variierenden Parameter lässt sie sich, wie in der Abbildung, in einem zweidimensionalen Koordinatensystem darstellen. Anhand der Fehleroberfläche lässt sich nun leicht sehen, welche Probleme beim [[Fitting & Parameter Estimation|Data Fitting]] auftreten können.

== Welche Probleme können bei der [[Fitting & Parameter Estimation|Optimierung]] auftreten? ==

[[Datei:Errorsurface.png]]

Beim Prozess des [[Fitting & Parameter Estimation|Data Fitting]] wird die Parameterausprägung gesucht, die den kleinstmöglichen Fehler mit sich bringt – also auf der Fehleroberfläche den niedrigsten Punkt aufweist, welcher als Minimum der Fehleroberfläche bezeichnet wird. Da die Fehleroberfläche in ihrer Gesamtheit unbekannt ist, tasten [[Algorithmen]] die Fehleroberfläche schrittweise ab, um dieses Minimum zu finden. Aufgrund des schrittweisen Vorgehens wird jedoch nicht für jede Parameterwertkombination das [[Abweichungsmaße|Abweichungsmaß]] berechnet. Dies ist aus zwei Gründen oftmals unmöglich: Erstens aus kombinatorischen Gründen, die eine genaue Abtastung schnell an die Grenzen der verfügbaren Rechenpower stoßen lassen. Wenn wir z.B. auch nur 3 Parameter haben und von diesen Parametern auch nur je 10 Stufen untersuchen wollen (also die Fehleroberfläche sehr grob abtasten möchten), so kommen wir bereits auf 10 x 10 x 10 = 1000 verschiedene Kombinationen und damit Modelldurchläufe, die notwendig sind, um den Fehler für jede Kombination zu errechnen. Entsprechend schnell stoßen selbst Hochleistungsrechner an ihre Grenzen, sollte jede erdenkliche Kombination geprüft werden müssen. Zweitens ist dies aber auch mathematisch nicht möglich, denn bei kontinuierlichen Parametern gibt es unendlich viele Ausprägungen jedes einzelnen Parameters. Es kann daher passieren, dass beim schrittweisen Abtasten der Fehleroberfläche bestimmte Abschnitte der Fehleroberfläche nicht beachtet werden. Ein [[Algorithmen|Algorithmus]] kann beispielsweise ein Minimum im durchsuchten Bereich entdecken, jedoch übersehen, dass sich an einer anderen Stelle ein noch tieferes – das wahre – Minimum befunden hätte. Letzteres wird als globales Minimum bezeichnet und ist eigentlich das Ziel des [[Fitting & Parameter Estimation|Data Fitting]]. Im Gegensatz dazu nennt man einen Tiefpunkt, der in einem umschriebenen Bereich der Fehleroberfläche liegt und weniger tief ist als das globale Minimum ein lokales Minimum.

Ein weiteres Problem bei der [[Fitting & Parameter Estimation|Optimierung]] können Sattelpunkte oder längere flache Bereiche der Fehleroberfläche darstellen. Einige [[Algorithmen]] arbeiten sich durch die Fehleroberfläche anhand von [[Gradient Descent|Gradienten]], das heißt anhand des Anstiegs der Fehlerfunktion, von Punkt zu Punkt nach unten ins Minimum. Wenn dieser Anstieg nur sehr flach ist, kann es sein, dass der [[Algorithmen|Algorithmus]], der immer dem steilsten Gradienten folgt, ein Abbruchkriterium erreicht. Er nimmt also an, dass er nun in einer Talsohle angekommen ist und erklärt die Suche an dieser Stelle für beendet. Die [[Fitting & Parameter Estimation|Optimierung]] bleibt dann sozusagen an der flachen Stelle stecken.

Die beschriebenen Probleme können in der R-Shiny-App [http://141.76.19.82:3838/mediawiki/Fitting/fitting/ "Fitting"] beobachtet und untersucht werden.

== Was kann man dagegen tun? ==

Bei der [[Fitting & Parameter Estimation|Optimierung]] mit [[Gradient Descent|gradientenbasierten Verfahren]] kann die Wahrscheinlichkeit, das globale Minimum der Fehleroberfläche zu finden, durch die Wahl verschiedener Startpositionen erhöht werden. Dabei ist es denkbar, ein gleichmäßiges Raster aus Startpositionen zu benutzen oder zufällige Startwerte zu wählen. Eine ähnliche Zufallskomponente steckt außerdem in nicht deterministischen [[Algorithmen|Optimierungsalgorithmen]], so zum Beispiel im [[Simulated Annealing]] oder in [[Genetische Algorithmen|genetischen Algorithmen]]. Dort sorgt sie dafür, dass lokale Minima auch wieder verlassen werden können und mit größerer Wahrscheinlichkeit – wenn auch nicht sicher – das globale Minimum gefunden wird.

Algorithmen

2018-10-09T11:00:06Z

Reichert:

{{Nav|Navigation|Fitting & Parameter Estimation|Kognitive Modellierung|Hauptseite}}
Beim [[Fitting & Parameter Estimation|Data Fitting]] sollen Parameterwerte gefunden werden, mit denen ein Modell gemessene Daten bestmöglich beschreiben kann. Dazu werden Modelldaten und empirische Daten mittels eines [[Abweichungsmaße|Abweichungsmaßes]] verglichen. Würde man dieses [[Abweichungsmaße|Abweichungsmaß]] für alle denkbaren Parameterwerte und -kombinationen berechnen und in einem Koordinatensystem darstellen, könnte man die gesamte [[Fehleroberfläche, lokale und globale Minima|Fehleroberfläche]] betrachten. Unter allen Parameterausprägungen wären nun diejenigen bestimmbar, welche den kleinsten Fehler verursachen. So einfach, wie diese Lösung klingt, ist sie jedoch nicht. Warum?

Parameter können sehr viele (bei kontinuierlichen Parametern auch unendlich viele) Ausprägungen haben. Jede dieser Ausprägungen auf das Modell anzuwenden, verursacht einen sehr hohen Rechenaufwand. Mit jedem zusätzlichen Parameter im Modell steigt außerdem die Anzahl der Kombinationsmöglichkeiten und damit ebenfalls der Rechenaufwand. Eine graphische Darstellung der [[Fehleroberfläche, lokale und globale Minima|Fehleroberfläche]] wäre, nebenbei bemerkt, schon ab drei Parametern nicht mehr gut möglich, da hierfür ein vierdimensionales Koordinatensystem benötigt werden würde. Die Vielzahl der Kombinationsmöglichkeiten und Parameterausprägungen sorgen für eine hohe Komplexität der [[Fehleroberfläche, lokale und globale Minima|Fehleroberfläche]] und Fehlerfunktion. Dies führt dazu, dass sich die Suche nach der optimalen Parameterwertkombination einfachen [[Closed Form bzw. Analytisch vs. Numerisch|analytischen Lösungswegen entzieht]].

Um das Minimum zu finden, ist somit ein Algorithmus nötig, der die [[Fehleroberfläche, lokale und globale Minima|Fehleroberfläche]] abtastet, ohne dass alle erdenklichen Punkte berechnet werden müssen. Es gibt viele verschiedene Ansätze solcher Optimierungsalgorithmen, dazu gehören [[Gradient Descent|gradientenbasierte Verfahren]], [[Genetische Algorithmen|genetische Algorithmen]], [[Simplex & Bounded Simplex|Simplex-Verfahren]] und [[Simulated Annealing]]. Der Ablauf ist dabei jeweils ähnlich:

Mit bestimmten Startparameterwerten werden aus dem Modell Daten generiert und den empirischen Ergebnissen gegenübergestellt. Damit wird ein [[Abweichungsmaße|Abweichungsmaß]] – der Wert auf der [[Fehleroberfläche, lokale und globale Minima|Fehleroberfläche]] – berechnet. Sofern noch kein Abbruchkriterium, zum Beispiel in Form eines sehr geringen Fehlers, erreicht ist, wählt der Algorithmus anschließend einen neuen Punkt auf der [[Fehleroberfläche, lokale und globale Minima|Fehleroberfläche]] aus. Dieser wird so bestimmt, dass der Fehler mutmaßlich kleiner wird. Die Auswahl kann dabei entweder deterministisch nur tiefer liegende Punkte betreffen oder eine Zufallskomponente beinhalten. Die neu gewählten Parameterausprägungen werden, falls kein Abbruchkriterium in Form einer zu geringen Veränderung eingreift, auf das Modell angewandt. An dieser Stelle beginnt der Kreislauf von vorn, bis ein Minimum erreicht ist.

Verschiedene Algorithmen können in der R-Shiny-App [http://141.76.19.82:3838/mediawiki/Fitting/fitting/ "Fitting"] ausprobiert werden.

MLE

2018-09-09T15:33:12Z

Reichert:

Backpropagation

2018-09-06T17:27:03Z

Reichert:

{{Nav|Navigation|Neuronale Netze|Kognitive Modellierung|Hauptseite}}
== Intuition des Backpropagationsverfahrens==

Die Backpropagation-Regel ist ein [[Supervised|überwachter]] [[Lernen|Lernalgorithmus]], der in [[Neuronale Netze|künstlichen neuronalen Netzen]] verwendet wird. Im Gegensatz zur [[Deltaregel]], auf der sie basiert, funktioniert Backpropagation auch bei [[Neuronale Netze|Netzen]] mit beliebig vielen Hiddenschichten (hidden layers). Die [[Deltaregel]] gerät bei solchen [[Neuronale Netze|Netzen]] an ihre Grenzen, da der gewünschte Output der Hiddenschichten nicht bekannt ist, sodass kein Fehlerterm für die Gewichtsmodifikation ermittelt werden kann. Backpropagation löst dieses Problem, indem Fehlerterme von der Outputschicht (output layer) schrittweise als Aktivierungen durch die einzelnen Schichten zurückgesendet werden. Die Gewichte können dann jeweils so angepasst werden, dass sich der Fehler verkleinert.

== Ablauf des Algorithmus ==

#'''Forward-Pass''' Zuerst wird ein Inputmuster präsentiert, dass für eine Ausbreitung von Aktivierungen im [[Neuronale Netze|Netz]] bis zur Outputschicht sorgt. Der Output wird also wie gewöhnlich berechnet. 
#'''Berechnung des Fehlers''' Als nächstes wird die Differenz zwischen dem vorgegebenen korrekten Output und dem vom Netz erzeugten tatsächlichen Output ermittelt. Der Gesamtfehler ergibt sich, indem die Differenz zwischen Vorgabe und tatsächlicher Aktivierung für jeden Knoten i einzeln berechnet wird und diese Werte dann aufsummiert werden. [[Datei:Backprop1.png|300px]] Wenn der Fehler einen vorher festgelegten Grenzwert überschreitet, folgt der nächste Schritt. Ansonsten kann der [[Lernen|Lernvorgang]] abgebrochen werden. 
#'''Backward-Pass''' Aus dem berechneten Fehler ergibt sich ein Fehlersignal, welches von der Outputschicht an die vorherige Hiddenschicht gesendet wird. Die Gewichte werden dann mittels eines Gradientenverfahrens so verändert, dass der Fehler sich verkleinert. Zunächst wird für jedes Gewicht zwischen der Outputschicht und der direkt davor liegenden Hiddenschicht berechnet, wie stark eine Veränderung dieses Gewichtes den Gesamtfehler beeinflussen würde. [[Datei:Backwardpass.png|650px]] In die Berechnung fließen die Aktivierung des Ursprungsknotens des Gewichts und ein Fehlerterm δ (siehe Abbildung) ein. Dies ergibt die Ableitung (den Gradienten) des Gesamtfehlers nach diesem Gewicht. Für das Gewicht w46 aus der Abbildung wäre dies zum Beispiel: [[Datei:Backprop2.png|170px]] Ist die Ableitung positiv, würde eine Gewichtserhöhung den Fehler vergrößern. Eine negative Ableitung hingegen bedeutet, dass der Fehler bei steigendem Gewicht sinkt. Daher wird ein jedes Gewicht verändert, indem die Ableitung des Gesamtfehlers nach diesem Gewicht (multipliziert mit einer Lernrate η) vom ursprünglichen Wert des Gewichtes subtrahiert wird. Das Gewicht w46 wird demnach wie folgt verändert: [[Datei:Backprop3.png|175px]] Dies hat eine Verringerung des Gesamtfehlers zur Folge. Bevor die Gewichtsveränderung jedoch realisiert wird, muss das Verfahren noch für die Gewichte zwischen den vorhandenen Hiddenschichten und zwischen der Inputschicht und der ersten Hiddenschicht angewendet werden. Auch hier wird jeweils die Ableitung des Gesamtfehlers nach einem Gewicht berechnet, die dem Einfluss von Veränderungen dieses Gewichtes auf den Gesamtfehler entspricht. Wenn mehrere Knoten zur Aktivierung eines Knotens beitragen, muss dies im Fehlerterm δ berücksichtigt werden (Beispiel: Knoten 1 der oberen Abbildung). Danach werden die Gewichtsveränderungen entsprechend ermittelt. Angekommen bei der Inputschicht wird die berechnete Gewichtsveränderung für alle Gewichte des Netzes realisiert. [[Datei:Backprop-update.png|650px]] Anschließend kehrt der Algorithmus zurück zu Schritt 1. Der Output des Netzes sollte nun mit jeder Iteration ein Stück näher am korrekten Output sein.

== Vor- und Nachteile von Backpropagation ==

Backpropagation ist ein relativ wenig rechenaufwändiger [[Lernen|Lernalgorithmus]], der es ermöglicht, in mehrschichtigen [[Neuronale Netze|Netzen]] zu [[Lernen|lernen]]. Da Backpropagation letztlich einen [[Gradient Descent]] Algorithmus darstellt, übernimmt sie auch die Probleme dieses Verfahrens, so zum Beispiel, dass das [[Fehleroberfläche, lokale und globale Minima|globale Minimum]] zugunsten eines [[Fehleroberfläche, lokale und globale Minima|lokalen Minimums]] übersehen werden kann. Ein weiterer Nachteil ist, dass [[Neuronale Netze|Netze]], die Backpropagation nutzen, weniger gut zur biologisch plausiblen Nachbildung neuronaler Prozesse geeignet sind. Synapsen haben in der Natur eine Übertragungsrichtung. Bei der Backpropagation werden jedoch Signale in beide Richtungen durch ein und dieselbe Synapse geschickt. Wenn keine biologische Analogie angestrebt wird, spricht allerdings nichts gegen Backpropagation als rein mathematische Methode.

Datei:Backwardpass.png

2018-09-06T16:28:09Z

Reichert:

Datei:Backprop-update.png

2018-09-06T16:27:57Z

Reichert:

Datei:Backprop3.png

2018-09-06T16:27:42Z

Reichert:

Datei:Backprop2.png

2018-09-06T16:27:23Z

Reichert:

Datei:Backprop1.png

2018-09-06T16:27:11Z

Reichert:

MLE

2018-08-27T15:19:31Z

Reichert:

{{Nav|Navigation|Fitting & Parameter Estimation|Kognitive Modellierung|Hauptseite}}
Maximum Likelihood Estimation (MLE) ist eine Methode zur [[Fitting & Parameter Estimation|Parameterschätzung]], bei der die Plausibilität (Likelihood) der empirischen Daten unter dem Vorliegen bestimmter Modellparameter berechnet wird. Sie gilt als effiziente Methode und eignet sich für beliebige Wahrscheinlichkeitsverteilungen. Voraussetzung ist lediglich, dass alle Datenpunkte der gleichen (bekannten) Verteilung entstammen und statistisch unabhängig voneinander sind. Außerdem muss das Modell korrekt spezifiziert sein, das heißt, die bedingten Wahrscheinlichkeiten sollten tatsächlich der angenommenen Verteilung folgen. Empfehlenswert ist zudem eine große Stichprobe von mindestens 100 Datenpunkten. Die Passung eines Modells zu den Daten wird dann als bedingte Wahrscheinlichkeit angegeben: P(Daten|Modellparameter).

[[Datei:Mle_estimation.png|550px]]

Die hier dargestellte Abbildung stellt Reaktionszeiten dar, von denen vermutet wird, dass sie aus einer [[Verteilungsmodelle#Gammaverteilung|Gammaverteilung]] mit den Parametern p und b stammen. Um nun die Plausibilität dieser Daten unter der Bedingung der gegebenen Parameterwerte zu bestimmen, werden zunächst die Wahrscheinlichkeiten der einzelnen Datenpunkte di mithilfe einer [[Verteilungsmodelle#Gammaverteilung|Gammaverteilung]] mit bestimmten Parameterwerten geschätzt. Die gemeinsame Wahrscheinlichkeit (Likelihood) L der Datenpunkte ergibt sich durch die Multiplikation der Einzelwahrscheinlichkeiten:

[[Datei:Mle1.png|360px]]

Die so bestimmte Likelihoodfunktion ist abhängig von den Parametern p und b der [[Verteilungsmodelle#Gammaverteilung|Gammaverteilung]]. Das Ziel beim [[Fitting & Parameter Estimation|Fitting]] ist es, die Parameter zu finden, für die die Likelihood am höchsten ist, da so die Verteilung bestimmt werden kann, der die Daten am ehesten entstammen. Beim Fitting mittels der Maximum-Likelihood-Methode ist zu beachten, dass [[Algorithmen|Optimierungsalgorithmen]] darauf ausgelegt sind, das Minimum einer Funktion zu finden. Da der optimale Wert hier jedoch die maximale Wahrscheinlichkeit ist, müssen die Werte zuvor negativiert werden.

Ein Nachteil der Maximum-Likelihood-Methode ist, dass das Endergebnis eine sehr kleine Zahl sein kann (im Beispiel der Abbildung 1,2 * 10-12) und dass die Multiplikation einen hohen Rechenaufwand verursacht. Daher wird meist auf die sogenannte Log-Likelihood zurückgegriffen. Für die Berechnung bedeutet das, dass nur die Logarithmen der einzelnen Wahrscheinlichkeiten aufsummiert werden müssen und keine Multiplikation mehr nötig ist. Das folgt aus dem Logarithmengesetz, welches besagt, dass der Logarithmus eines Produktes auch als Summe der Logarithmen der Faktoren geschrieben werden kann. Allgemein gesagt wird aus log⁡(u*v)⁡ nun log(u)+log⁡(v). Angewendet auf die Likelihoodfunktion wird aus dem Logarithmus des Produktes der Einzelwahrscheinlichkeiten log(∏P(di|p,b)) nun die Summe:

[[Datei:Mle2.png|480px]]

Datei:Mle2.png

2018-08-27T15:08:40Z

Reichert:

Datei:Mle1.png

2018-08-27T15:08:28Z

Reichert:

Datei:Mle estimation.png

2018-08-27T15:08:11Z

Reichert:

Dynamic Neural Fields

2018-08-27T14:48:45Z

Reichert:

{{Nav|Navigation|Neuronale Netze|Kognitive Modellierung|Hauptseite}}
== Dynamic Field Theory (DFT) ==
Kognitionen werden als dynamischer Prozess verstanden. Daher lassen sie sich mittels dynamischer Systeme beschreiben. Diese bestehen aus Systemvariablen, die durch Differentialgleichungen modelliert werden, sodass der Systemzustand als Kombination der Ausprägungen der relevanten Systemvariablen zu jedem Zeitpunkt berechnet werden kann.
Dynamische neuronale Felder (Dynamic Neural Fields, DNF) sind dynamische Systeme auf Basis [[Neuronale Netze|neuronaler Netzwerkmodelle]]. Der Fokus liegt dabei auf der zeitlichen und räumlichen Ausbreitung von Aktivierungen, durch die dynamische kognitive Prozesse beschrieben werden sollen. Neuronenpopulationen werden durch Knoten repräsentiert, welche in einer Schicht ein- oder zweidimensional angeordnet und lateral miteinander verknüpft sind, sodass sie sich gegenseitig beeinflussen können. Zudem können mehrere Felder miteinander verknüpft sein und sich dadurch ebenfalls beeinflussen. Als Modell eignen sich dynamische neuronale Felder zum Beispiel zur Vorhersage von Blick- oder Mausbewegungen oder zur Modellierung räumlicher Aufmerksamkeit.

Zum Verständnis dynamischer neuronaler Felder bedarf es dreier Bausteine, welche im Folgenden näher erklärt werden.

=== Populationsvektoren ===

Die DFT geht davon aus, dass eine Population von Knoten gemeinsam eine Eigenschaftsdimension kodiert. Dies beruht auf dem Befund, dass kognitive Prozesse dadurch entstehen, dass Neuronenpopulationen lokal miteinander interagieren. Dies kann man sich am Beispiel der Blickbewegung verdeutlichen: Jedes Neuron hat eine „bevorzugte Richtung“, für die es am stärksten feuert. Für ähnliche Richtungen feuert es ebenfalls, jedoch immer schwächer, je geringer die Ähnlichkeit ist. Wenn man verschiedene dieser Neuronen zusammenfasst, gelangt man zu einer kontinuierlichen Repräsentation des gesamten Kontinuums an Blickbewegungsrichtungen. Die Eigenschaftsausprägung ergibt sich also daraus, wie stark verschiedene Knoten mit unterschiedlichen „bevorzugten“ Ausprägungen feuern. Bei dieser Zusammenfassung spricht man von einem Populationsvektor. In einem dynamischen neuronalen Feld wird jede Eigenschaft durch eine Dimension von Knoten kodiert.

=== Interaktionen im DNF ===

Die miteinander verknüpften Knoten im dynamischen Feld beeinflussen sich gegenseitig und stabilisieren dadurch Aktivierungsmuster im Feld. Die Art der Interaktion lässt sich unterteilen in lokale Exzitation und Inhibition sowie globale Inhibition.

*Lokale Exzitation: nah beieinander liegende Knoten verstärken sich gegenseitig, sodass eine Aktivierungsspitze aufrechterhalten werden kann und vor dem Abflachen geschützt wird.
*Lokale Inhibition: Knoten, die sich etwas weiter weg in der Umgebung der Aktivierungsspitze befinden, werden gehemmt, sodass die Ausbreitung der Aktivierung eingeschränkt wird.
*Globale Inhibition: weit entfernte Knoten werden ebenfalls gehemmt, um die Entstehung weiterer Aktivierungsspitzen zu unterdrücken.

Diese Form der Interaktion lässt sich als Mexican-Hat-Funktion implementieren:

[[Datei:Mexican_hat.PNG|600px]]

=== Entwicklung über die Zeit ===

Durch die gegenseitige Beeinflussung der Knoten ändern sich die Aktivierungsmuster über die Zeit. Die räumliche Verschiebung von Aktivierungsmaxima gibt Auskunft über sich ändernde Ausprägungen der Eigenschaftsdimensionen. Die Höhe der Aktivierungsmaxima variiert in Abhängigkeit von Input und lateralen Interaktionen zwischen den Feldknoten ebenfalls. Die Aktivierung der Knoten lässt sich mit folgender Formel beschreiben:

[[Datei:Dnf.png|500px]]

* x – ein Knoten
* x' – ein Nachbarknoten
* u(x,t) – Aktivierung u eines Knotens x zum Zeitpunkt t
* τ – Zeitkonstante
* h – Ruhepotential
* f – (meist) sigmoidale Aktivierungsfunktion
* ω – Interaktionskernel (Mexican-Hat-Funktion)
* S(x,t) – externer stimulusbedingter Input für jeden Knoten x zu jedem Zeitpunkt t

Die Veränderung der Aktivierung eines Knotens hängt demnach von seiner vorherigen Aktivierung und seinem Ruhepotential ab. Des Weiteren wird sie durch einen möglichen externen Input und die Interaktion mit Nachbarknoten beeinflusst.

Darüber hinaus existiert ein Schwellwert, der bestimmt, ob eine Aktivierungsspitze über die Zeitdauer des Inputs hinaus aufrechterhalten werden kann. Wenn der Input nicht stark genug ist, um die Aktivierungsstärke über den Schwellwert zu bringen, bleibt die Aktivierung in der Nähe des Ruhepotentials und verschwindet nach dem Ende des Inputs. Wird der Schwellwert hingegen überschritten, entsteht eine stabile Aktivierungsspitze.

Datei:Mexican hat.PNG

2018-08-27T14:41:04Z

Reichert:

Datei:Dnf.png

2018-08-27T14:40:37Z

Reichert:

Level

2018-08-26T12:21:13Z

Reichert:

{{Nav|Navigation|Kognitive Modellierung|Hauptseite}}
Bevor man einen Datensatz [[Fitting & Parameter Estimation|fitten]] kann, muss die Entscheidung getroffen werden, auf welcher Ebene die Daten modelliert werden sollen. Hier gibt es drei Ansätze: Beim [[Fitting & Parameter Estimation|Fitten]] auf der Aggregatebene fasst man die Daten aller Versuchspersonen zusammen, während beim [[Fitting & Parameter Estimation|Fitten]] auf der Individualebene jede Versuchsperson eigene Parameterwerte zugewiesen bekommt. Einen Kompromiss stellt das hierarchische [[Fitting & Parameter Estimation|Fitten]] dar, bei dem einige Parameter für alle Versuchspersonen zusammen (also auf Aggregatebene), weitere aber pro Bedingungen oder auch individuell geschätzt werden können. Alle genannten Ansätze werden im Folgenden genauer beschrieben.

== Aggretagebene ==

Beim [[Fitting & Parameter Estimation|Fitten]] auf der Aggregatebene wird ein Parameterset für jede Bedingung des Experiments bestimmt. Dabei werden die Daten aller Versuchspersonen einbezogen, sodass das Modell letztlich einen Durchschnittsprobanden beschreiben soll. Der Ansatz eignet sich, um einen allgemeinen Prozess zu beschreiben, vernachlässigt jedoch interindividuelle Differenzen. Wenn man über wenige Daten jedes einzelnen Probanden verfügt, kann das [[Fitting & Parameter Estimation|Fitten]] auf Aggregatebene der einzige Weg sein, um überhaupt einen quantitativen Fit zu erreichen.

Zu beachten ist, dass dieses Vorgehen, wie alle Auswertungen auf Aggregatsebene, ein falsches Modell als wahr erscheinen lassen kann, wie im nachfolgenden Beispiel verdeutlicht wird. Bei Lernaufgaben ist es oft so, dass der Erfolg bei der Aufgabenbearbeitung der Versuchsperson eine Weile auf Zufallsniveau liegt, bis es einen plötzlichen Sprung zur korrekten Lösung gibt. Ein stufenförmiger Graph beschreibt den Prozess bestmöglich (siehe farbige Stufen in der Grafik). Da der Sprung bei jedem Probanden aber zu einem anderen Zeitpunkt erfolgt, würde die Aggregation der Daten eines solchen Prozesses dafür sorgen, dass ein gradueller, sanfter Anstieg des Bearbeitungserfolgs angenommen wird. Diese Glättung entspricht aber nicht mehr dem, wie der Prozess auf individualebene tatsächlich funktioniert. Beim Fitten auf Aggregatebene sollte also immer überprüft werden, inwiefern das Ergebnis die Daten der einzelnen Individuen widerspiegelt.

[[Datei:Glaettung.png|500px]]

== Individualebene ==

Beim [[Fitting & Parameter Estimation|Fitten]] auf der Individualebene wird ein Parameterset für jede Bedingung und für jeden Probanden einzeln bestimmt. So wird eine unangebrachte Glättung vermieden. Der Ansatz ist zwingend notwendig, wenn nicht allgemeine Prozesse, sondern individuelle Unterschiede untersucht werden sollen. Zudem können die individuellen Parameter genutzt werden, um eine Gruppenverteilung der Parameter zu erstellen, sodass statistische Tests durchgeführt werden können. Beispielsweise könnte für zwei Personengruppen mit einem t-Test herausgefunden werden, ob sich ein bestimmter Parameter zwischen den Gruppen signifikant unterscheidet. Von Nachteil ist bei der individuellen Modellierung jedoch, dass sie sehr viele Datenpunkte benötigt, da individuelle Daten mehr Rauschen enthalten als aggregierte. Außerdem sind Gütekriterien wie die Reliabilität der Parameterschätzung zu überprüfen.

== Hierarchische Modellierung ==

Bei der hierarchischen Vorgehensweise können Parameter auf verschiedenen Ebenen geschätzt werden. Einzelne Parameter werden für alle Versuchspersonen kombiniert geschätzt, während ausgewählte Parameter personen- oder bedingungsspezifisch bestimmt werden. Der Ansatz kombiniert also die Vorteile der beiden anderen Ansätze und hilft, Probleme der Aggregatebene und der Individualebene zu umgehen. Er führt jedoch zu einem hohen Komplexitätsgrad, was bei der [[Fitting & Parameter Estimation|Optimierung]] zu Schwierigkeiten führen kann.

SSE

2018-08-26T12:16:13Z

Reichert:

{{Nav|Navigation|Kognitive Modellierung|Hauptseite}}
Die Abkürzung SSE bezeichnet die Fehlerquadratsumme, welche im Englischen Sum of Squared Errors genannt wird. Zur Berechnung dieses [[Abweichungsmaße]]s wird für jeden empirischen Datenpunkt die Differenz vom entsprechenden Modellwert ermittelt. Durch Quadrieren und anschließendes Aufsummieren der Werte ergibt sich schließlich die Fehlerquadratsumme.

[[Datei:plot_sse.png|600px]]

Wenn ''Yd'' die empirischen Y-Werte und ''Ym'' die Y-Werte des Modells sind, wird das Vorgehen durch folgende Formel beschrieben:

[[Datei:Sse.png|150px]]

Die Fehlerquadratsumme ist eines der häufigsten [[Abweichungsmaße]], da sie maßgebliche Vorteile mit sich bringt:
* Durch das Quadrieren der Abweichungen werden große Fehler stärker bestraft als kleinere, sodass erstere mehr Gewicht bei der [[Fitting & Parameter Estimation|Optimierung]] bekommen.
* Ein gegenseitiger Ausgleich positiver und negativer Abweichungen wird verhindert.
* Nicht zuletzt wird die Fehlerquadratsumme verwendet, weil sie unkompliziert zu implementieren und leicht zu interpretieren ist.

Nachteile und Grenzen der Methode:
* Ein Problem stellen Ausreißer in den Daten dar, welche das [[Abweichungsmaße|Abweichungsmaß]] stark verzerren können und dadurch zu einer scheinbar schlechten Passung des Modells führen.
* Zudem wird jede Differenz zwischen empirischen und entsprechenden Modelldaten gleichwertig in die Berechnung der SSE einbezogen. Dies kann ein Nachteil sein, wenn die Streuung der y-Werte sich für verschiedene x-Werte systematisch unterscheidet (das heißt, wenn Heteroskedastizität vorliegt). Ebenso ist die gleiche Gewichtung unvorteilhaft, wenn ein Teil der Daten für relevanter erachtet wird als ein anderer. Beispielhaft könnte man es für wichtiger halten, dass das Modell den subjektiven Wert über kurze Intervalle gut beschreiben kann. In diesem sowie im vorherigen Fall ist die Verwendung der gewichteten Fehlerquadratsumme eine Lösungsmöglichkeit, bei welcher jeder Abweichung ein eigenes Gewicht zugewiesen werden kann.

Datei:Plot sse.png

2018-08-26T12:10:34Z

Reichert:

Datei:Sse.png

2018-08-26T12:10:01Z

Reichert:

Unsupervised: Hebb

2018-08-26T12:06:34Z

Reichert:

{{Nav|Navigation|Kognitive Modellierung|Hauptseite}}
== Unüberwachtes Lernen im Allgemeinen ==

Unüberwachtes Lernen ist dadurch gekennzeichnet, dass das [[Neuronale Netze|Netz]] ohne einen „Lehrer“ [[Lernen|lernen]] muss, der einen korrekten Output vorgibt. Stattdessen lernen Netze beim unüberwachten Lernen allein aufgrund der gezeigten Inputmuster und finden in diesen Mustern statistische Regularitäten wie Cluster oder Korrelationen. Jeder Knoten lernt durch Koaktivierung seiner Inputknoten die Assoziation der Inputs. Daher ist diese Form des Lernens geeignet, wenn unbekannte Strukturen in Datensätzen gefunden werden sollen.

== Hebb'sches Lernen im Konkreten ==

Eine der einfachsten Lernregeln stammt von Donald O. Hebb (1949): 
''"Wenn ein Axon der Zelle A [...] Zelle B erregt und wiederholt und dauerhaft zur Erzeugung von Aktionspotentialen in Zelle B beiträgt, so resultiert dies in Wachstumsprozessen oder metabolischen Veränderungen in einer oder in beiden Zellen, die bewirken, dass die Effizienz von Zelle A in Bezug auf die Erzeugung eines Aktionspotentials in B größer wird."'' 
Kurz gesagt: ''"What fires together, wires together"''.

Diese Lernregel lässt sich auch als Formel ausdrücken:

[[Datei:Unsupervised_Hebb.png|130px]]

Dabei steht w für „weight“, also die Verbindungsgewichte zwischen den Inputknoten x und dem Outputknoten y . Entsprechend ist ∆wxy die Veränderung dieser Verbindungsgewichte in einem Lerndurchgang. Diese Lernveränderung ist abhängig von einer (üblicherweise sehr kleinen) Lernrate λ, welche die Geschwindigkeit des Lernens bestimmt.
Ein anschauliches Beispiel für Hebb’sches Lernen ist das klassische Konditionieren. Die Glocke sowie das Essen werden jeweils durch einen Inputknoten repräsentiert und der Speichelfluss durch einen Outputknoten.

[[Datei:Hebb_konditionierung.png]]

Essen und Speichelfluss sind von Anfang an stark assoziiert, deshalb liegt ein hohes Verbindungsgewicht vor. Die Wahrnehmung von Essen (Aktivierung des „Essensknotens“) ruft Speichelfluss (Aktivierung des „Speichelflussknotens“) hervor. Eine Glocke allein sorgt üblicherweise nicht für Speichelfluss – es liegt keine Assoziation vor und das Verbindungsgewicht liegt bei Null. Wenn jedoch häufiger die Glocke läutet (Aktivierung des Glockenknotens), während der Essensknoten aktiv ist und Speichel produziert wird, führt die gemeinsame Aktivierung von Glocken- und Speichelflussknoten zu einer Stärkung der Verbindung zwischen ihnen. Daher kann die Glocke nach einigen Lerndurchgängen auch ohne Vorhandensein von Essen Speichelfluss anregen.

== Vor- und Nachteile des unüberwachten Lernens ==

Eine Stärke des unüberwachten Lernens liegt darin, dass kein Output vorgegeben werden muss und somit gänzlich neue Zusammenhänge entdeckt werden können. Auch ist das Lernen ohne „Lehrer“ ökologisch valide, da die meisten Lernvorgänge implizit und ohne Korrektur stattfinden. Die biologische Plausibilität des Verfahrens ist höher als beim [[Supervised|überwachten Lernen]], stößt jedoch auch an ihre Grenzen. Klassisches Hebb’sches Lernen steht beispielsweise vor dem Problem, dass ein unbegrenztes Wachstum der Gewichte möglich ist, was auf biologischer Ebene aufgrund der räumlichen und ressourcenbedingten Einschränkungen der Hirnkapazität nicht gewährleistet ist. Ebenso kann durch den Algorithmus der Befund nicht erklärt werden, dass Synapsen auch wieder an Stärke verlieren können. Entsprechend gibt es viele Varianten bzw. Verbesserung der Grundregeln des Hebb‘schen Lernens, welche diese Probleme auf unterschiedliche Art und Weise zu lösen versuchen.

Unsupervised: Hebb

2018-08-26T12:06:19Z

Reichert:

{{Nav|Navigation|Kognitive Modellierung|Hauptseite}}
== Unüberwachtes Lernen im Allgemeinen ==

Unüberwachtes Lernen ist dadurch gekennzeichnet, dass das [[Neuronale Netze|Netz]] ohne einen „Lehrer“ [[Lernen|lernen]] muss, der einen korrekten Output vorgibt. Stattdessen lernen Netze beim unüberwachten Lernen allein aufgrund der gezeigten Inputmuster und finden in diesen Mustern statistische Regularitäten wie Cluster oder Korrelationen. Jeder Knoten lernt durch Koaktivierung seiner Inputknoten die Assoziation der Inputs. Daher ist diese Form des Lernens geeignet, wenn unbekannte Strukturen in Datensätzen gefunden werden sollen.

== Hebb'sches Lernen im Konkreten ==

Eine der einfachsten Lernregeln stammt von Donald O. Hebb (1949): 
''"Wenn ein Axon der Zelle A [...] Zelle B erregt und wiederholt und dauerhaft zur Erzeugung von Aktionspotentialen in Zelle B beiträgt, so resultiert dies in Wachstumsprozessen oder metabolischen Veränderungen in einer oder in beiden Zellen, die bewirken, dass die Effizienz von Zelle A in Bezug auf die Erzeugung eines Aktionspotentials in B größer wird."'' 
Kurz gesagt: ''"What fires together, wires together"''.
 Diese Lernregel lässt sich auch als Formel ausdrücken:

[[Datei:Unsupervised_Hebb.png|130px]]

Dabei steht w für „weight“, also die Verbindungsgewichte zwischen den Inputknoten x und dem Outputknoten y . Entsprechend ist ∆wxy die Veränderung dieser Verbindungsgewichte in einem Lerndurchgang. Diese Lernveränderung ist abhängig von einer (üblicherweise sehr kleinen) Lernrate λ, welche die Geschwindigkeit des Lernens bestimmt.
Ein anschauliches Beispiel für Hebb’sches Lernen ist das klassische Konditionieren. Die Glocke sowie das Essen werden jeweils durch einen Inputknoten repräsentiert und der Speichelfluss durch einen Outputknoten.

[[Datei:Hebb_konditionierung.png]]

Essen und Speichelfluss sind von Anfang an stark assoziiert, deshalb liegt ein hohes Verbindungsgewicht vor. Die Wahrnehmung von Essen (Aktivierung des „Essensknotens“) ruft Speichelfluss (Aktivierung des „Speichelflussknotens“) hervor. Eine Glocke allein sorgt üblicherweise nicht für Speichelfluss – es liegt keine Assoziation vor und das Verbindungsgewicht liegt bei Null. Wenn jedoch häufiger die Glocke läutet (Aktivierung des Glockenknotens), während der Essensknoten aktiv ist und Speichel produziert wird, führt die gemeinsame Aktivierung von Glocken- und Speichelflussknoten zu einer Stärkung der Verbindung zwischen ihnen. Daher kann die Glocke nach einigen Lerndurchgängen auch ohne Vorhandensein von Essen Speichelfluss anregen.

== Vor- und Nachteile des unüberwachten Lernens ==

Eine Stärke des unüberwachten Lernens liegt darin, dass kein Output vorgegeben werden muss und somit gänzlich neue Zusammenhänge entdeckt werden können. Auch ist das Lernen ohne „Lehrer“ ökologisch valide, da die meisten Lernvorgänge implizit und ohne Korrektur stattfinden. Die biologische Plausibilität des Verfahrens ist höher als beim [[Supervised|überwachten Lernen]], stößt jedoch auch an ihre Grenzen. Klassisches Hebb’sches Lernen steht beispielsweise vor dem Problem, dass ein unbegrenztes Wachstum der Gewichte möglich ist, was auf biologischer Ebene aufgrund der räumlichen und ressourcenbedingten Einschränkungen der Hirnkapazität nicht gewährleistet ist. Ebenso kann durch den Algorithmus der Befund nicht erklärt werden, dass Synapsen auch wieder an Stärke verlieren können. Entsprechend gibt es viele Varianten bzw. Verbesserung der Grundregeln des Hebb‘schen Lernens, welche diese Probleme auf unterschiedliche Art und Weise zu lösen versuchen.

Unsupervised: Hebb

2018-08-26T12:05:59Z

Reichert:

{{Nav|Navigation|Kognitive Modellierung|Hauptseite}}
== Unüberwachtes Lernen im Allgemeinen ==

Unüberwachtes Lernen ist dadurch gekennzeichnet, dass das [[Neuronale Netze|Netz]] ohne einen „Lehrer“ [[Lernen|lernen]] muss, der einen korrekten Output vorgibt. Stattdessen lernen Netze beim unüberwachten Lernen allein aufgrund der gezeigten Inputmuster und finden in diesen Mustern statistische Regularitäten wie Cluster oder Korrelationen. Jeder Knoten lernt durch Koaktivierung seiner Inputknoten die Assoziation der Inputs. Daher ist diese Form des Lernens geeignet, wenn unbekannte Strukturen in Datensätzen gefunden werden sollen.

== Hebb'sches Lernen im Konkreten ==

Eine der einfachsten Lernregeln stammt von Donald O. Hebb (1949): 
''"Wenn ein Axon der Zelle A [...] Zelle B erregt und wiederholt und dauerhaft zur Erzeugung von Aktionspotentialen in Zelle B beiträgt, so resultiert dies in Wachstumsprozessen oder metabolischen Veränderungen in einer oder in beiden Zellen, die bewirken, dass die Effizienz von Zelle A in Bezug auf die Erzeugung eines Aktionspotentials in B größer wird."'' 
Kurz gesagt: ''"What fires together, wires together"''. Diese Lernregel lässt sich auch als Formel ausdrücken:

[[Datei:Unsupervised_Hebb.png|130px]]

Dabei steht w für „weight“, also die Verbindungsgewichte zwischen den Inputknoten x und dem Outputknoten y . Entsprechend ist ∆wxy die Veränderung dieser Verbindungsgewichte in einem Lerndurchgang. Diese Lernveränderung ist abhängig von einer (üblicherweise sehr kleinen) Lernrate λ, welche die Geschwindigkeit des Lernens bestimmt.
Ein anschauliches Beispiel für Hebb’sches Lernen ist das klassische Konditionieren. Die Glocke sowie das Essen werden jeweils durch einen Inputknoten repräsentiert und der Speichelfluss durch einen Outputknoten.

[[Datei:Hebb_konditionierung.png]]

Essen und Speichelfluss sind von Anfang an stark assoziiert, deshalb liegt ein hohes Verbindungsgewicht vor. Die Wahrnehmung von Essen (Aktivierung des „Essensknotens“) ruft Speichelfluss (Aktivierung des „Speichelflussknotens“) hervor. Eine Glocke allein sorgt üblicherweise nicht für Speichelfluss – es liegt keine Assoziation vor und das Verbindungsgewicht liegt bei Null. Wenn jedoch häufiger die Glocke läutet (Aktivierung des Glockenknotens), während der Essensknoten aktiv ist und Speichel produziert wird, führt die gemeinsame Aktivierung von Glocken- und Speichelflussknoten zu einer Stärkung der Verbindung zwischen ihnen. Daher kann die Glocke nach einigen Lerndurchgängen auch ohne Vorhandensein von Essen Speichelfluss anregen.

== Vor- und Nachteile des unüberwachten Lernens ==

Eine Stärke des unüberwachten Lernens liegt darin, dass kein Output vorgegeben werden muss und somit gänzlich neue Zusammenhänge entdeckt werden können. Auch ist das Lernen ohne „Lehrer“ ökologisch valide, da die meisten Lernvorgänge implizit und ohne Korrektur stattfinden. Die biologische Plausibilität des Verfahrens ist höher als beim [[Supervised|überwachten Lernen]], stößt jedoch auch an ihre Grenzen. Klassisches Hebb’sches Lernen steht beispielsweise vor dem Problem, dass ein unbegrenztes Wachstum der Gewichte möglich ist, was auf biologischer Ebene aufgrund der räumlichen und ressourcenbedingten Einschränkungen der Hirnkapazität nicht gewährleistet ist. Ebenso kann durch den Algorithmus der Befund nicht erklärt werden, dass Synapsen auch wieder an Stärke verlieren können. Entsprechend gibt es viele Varianten bzw. Verbesserung der Grundregeln des Hebb‘schen Lernens, welche diese Probleme auf unterschiedliche Art und Weise zu lösen versuchen.

Unsupervised: Hebb

2018-08-26T12:05:43Z

Reichert:

{{Nav|Navigation|Kognitive Modellierung|Hauptseite}}
== Unüberwachtes Lernen im Allgemeinen ==

Unüberwachtes Lernen ist dadurch gekennzeichnet, dass das [[Neuronale Netze|Netz]] ohne einen „Lehrer“ [[Lernen|lernen]] muss, der einen korrekten Output vorgibt. Stattdessen lernen Netze beim unüberwachten Lernen allein aufgrund der gezeigten Inputmuster und finden in diesen Mustern statistische Regularitäten wie Cluster oder Korrelationen. Jeder Knoten lernt durch Koaktivierung seiner Inputknoten die Assoziation der Inputs. Daher ist diese Form des Lernens geeignet, wenn unbekannte Strukturen in Datensätzen gefunden werden sollen.

== Hebb'sches Lernen im Konkreten ==

Eine der einfachsten Lernregeln stammt von Donald O. Hebb (1949): 
''"Wenn ein Axon der Zelle A [...] Zelle B erregt und wiederholt und dauerhaft zur Erzeugung von Aktionspotentialen in Zelle B beiträgt, so resultiert dies in Wachstumsprozessen oder metabolischen Veränderungen in einer oder in beiden Zellen, die bewirken, dass die Effizienz von Zelle A in Bezug auf die Erzeugung eines Aktionspotentials in B größer wird."''
Kurz gesagt: ''"What fires together, wires together"''. Diese Lernregel lässt sich auch als Formel ausdrücken: 

[[Datei:Unsupervised_Hebb.png|130px]]

Dabei steht w für „weight“, also die Verbindungsgewichte zwischen den Inputknoten x und dem Outputknoten y . Entsprechend ist ∆wxy die Veränderung dieser Verbindungsgewichte in einem Lerndurchgang. Diese Lernveränderung ist abhängig von einer (üblicherweise sehr kleinen) Lernrate λ, welche die Geschwindigkeit des Lernens bestimmt.
Ein anschauliches Beispiel für Hebb’sches Lernen ist das klassische Konditionieren. Die Glocke sowie das Essen werden jeweils durch einen Inputknoten repräsentiert und der Speichelfluss durch einen Outputknoten.

[[Datei:Hebb_konditionierung.png]]

Essen und Speichelfluss sind von Anfang an stark assoziiert, deshalb liegt ein hohes Verbindungsgewicht vor. Die Wahrnehmung von Essen (Aktivierung des „Essensknotens“) ruft Speichelfluss (Aktivierung des „Speichelflussknotens“) hervor. Eine Glocke allein sorgt üblicherweise nicht für Speichelfluss – es liegt keine Assoziation vor und das Verbindungsgewicht liegt bei Null. Wenn jedoch häufiger die Glocke läutet (Aktivierung des Glockenknotens), während der Essensknoten aktiv ist und Speichel produziert wird, führt die gemeinsame Aktivierung von Glocken- und Speichelflussknoten zu einer Stärkung der Verbindung zwischen ihnen. Daher kann die Glocke nach einigen Lerndurchgängen auch ohne Vorhandensein von Essen Speichelfluss anregen.

== Vor- und Nachteile des unüberwachten Lernens ==

Eine Stärke des unüberwachten Lernens liegt darin, dass kein Output vorgegeben werden muss und somit gänzlich neue Zusammenhänge entdeckt werden können. Auch ist das Lernen ohne „Lehrer“ ökologisch valide, da die meisten Lernvorgänge implizit und ohne Korrektur stattfinden. Die biologische Plausibilität des Verfahrens ist höher als beim [[Supervised|überwachten Lernen]], stößt jedoch auch an ihre Grenzen. Klassisches Hebb’sches Lernen steht beispielsweise vor dem Problem, dass ein unbegrenztes Wachstum der Gewichte möglich ist, was auf biologischer Ebene aufgrund der räumlichen und ressourcenbedingten Einschränkungen der Hirnkapazität nicht gewährleistet ist. Ebenso kann durch den Algorithmus der Befund nicht erklärt werden, dass Synapsen auch wieder an Stärke verlieren können. Entsprechend gibt es viele Varianten bzw. Verbesserung der Grundregeln des Hebb‘schen Lernens, welche diese Probleme auf unterschiedliche Art und Weise zu lösen versuchen.

Unsupervised: Hebb

2018-08-26T12:04:12Z

Reichert:

{{Nav|Navigation|Kognitive Modellierung|Hauptseite}}
== Unüberwachtes Lernen im Allgemeinen ==

Unüberwachtes Lernen ist dadurch gekennzeichnet, dass das [[Neuronale Netze|Netz]] ohne einen „Lehrer“ [[Lernen|lernen]] muss, der einen korrekten Output vorgibt. Stattdessen lernen Netze beim unüberwachten Lernen allein aufgrund der gezeigten Inputmuster und finden in diesen Mustern statistische Regularitäten wie Cluster oder Korrelationen. Jeder Knoten lernt durch Koaktivierung seiner Inputknoten die Assoziation der Inputs. Daher ist diese Form des Lernens geeignet, wenn unbekannte Strukturen in Datensätzen gefunden werden sollen.

== Hebb'sches Lernen im Konkreten ==

Eine der einfachsten Lernregeln stammt von Donald O. Hebb (1949): "Wenn ein Axon der Zelle A [...] Zelle B erregt und wiederholt und dauerhaft zur Erzeugung von Aktionspotentialen in Zelle B beiträgt, so resultiert dies in Wachstumsprozessen oder metabolischen Veränderungen in einer oder in beiden Zellen, die bewirken, dass die Effizienz von Zelle A in Bezug auf die Erzeugung eines Aktionspotentials in B größer wird." Kurz gesagt: „What fires together, wires together“. Diese Lernregel lässt sich auch als Formel ausdrücken:

[[Datei:Unsupervised_Hebb.png|130px]]

Dabei steht w für „weight“, also die Verbindungsgewichte zwischen den Inputknoten x und dem Outputknoten y . Entsprechend ist ∆wxy die Veränderung dieser Verbindungsgewichte in einem Lerndurchgang. Diese Lernveränderung ist abhängig von einer (üblicherweise sehr kleinen) Lernrate λ, welche die Geschwindigkeit des Lernens bestimmt.
Ein anschauliches Beispiel für Hebb’sches Lernen ist das klassische Konditionieren. Die Glocke sowie das Essen werden jeweils durch einen Inputknoten repräsentiert und der Speichelfluss durch einen Outputknoten.

[[Datei:Hebb_konditionierung.png]]

Essen und Speichelfluss sind von Anfang an stark assoziiert, deshalb liegt ein hohes Verbindungsgewicht vor. Die Wahrnehmung von Essen (Aktivierung des „Essensknotens“) ruft Speichelfluss (Aktivierung des „Speichelflussknotens“) hervor. Eine Glocke allein sorgt üblicherweise nicht für Speichelfluss – es liegt keine Assoziation vor und das Verbindungsgewicht liegt bei Null. Wenn jedoch häufiger die Glocke läutet (Aktivierung des Glockenknotens), während der Essensknoten aktiv ist und Speichel produziert wird, führt die gemeinsame Aktivierung von Glocken- und Speichelflussknoten zu einer Stärkung der Verbindung zwischen ihnen. Daher kann die Glocke nach einigen Lerndurchgängen auch ohne Vorhandensein von Essen Speichelfluss anregen.

== Vor- und Nachteile des unüberwachten Lernens ==

Eine Stärke des unüberwachten Lernens liegt darin, dass kein Output vorgegeben werden muss und somit gänzlich neue Zusammenhänge entdeckt werden können. Auch ist das Lernen ohne „Lehrer“ ökologisch valide, da die meisten Lernvorgänge implizit und ohne Korrektur stattfinden. Die biologische Plausibilität des Verfahrens ist höher als beim [[Supervised|überwachten Lernen]], stößt jedoch auch an ihre Grenzen. Klassisches Hebb’sches Lernen steht beispielsweise vor dem Problem, dass ein unbegrenztes Wachstum der Gewichte möglich ist, was auf biologischer Ebene aufgrund der räumlichen und ressourcenbedingten Einschränkungen der Hirnkapazität nicht gewährleistet ist. Ebenso kann durch den Algorithmus der Befund nicht erklärt werden, dass Synapsen auch wieder an Stärke verlieren können. Entsprechend gibt es viele Varianten bzw. Verbesserung der Grundregeln des Hebb‘schen Lernens, welche diese Probleme auf unterschiedliche Art und Weise zu lösen versuchen.

Deltaregel

2018-08-26T12:03:53Z

Reichert:

{{Nav|Navigation|Kognitive Modellierung|Hauptseite}}
Die Deltaregel ist ein überwachter [[Lernen|Lernalgorithmus]], der in [[Neuronale Netze|künstlichen neuronalen Netzen]] verwendet wird. Die Grundidee besteht darin, dass Gewichte in Abhängigkeit von der Differenz zwischen dem Output des [[Neuronale Netze|Netzes]] und dem eigentlich korrekten Output modifiziert werden. Unter den verschiedenen Varianten [[Supervised|überwachten Lernens]] gehört die Deltaregel zu den unkompliziertesten. Sie ist angelehnt an das [[Unsupervised: Hebb|Hebb’sche Lernen]] und lässt sich als Formel wie folgt darstellen:

[[Datei:Deltaregel1.png|301px]]

Dabei ist ''∆wxy'' die Veränderung des Gewichts zwischen dem Inputknoten ''x'' und dem Outputknoten ''y''. Durch ''ykorrekt'' wird der korrekte Output angegeben. Der Wert ''ybeobachtet'' ist der tatsächliche Output des Knotens. Der Parameter ''α'' bezeichnet die Lernrate, die Werte zwischen 0 und 1 annimmt und die Geschwindigkeit des [[Lernen|Lernens]] beeinflusst. Die Differenz zwischen gewünschtem und beobachtetem Output kann auch als ''∆y'' geschrieben werden, was die Namensherkunft der Deltaregel erklärt. Die verkürzte Formel sieht dann folgendermaßen aus:

[[Datei:Deltaregel2.png|150px]]

Beim [[Lernen]] kann es zu drei Szenarien kommen. Wenn die Aktivität des Outputknotens zu gering ist, nimmt ''∆y'' einen positiven Wert an, sodass das Gewicht der Verbindung erhöht wird. Sollte die Aktivität des Outputknotens zu hoch sein, wird die Differenz zwischen gewünschtem und beobachtetem Output negativ und sorgt für eine Schwächung der Verbindung. Im Optimalfall entspricht die Aktivität des Outputknotens dem gewünschten Wert, sodass ''∆y'' Null ist und keine Gewichtsanpassung mehr notwendig ist. Interessant ist nun noch, dass die Veränderung abhängt von der Aktivierung der beteiligten Inputknoten ''x''. Je stärker ein Inputknoten ''x'' an dem produzierten Output beteiligt war, je stärker er also selbst gefeuert hat, desto stärker ist auch seine Verbindung zum Output von der Veränderung betroffen.

Die Deltaregel besitzt gegenüber der [[Unsupervised: Hebb|Hebb’schen Lernregel]] den Vorteil, dass sie zielgerichtet einen bestimmten Output mit einem Input assoziieren kann. Außerdem funktioniert [[Supervised|überwachtes Lernen]] in der Regel schneller als [[Unsupervised: Hebb|unüberwachtes]]. Von Nachteil ist jedoch, dass der gewünschte Output für jedes Neuron der Outputschicht (output layer) bekannt sein muss. Dies ist meist nicht der Fall und mindert zudem die biologische Plausibilität des [[Lernen|Lernens]]. Ein weiteres Problem besteht darin, dass die Deltaregel nur für zweischichtige [[Neuronale Netze|Netze]] mit einer Input- und einer Outputschicht anwendbar ist, da der gewünschte Output nicht für Hiddenschichten (hidden layers) gilt. Dieses Problem wird durch die [[Backpropagation]]-Regel gelöst, die eine Verallgemeinerung der Deltaregel für mehrschichtige [[Neuronale Netze|Netze]] darstellt.

Datei:Deltaregel2.png

2018-08-26T11:54:14Z

Reichert:

Datei:Deltaregel1.png

2018-08-26T11:54:02Z

Reichert:

Supervised

2018-08-26T11:52:21Z

Reichert:

{{Nav|Navigation|Kognitive Modellierung|Hauptseite}}
== Prinzip des überwachten Lernens ==

Beim supervised Learning wird der [[Lernen|Lernvorgang]] durch einen „Lehrer“ überwacht. Dies geschieht, indem dem [[Neuronale Netze|künstlichen neuronalen Netz]] zu jedem Inputmuster ein zugehöriges Outputmuster vorgegeben wird. Es findet dann ein Vergleich des tatsächlichen vom [[Neuronale Netze|Netz]] produzierten Outputs mit dem vorgegebenen Output statt, auf Basis dessen die Gewichte zwischen Knoten verändert werden. Nach dem überwachten Lernen ist das [[Neuronale Netze|Netz]] auch ohne Lehrer in der Lage, sowohl den ursprünglichen Inputmustern den korrekten Input, als auch neuen, ähnlichen Mustern einen möglichst passenden Output zuzuordnen (Generalisierung). Der Output kann beispielsweise eine Einordnung eines Inputs in eine Kategorie sein.

== Beispiele für überwachte Lernregeln ==

Die wohl einfachste Lernregel, die dem supervised Learning zugeordnet werden kann, ist die [[Deltaregel]]. Bei dieser Lernregel erfolgt die Gewichtsanpassung aufgrund der Differenz zwischen gewünschtem und beobachteten Output, der durch die Aktivierung des Inputknotens und eine Lernrate gewichtet wird. Die [[DeltaDeltaregel]] eignet sich jedoch nur für Netze ohne Hiddenschicht (hidden layer). Beim Vorhandensein einer oder mehrerer Hiddenschichten wird die sogenannte [[Backpropagation]]-Regel benutzt, um Fehlersignale von der Outputschicht (output layer) durch die einzelnen Hiddenschichten zurück zur Inputschicht (input layer) zu übertragen. Dabei werden schichtweise die Gewichte angepasst.

== Woher kommt der Trainingsoutput? ==

Während supervised Learning oftmals wegen seiner biologischen Plausibilität hinterfragt wird, so stellt sich auch die Frage nach seiner psychologischen Plausibilität. Hier gibt es verschiedene Situationen, in denen es zu einer Differenz zwischen Outcome und Erwartung kommen kann.

# '''Expliziter Lehrer''' In dieser Situation kommt das Fehlersignal von einem externen Korrektor. Dies kann man zum Beispiel beim Fremdsprachenlernen beobachten. Der Lernende hat Karteikarten mit dem deutschen Wort auf der Vorderseite und dem fremdsprachigen Wort auf der Rückseite. Die Vorderseite ist der Input, aufgrund dessen der Lernende einen Output generiert, das heißt, er nennt das fremdsprachige Wort. Wird die Karte umgedreht, erscheint der korrekte Output. Ein Lernvorgang ist dann erforderlich, wenn das genannte Wort vom Wort auf der Karte abweicht.
# '''Implizite Erwartung''' Dieses Szenario ist dem vorherigen recht ähnlich, jedoch besteht der Output des Lernenden nicht im Aussprechen des Wortes, sondern nur in einer Erwartung, was auf der Rückseite der Karte zu sehen sein wird. Auch zwischen diesem Erwartungsoutput und dem korrekten Output auf der Kartenrückseite kann eine Differenz entstehen, die einen Lernvorgang anregt.
# '''Implizite Rekonstruktion''' Der aktuelle Input kann auch zu seinem eigenen Trainingssignal werden, indem der Lernende ihn rekonstruiert. Dies passiert beispielsweise, wenn der Lernende einem langweiligen Vortrag zuhört. Er generiert die Erwartung, dass der Vortrag auch im nächsten Moment langweilig sein wird. Diese Erwartung ist der Output. Als korrekter Output gilt hier die Vortragssituation im nächsten Moment. Bleibt der Vortrag langweilig, findet keine Gewichtsanpassung statt. Wird der Vortrag jedoch entgegen der Erwartung des Lernenden im nächsten Moment interessant, findet ein Lernvorgang statt.

== Vor- und Nachteile ==

Überwachtes Lernen ist sehr schnell und effizient, da der Lernprozess gezielter auf den korrekten Output zusteuert. Zudem können komplexere und detailliertere Zusammenhänge gelernt werden als mit einer [[Unsupervised: Hebb|unüberwachten Lernregel]]. Von Nachteil ist hingegen die geringere biologische und ökologische Plausibilität: Erstens ist beim Lernen in der realen Welt oftmals kein korrektes Ergebnis vorgegeben und zweitens ist es unplausibel, dass das gesamte Gehirn über die Information des richtigen Musters verfügt, wie es die [[Backpropagation]]-Regel annimmt – vielmehr finden synaptische Veränderungen im Gehirn lokal statt. Während die Beispielsituationen oben zumindest eine gewisse psychologische Plausibilität suggerieren, bleiben auch hier Fragen offen, zum Beispiel inwiefern die korrekte Antwortvorgabe im Falle eines Fehlers tatsächlich direkt zur Korrektur genutzt wird oder doch vor allem als Fehler-Signal im Sinne eines [[Reinforcement]] Learnings.

Perzeptron

2018-08-26T11:51:57Z

Reichert:

{{Nav|Navigation|Kognitive Modellierung|Hauptseite}}
Das von Frank Rosenblatt im Jahre 1958 erfundene Perzeptron bildet die Grundlage heutiger künstlicher [[Neuronale Netze|neuronaler Netze]]. In seiner ursprünglichen Version besteht es aus einem einzelnen Knoten. Die Bezeichnung „Perzeptron“ gilt daher sowohl für einen einzelnen Knoten als auch für ein- oder mehrschichtige Netze aus diesen Knoten.

== Aufbau eines Perzeptrons ==

Das Perzeptron wandelt einen Input in einen Output um. Der Input besteht aus einem Vektor, von dem jeder Wert eine bestimmte Gewichtung besitzt. Um den Netzinput zu ermittelt, werden alle Werte mit den Gewichten multipliziert und aufsummiert. Danach kommt eine Aktivierungsfunktion ins Spiel, die dem Netzinput einen Output zuordnet. Dabei handelt es sich beim traditionellen Perzeptron um eine Stufenfunktion, da ein strikter Schwellwert gilt. Liegt der Netzinput über diesem Wert, feuert das Perzeptron, das heißt, es erhält den Wert 1. Andernfalls ist es inaktiv und besitzt den Wert 0. Darüber hinaus ist es auch möglich, durch eine andere Aktivierungsfunktion einen nichtbinären Output zu erzielen.

== Lernen im Perzeptron ==

Das Perzeptron kann lernen, Inputmuster einer Kategorie zuzuordnen. Bei binärem Output funktioniert das Lernen wie folgt. Stimmt der Output mit dem gewünschten Wert überein, findet keine Gewichtsänderung statt. Ist der Output 0, obwohl 1 gewünscht ist, wird eine Vergrößerung der Gewichte vorgenommen. Bei einem Output von 1, der eigentlich 0 sein sollte, werden die Gewichte verringert. Diese Perzeptron-Lernregel ist eine Form der [[Deltaregel]]. Andere Lernregeln können ebenfalls implementiert werden, so zum Beispiel das [[Unsupervised: Hebb|Hebb’sche Lernen]].

== Das XOR-Problem ==

Ein einschichtiges Perzeptron kann viele Kategorisierungsregeln lernen, jedoch wird vorausgesetzt, dass die Inputmuster in der Regel linear separierbar sind. Was bedeutet das? Nehmen wir als Beispiel an, das Perzeptron erhält zwei Inputs, die jeweils an oder aus sein können. Dies können wir als 2-dimensionales Koordinatensystem darstellen (siehe Grafik), in dem jede Achse einen Input repräsentiert. In diesem Koordinatensystem können wir nun verschiedene Kategorisierungsregeln betrachten. Eine OR-Kategorisierungsregel sagt beispielsweise, dass das Perzeptron feuern soll, wenn mindestens einer der beiden Inputs 1 ist. Wenn kein Input 1 ist, soll das Perzeptron inaktiv bleiben. Diese Kategorisierung ist durch den Schwellwert möglich. In unserem Koordinatensystem stellt diesen Schwellwert eine Linie dar, die den Raum der möglichen Kategorisierungen in 2 Bereiche teilt: einen, in dem das Perzeptron feuern soll, und einen, in dem es nicht feuern soll. Da die Bereiche durch eine gerade Linie getrennt sind, sind sie linear separierbar. Ein Problem stellt die XOR-Kategorisierungsregel (exklusives Oder) dar. Eine XOR-Regel fordert, dass das Perzeptron feuern soll, wenn genau einer der beiden Inputs 1 ist, nicht aber bei beiden gleichzeitig. Diese Separierung ist nun nicht einfach durch eine Linie durchführbar. An dieser Stelle scheitert das einfache Perzeptron.

[[Datei:Lineare_separierbarkeit.PNG|500px]]

Der Nachweis dieses Scheiterns führte damals zu einer Krise in der Forschung zu neuronalen Netzen, denn die Lösung des Problems bestand in der Verwendung eines mehrschichtigen Perzeptrons, auf dass sich aber die allseits verwendete [[Deltaregel|Delta-Lernregel]] nicht anwenden ließ. Erst die Erfindung der [[Backpropagation]]-Lernregel löste dieses Problem und läutete damit eine neue Blüte der [[Neuronale Netze|neuronalen Netze]] ein.

Deltaregel

2018-08-26T11:51:11Z

Reichert: Die Seite wurde neu angelegt: „{{Nav|Navigation|Kognitive Modellierung|Hauptseite}} Artikelinhalt“

{{Nav|Navigation|Kognitive Modellierung|Hauptseite}}
Artikelinhalt

Artikelliste:Kognitive Modellierung

2018-08-26T11:50:13Z

Reichert:

[[Kognitive Modellierung]]

[[Aufgaben der Modellierung]]
*[[Vorteile formaler Modelle]]
[[Modelltypen]]
*[[Statistische Modelle 2]]
**[[General Linear Model]]
**[[Verteilungsmodelle]]
**[[Sequential Sampling Modelle]]
*[[Mathematische Modelle 2]]
**[[Differentialgleichungsmodelle]]
***[[Dynamische Attraktormodelle]]
**[[Reinforcement Learning]]
***[[Rescorla Wagner]]
**[[Kognitive Modelle]]
**[[Probabilistische Modelle]]
***[[Hierarchical Gaussian Filter]]
*[[Synthetische und Explanative Modelle]]
**[[Neuronale Netze]]
***[[Netztypen]]
****[[Perzeptron]]
***[[Lernen]]
****[[Unsupervised: Hebb]]
****[[Reinforcement]]
****[[Supervised]]
*****[[Deltaregel]]
*****[[Backpropagation]]
***[[Dynamic Neural Fields]]
**[[Kognitive Architekturen]]
***[[SOAR]]
***[[ACT-R]]
**[[Agentenbasierte Modellierung]]
***[[Agentenmodelle - Komputationale Modelle kollektiven Verhaltens]]
***[[Dynamischer Denkansatz - "Thinking in Levels"]]
[[Fitting & Parameter Estimation]]
*[[Objective Functions]]
**[[Auflösung vs. Noise]]
**[[ClosedForm bzw. Analytisch vs. Numerisch]]
*[[Abweichungsmaße]]
**[[SSE]]
**[[MLE]]
*[[Algorithmen]]
**[[Fehleroberfläche, lokale und globale Minima]]
**[[Gradient Descent]]
**[[Simplex]]
**[[Genetische Algorithmen]]
**[[Simulated Annealing]]
*[[Level]]
[[Modellvergleich]]
*[[Qualitativer Modellvergleich]]
*[[Quantitativer Modellvergleich]]
**[[Problem der freien Parameter]]
**[[Vergleichsmaße]]

Perzeptron

2018-08-26T11:47:58Z

Reichert:

{{Nav|Navigation|Kognitive Modellierung|Hauptseite}}
Das von Frank Rosenblatt im Jahre 1958 erfundene Perzeptron bildet die Grundlage heutiger künstlicher [[Neuronale Netze|neuronaler Netze]]. In seiner ursprünglichen Version besteht es aus einem einzelnen Knoten. Die Bezeichnung „Perzeptron“ gilt daher sowohl für einen einzelnen Knoten als auch für ein- oder mehrschichtige Netze aus diesen Knoten.

== Aufbau eines Perzeptrons ==

Das Perzeptron wandelt einen Input in einen Output um. Der Input besteht aus einem Vektor, von dem jeder Wert eine bestimmte Gewichtung besitzt. Um den Netzinput zu ermittelt, werden alle Werte mit den Gewichten multipliziert und aufsummiert. Danach kommt eine Aktivierungsfunktion ins Spiel, die dem Netzinput einen Output zuordnet. Dabei handelt es sich beim traditionellen Perzeptron um eine Stufenfunktion, da ein strikter Schwellwert gilt. Liegt der Netzinput über diesem Wert, feuert das Perzeptron, das heißt, es erhält den Wert 1. Andernfalls ist es inaktiv und besitzt den Wert 0. Darüber hinaus ist es auch möglich, durch eine andere Aktivierungsfunktion einen nichtbinären Output zu erzielen.

== Lernen im Perzeptron ==

Das Perzeptron kann lernen, Inputmuster einer Kategorie zuzuordnen. Bei binärem Output funktioniert das Lernen wie folgt. Stimmt der Output mit dem gewünschten Wert überein, findet keine Gewichtsänderung statt. Ist der Output 0, obwohl 1 gewünscht ist, wird eine Vergrößerung der Gewichte vorgenommen. Bei einem Output von 1, der eigentlich 0 sein sollte, werden die Gewichte verringert. Diese Perzeptron-Lernregel ist eine Form der [[Deltarule|Deltaregel]]. Andere Lernregeln können ebenfalls implementiert werden, so zum Beispiel das [[Unsupervised: Hebb|Hebb’sche Lernen]].

== Das XOR-Problem ==

Ein einschichtiges Perzeptron kann viele Kategorisierungsregeln lernen, jedoch wird vorausgesetzt, dass die Inputmuster in der Regel linear separierbar sind. Was bedeutet das? Nehmen wir als Beispiel an, das Perzeptron erhält zwei Inputs, die jeweils an oder aus sein können. Dies können wir als 2-dimensionales Koordinatensystem darstellen (siehe Grafik), in dem jede Achse einen Input repräsentiert. In diesem Koordinatensystem können wir nun verschiedene Kategorisierungsregeln betrachten. Eine OR-Kategorisierungsregel sagt beispielsweise, dass das Perzeptron feuern soll, wenn mindestens einer der beiden Inputs 1 ist. Wenn kein Input 1 ist, soll das Perzeptron inaktiv bleiben. Diese Kategorisierung ist durch den Schwellwert möglich. In unserem Koordinatensystem stellt diesen Schwellwert eine Linie dar, die den Raum der möglichen Kategorisierungen in 2 Bereiche teilt: einen, in dem das Perzeptron feuern soll, und einen, in dem es nicht feuern soll. Da die Bereiche durch eine gerade Linie getrennt sind, sind sie linear separierbar. Ein Problem stellt die XOR-Kategorisierungsregel (exklusives Oder) dar. Eine XOR-Regel fordert, dass das Perzeptron feuern soll, wenn genau einer der beiden Inputs 1 ist, nicht aber bei beiden gleichzeitig. Diese Separierung ist nun nicht einfach durch eine Linie durchführbar. An dieser Stelle scheitert das einfache Perzeptron.

[[Datei:Lineare_separierbarkeit.PNG|500px]]

Der Nachweis dieses Scheiterns führte damals zu einer Krise in der Forschung zu neuronalen Netzen, denn die Lösung des Problems bestand in der Verwendung eines mehrschichtigen Perzeptrons, auf dass sich aber die allseits verwendete [[Deltarule|Delta-Lernregel]] nicht anwenden ließ. Erst die Erfindung der [[Backpropagation]]-Lernregel löste dieses Problem und läutete damit eine neue Blüte der [[Neuronale Netze|neuronalen Netze]] ein.

Neuronale Netze

2018-08-26T11:47:05Z

Reichert:

{{Nav|Navigation|Kognitive Modellierung|Hauptseite}}
Künstliche neuronale Netze, die in der Psychologie auch als konnektionistische Modelle bezeichnet werden, sind Modelle, deren Entwicklung ursprünglich durch das biologische Vorbild natürlicher Neurone inspiriert wurde. Die wohl grundlegendste Gemeinsamkeit zum Gehirn liegt in der Fähigkeit zu '''[[Lernen|lernen]]'''. So könnte zum Beispiel ein künstliches neuronales Netz ebenso wie der Mensch ein ihm bekanntes Bild einer Katze wiedererkennen (im Sinne von richtig zuordnen). Darüber hinaus sind beide Systeme in der Lage, über Bekanntes hinaus zu '''generalisieren'''. Ein Kind, welches bisher nur seine gefleckte Hauskatze kannte, kann auch die einfarbige Katze des Nachbarn auf den ersten Blick als Katze einordnen. Hier spielt auch die Fähigkeit zur '''Mustererkennung''' eine Rolle. Sowohl Menschen als auch neuronale Netzwerke können Regelmäßigkeiten in Daten erkennen, so zum Beispiel, dass alle Katzen vier Beine haben. Sollten gerade nur drei davon zu sehen sein – kein Problem. Das Gehirn ist '''tolerant gegenüber Fehlern''' wie unvollständigem oder verrauschtem Input, sodass die Katze trotzdem erkannt wird. Auch diese Fähigkeit des Gehirns imitieren künstliche neuronale Netze. Aufgrund ihrer funktionellen Ähnlichkeit mit dem Gehirn liefern neuronale Netze ein Modell zur Erklärung von Funktionen wie Lernen und Gedächtnis. Außerdem werden sie genutzt, um (nicht nur kognitive) Phänomene zu replizieren und vorherzusagen.

== Aufbau von Netzwerkmodellen ==

Angelehnt an die neuronale Struktur des Gehirns bestehen künstliche neuronale Netze aus miteinander verknüpften Knoten, die simulierten Neuronen bzw. Verbänden von Neuronen, sogenannten Assemblies, entsprechen. Die Knoten kommunizieren miteinander über gewichtete Verbindungen, welche simulierten Synapsen entsprechen. Der Einfluss von Knoten aufeinander hängt von der Stärke ihrer Verbindung ab. Verbindungen können ein positives oder ein negatives Gewicht haben und damit sowohl exzitatorische als auch inhibitorische Synapsen nachahmen. Verändern sich die Verbindungsgewichte, spricht man von [[Lernen]]. Dies kann durch verschiedene Verfahren, sogenannte Lernregeln, realisiert werden. Die einfachste Lernregel, die sogenannte [[Unsupervised: Hebb|Hebb’sche Regel]], besagt zum Beispiel, dass die Verbindung zwischen zwei Neuronen dann gestärkt wird, wenn diese gemeinsam aktiv sind. Dadurch werden assoziative Lernvorgänge erzielt.
Knoten lassen sich zu Schichten zusammenfassen. In der Regel verfügen neuronale Netze über eine Input- und eine Outputschicht, in denen Aktivierungen entweder als Inputmuster erzeugt oder als Reaktion des Netzes abgelesen werden. Die meisten Modelle beinhalten dazwischen noch eine oder mehrere Schichten, sogenannte hidden layers, die einer komplexeren Verarbeitung dienen.

== Funktionsweise eines Knotens ==

[[File:Netzinput_Neuron.png||600px]]

Knoten sind als simulierte Neurone kleine Recheneinheiten. Sie wandeln einen Input ''x'' in einen Output ''o'' um. Der Input ist ein Vektor aus Aktivierungsstärken oder Feuerraten. Dieser wird an den simulierten Synapsen gewichtet und schließlich aufsummiert, sodass ein einzelner Wert, der Netzinput, übrigbleibt. Um aus diesem die Outputaktivierung zu berechnen, wird eine Aktivierungsfunktion zwischengeschaltet, welche jedem Netzinput eine Outputstärke zuordnet. Dies kann zum Beispiel eine lineare Funktion, eine Sigmoidfunktion oder eine Schwellwertfunktion sein. Eine Schwellwertfunktion implementiert die Aktivierungsschwelle, die jedes einzelne natürliche Neuron auszeichnet. Bis zu einer bestimmten Inputstärke bleibt das Neuron inaktiv, bei darüber hinausgehendem Input entwickelt es ein Aktionspotential, es „feuert“. Dieser Schwellwert ist für jedes Neuron individuell und variiert über Neuone hinweg. An dieser Stelle ist es wichtig, das Knoten in Netzen oftmals nicht einzelne Neurone simulieren, sondern eigentlich viele Neurone, sogenannte Neuronenverbände (neural assemblies). Entsprechend unscharf wird die Aktivierungsschwelle des gesamten Knotens, denn einige Neurone feuern leichter und einige schwerer. Eine Sigmoidfunktion fasst diese individuellen Schwellwerte zusammen, indem sie die Aktivierungsstärke nicht mehr sprungartig, sondern soft, abhängig von der Anzahl der bereits feuernden Neurone, abbildet. Daher wird diese Aktivierungsfunktion oft für die Simulation biologischer Neuronenverbände verwendet.

[[File:aktivierungsfkt.png|500px]]

Neuronale Netze

2018-08-26T11:46:17Z

Reichert:

{{Nav|Navigation|Kognitive Modellierung|Hauptseite}}
Künstliche neuronale Netze, die in der Psychologie auch als konnektionistische Modelle bezeichnet werden, sind Modelle, deren Entwicklung ursprünglich durch das biologische Vorbild natürlicher Neurone inspiriert wurde. Die wohl grundlegendste Gemeinsamkeit zum Gehirn liegt in der Fähigkeit zu '''[[Lernen|lernen]]'''. So könnte zum Beispiel ein künstliches neuronales Netz ebenso wie der Mensch ein ihm bekanntes Bild einer Katze wiedererkennen (im Sinne von richtig zuordnen). Darüber hinaus sind beide Systeme in der Lage, über Bekanntes hinaus zu '''generalisieren'''. Ein Kind, welches bisher nur seine gefleckte Hauskatze kannte, kann auch die einfarbige Katze des Nachbarn auf den ersten Blick als Katze einordnen. Hier spielt auch die Fähigkeit zur '''Mustererkennung''' eine Rolle. Sowohl Menschen als auch neuronale Netzwerke können Regelmäßigkeiten in Daten erkennen, so zum Beispiel, dass alle Katzen vier Beine haben. Sollten gerade nur drei davon zu sehen sein – kein Problem. Das Gehirn ist '''tolerant gegenüber Fehlern''' wie unvollständigem oder verrauschtem Input, sodass die Katze trotzdem erkannt wird. Auch diese Fähigkeit des Gehirns imitieren künstliche neuronale Netze. Aufgrund ihrer funktionellen Ähnlichkeit mit dem Gehirn liefern neuronale Netze ein Modell zur Erklärung von Funktionen wie Lernen und Gedächtnis. Außerdem werden sie genutzt, um (nicht nur kognitive) Phänomene zu replizieren und vorherzusagen.

== Aufbau von Netzwerkmodellen ==

Angelehnt an die neuronale Struktur des Gehirns bestehen künstliche neuronale Netze aus miteinander verknüpften Knoten, die simulierten Neuronen bzw. Verbänden von Neuronen, sogenannten Assemblies, entsprechen. Die Knoten kommunizieren miteinander über gewichtete Verbindungen, welche simulierten Synapsen entsprechen. Der Einfluss von Knoten aufeinander hängt von der Stärke ihrer Verbindung ab. Verbindungen können ein positives oder ein negatives Gewicht haben und damit sowohl exzitatorische als auch inhibitorische Synapsen nachahmen. Verändern sich die Verbindungsgewichte, spricht man von [[Lernen]]. Dies kann durch verschiedene Verfahren, sogenannte Lernregeln, realisiert werden. Die einfachste Lernregel, die sogenannte [[Unsupervised: Hebb|Hebb’sche Regel]], besagt zum Beispiel, dass die Verbindung zwischen zwei Neuronen dann gestärkt wird, wenn diese gemeinsam aktiv sind. Dadurch werden assoziative Lernvorgänge erzielt.
Knoten lassen sich zu Schichten zusammenfassen. In der Regel verfügen neuronale Netze über eine Input- und eine Outputschicht, in denen Aktivierungen entweder als Inputmuster erzeugt oder als Reaktion des Netzes abgelesen werden. Die meisten Modelle beinhalten dazwischen noch eine oder mehrere Schichten, sogenannte hidden layers, die einer komplexeren Verarbeitung dienen.

== Funktionsweise eines Knotens ==

[[File:Netzinput_Neuron.png||600px]]

Knoten sind als simulierte Neurone kleine Recheneinheiten. Sie wandeln einen Input ''''x'''' in einen Output ''''o'''' um. Der Input ist ein Vektor aus Aktivierungsstärken oder Feuerraten. Dieser wird an den simulierten Synapsen gewichtet und schließlich aufsummiert, sodass ein einzelner Wert, der Netzinput, übrigbleibt. Um aus diesem die Outputaktivierung zu berechnen, wird eine Aktivierungsfunktion zwischengeschaltet, welche jedem Netzinput eine Outputstärke zuordnet. Dies kann zum Beispiel eine lineare Funktion, eine Sigmoidfunktion oder eine Schwellwertfunktion sein. Eine Schwellwertfunktion implementiert die Aktivierungsschwelle, die jedes einzelne natürliche Neuron auszeichnet. Bis zu einer bestimmten Inputstärke bleibt das Neuron inaktiv, bei darüber hinausgehendem Input entwickelt es ein Aktionspotential, es „feuert“. Dieser Schwellwert ist für jedes Neuron individuell und variiert über Neuone hinweg. An dieser Stelle ist es wichtig, das Knoten in Netzen oftmals nicht einzelne Neurone simulieren, sondern eigentlich viele Neurone, sogenannte Neuronenverbände (neural assemblies). Entsprechend unscharf wird die Aktivierungsschwelle des gesamten Knotens, denn einige Neurone feuern leichter und einige schwerer. Eine Sigmoidfunktion fasst diese individuellen Schwellwerte zusammen, indem sie die Aktivierungsstärke nicht mehr sprungartig, sondern soft, abhängig von der Anzahl der bereits feuernden Neurone, abbildet. Daher wird diese Aktivierungsfunktion oft für die Simulation biologischer Neuronenverbände verwendet.

[[File:aktivierungsfkt.png|500px]]

Unsupervised: Hebb

2018-08-26T11:44:01Z

Reichert:

{{Nav|Navigation|Kognitive Modellierung|Hauptseite}}
== Unüberwachtes Lernen im Allgemeinen ==

Unüberwachtes Lernen ist dadurch gekennzeichnet, dass das [[Neuronale Netze|Netz]] ohne einen „Lehrer“ [[Lernen|lernen]] muss, der einen korrekten Output vorgibt. Stattdessen lernen Netze beim unüberwachten Lernen allein aufgrund der gezeigten Inputmuster und finden in diesen Mustern statistische Regularitäten wie Cluster oder Korrelationen. Jeder Knoten lernt durch Koaktivierung seiner Inputknoten die Assoziation der Inputs. Daher ist diese Form des Lernens geeignet, wenn unbekannte Strukturen in Datensätzen gefunden werden sollen.

== Hebb'sches Lernen im Konkreten ==

Eine der einfachsten Lernregeln stammt von Donald O. Hebb (1949): "Wenn ein Axon der Zelle A [...] Zelle B erregt und wiederholt und dauerhaft zur Erzeugung von Aktionspotentialen in Zelle B beiträgt, so resultiert dies in Wachstumsprozessen oder metabolischen Veränderungen in einer oder in beiden Zellen, die bewirken, dass die Effizienz von Zelle A in Bezug auf die Erzeugung eines Aktionspotentials in B größer wird." Kurz gesagt: „What fires together, wires together“. Diese Lernregel lässt sich auch als Formel ausdrücken:

[[Datei:Unsupervised_Hebb.png|130px]]

Dabei steht w für „weight“, also die Verbindungsgewichte zwischen den Inputknoten x und dem Outputknoten y . Entsprechend ist ∆w die Veränderung dieser Verbindungsgewichte in einem Lerndurchgang. Diese Lernveränderung ist abhängig von einer (üblicherweise sehr kleinen) Lernrate λ, welche die Geschwindigkeit des Lernens bestimmt.
Ein anschauliches Beispiel für Hebb’sches Lernen ist das klassische Konditionieren. Die Glocke sowie das Essen werden jeweils durch einen Inputknoten repräsentiert und der Speichelfluss durch einen Outputknoten.

[[Datei:Hebb_konditionierung.png]]

Essen und Speichelfluss sind von Anfang an stark assoziiert, deshalb liegt ein hohes Verbindungsgewicht vor. Die Wahrnehmung von Essen (Aktivierung des „Essensknotens“) ruft Speichelfluss (Aktivierung des „Speichelflussknotens“) hervor. Eine Glocke allein sorgt üblicherweise nicht für Speichelfluss – es liegt keine Assoziation vor und das Verbindungsgewicht liegt bei Null. Wenn jedoch häufiger die Glocke läutet (Aktivierung des Glockenknotens), während der Essensknoten aktiv ist und Speichel produziert wird, führt die gemeinsame Aktivierung von Glocken- und Speichelflussknoten zu einer Stärkung der Verbindung zwischen ihnen. Daher kann die Glocke nach einigen Lerndurchgängen auch ohne Vorhandensein von Essen Speichelfluss anregen.

== Vor- und Nachteile des unüberwachten Lernens ==

Eine Stärke des unüberwachten Lernens liegt darin, dass kein Output vorgegeben werden muss und somit gänzlich neue Zusammenhänge entdeckt werden können. Auch ist das Lernen ohne „Lehrer“ ökologisch valide, da die meisten Lernvorgänge implizit und ohne Korrektur stattfinden. Die biologische Plausibilität des Verfahrens ist höher als beim [[Supervised|überwachten Lernen]], stößt jedoch auch an ihre Grenzen. Klassisches Hebb’sches Lernen steht beispielsweise vor dem Problem, dass ein unbegrenztes Wachstum der Gewichte möglich ist, was auf biologischer Ebene aufgrund der räumlichen und ressourcenbedingten Einschränkungen der Hirnkapazität nicht gewährleistet ist. Ebenso kann durch den Algorithmus der Befund nicht erklärt werden, dass Synapsen auch wieder an Stärke verlieren können. Entsprechend gibt es viele Varianten bzw. Verbesserung der Grundregeln des Hebb‘schen Lernens, welche diese Probleme auf unterschiedliche Art und Weise zu lösen versuchen.

Unsupervised: Hebb

2018-08-26T11:42:28Z

Reichert:

{{Nav|Navigation|Kognitive Modellierung|Hauptseite}}
== Unüberwachtes Lernen im Allgemeinen ==

Unüberwachtes Lernen ist dadurch gekennzeichnet, dass das [[Neuronale Netze|Netz]] ohne einen „Lehrer“ [[Lernen|lernen]] muss, der einen korrekten Output vorgibt. Stattdessen lernen Netze beim unüberwachten Lernen allein aufgrund der gezeigten Inputmuster und finden in diesen Mustern statistische Regularitäten wie Cluster oder Korrelationen. Jeder Knoten lernt durch Koaktivierung seiner Inputknoten die Assoziation der Inputs. Daher ist diese Form des Lernens geeignet, wenn unbekannte Strukturen in Datensätzen gefunden werden sollen.

== Hebb'sches Lernen im Konkreten ==

Eine der einfachsten Lernregeln stammt von Donald O. Hebb (1949): "Wenn ein Axon der Zelle A [...] Zelle B erregt und wiederholt und dauerhaft zur Erzeugung von Aktionspotentialen in Zelle B beiträgt, so resultiert dies in Wachstumsprozessen oder metabolischen Veränderungen in einer oder in beiden Zellen, die bewirken, dass die Effizienz von Zelle A in Bezug auf die Erzeugung eines Aktionspotentials in B größer wird." Kurz gesagt: „What fires together, wires together“. Diese Lernregel lässt sich auch als Formel ausdrücken:

[[Datei:Unsupervised_Hebb.png|150px]]

Dabei steht w für „weight“, also die Verbindungsgewichte zwischen den Inputknoten x und dem Outputknoten y . Entsprechend ist ∆w_xy die Veränderung dieser Verbindungsgewichte in einem Lerndurchgang. Diese Lernveränderung ist abhängig von einer (üblicherweise sehr kleinen) Lernrate λ, welche die Geschwindigkeit des Lernens bestimmt.
Ein anschauliches Beispiel für Hebb’sches Lernen ist das klassische Konditionieren. Die Glocke sowie das Essen werden jeweils durch einen Inputknoten repräsentiert und der Speichelfluss durch einen Outputknoten.

[[Datei:Hebb_konditionierung.png]]

Essen und Speichelfluss sind von Anfang an stark assoziiert, deshalb liegt ein hohes Verbindungsgewicht vor. Die Wahrnehmung von Essen (Aktivierung des „Essensknotens“) ruft Speichelfluss (Aktivierung des „Speichelflussknotens“) hervor. Eine Glocke allein sorgt üblicherweise nicht für Speichelfluss – es liegt keine Assoziation vor und das Verbindungsgewicht liegt bei Null. Wenn jedoch häufiger die Glocke läutet (Aktivierung des Glockenknotens), während der Essensknoten aktiv ist und Speichel produziert wird, führt die gemeinsame Aktivierung von Glocken- und Speichelflussknoten zu einer Stärkung der Verbindung zwischen ihnen. Daher kann die Glocke nach einigen Lerndurchgängen auch ohne Vorhandensein von Essen Speichelfluss anregen.

== Vor- und Nachteile des unüberwachten Lernens ==

Eine Stärke des unüberwachten Lernens liegt darin, dass kein Output vorgegeben werden muss und somit gänzlich neue Zusammenhänge entdeckt werden können. Auch ist das Lernen ohne „Lehrer“ ökologisch valide, da die meisten Lernvorgänge implizit und ohne Korrektur stattfinden. Die biologische Plausibilität des Verfahrens ist höher als beim [[Supervised|überwachten Lernen]], stößt jedoch auch an ihre Grenzen. Klassisches Hebb’sches Lernen steht beispielsweise vor dem Problem, dass ein unbegrenztes Wachstum der Gewichte möglich ist, was auf biologischer Ebene aufgrund der räumlichen und ressourcenbedingten Einschränkungen der Hirnkapazität nicht gewährleistet ist. Ebenso kann durch den Algorithmus der Befund nicht erklärt werden, dass Synapsen auch wieder an Stärke verlieren können. Entsprechend gibt es viele Varianten bzw. Verbesserung der Grundregeln des Hebb‘schen Lernens, welche diese Probleme auf unterschiedliche Art und Weise zu lösen versuchen.