Auflösung vs. Noise

Aus eLearning - Methoden der Psychologie - TU Dresden
Zur Navigation springen Zur Suche springen

Der Prozess des Fittings versucht zu ermitteln, mit welcher Parameterkombination ein Modell einen realen Datensatz am besten beschreibt. Zur Beurteilung der Anpassung, berechnet man den Fit zwischen empirisch erhobenen und auf dem Modell basierenden simulierten Daten.

Ein hoher Fit (= hohe Auflösung) sollte jedoch nicht ohne kritisches Hinterfragen als Evidenz dafür, dass das Modell die Realität gut abbildet, interpretiert werden.

Empirische Datensätze spiegeln nicht ausschließlich wahre Werte wieder. Verschiedenste Verzerrungseffekte und Messfehler führen zu Rauschen (= „Noise“) in den Ergebnissen, was zur Folge hat, dass die gemessenen Daten Abweichungen zu den wahren Werten aufweisen. Wird versucht, den zur Modellbildung verwendeten Datensatz exakt nachzubilden, indem eine große Anzahl an Parametern dem Modell zugeführt wird, werden nicht nur die wahren Werte modelliert, sondern auch das in den vorhandenen Daten enthaltene Rauschen. Dieser Zustand wird als „Overfitting“ oder auch „Überanpassung“ bezeichnet. Ein überangepasstes Modell erklärt die zur Modellentwicklung verwendeten Daten meist sehr gut, ist jedoch schlechter zur korrekten Vorhersage neuer Daten in der Lage.

Die Verwendung einer sehr geringen Parameteranzahl kann jedoch zu einem „underfitted“ Modell führen, welches sich nur unzureichend zur Beschreibung der Daten eignet.