Verteilungsmodelle

Die Verteilungen vieler empirischer Variablen können mit Hilfe von statistischen Verteilungsmodellen näherungsweise beschrieben werden. Diese Modelle erlauben die Ermittlung charakteristischer Verteilungsmerkmale wie zum Beispiel des Erwartungswertes, der Varianz oder Prozentanteile bestimmter Wertebereiche (= Perzentile) und geben einen Überblick darüber, wie die empirischen Daten aussehen müssten, wenn deren Verteilung bestimmte Merkmale erfüllt.

Innerhalb der psychologischen Forschung kommen unterschiedliche Verteilungsmodelle beim Umgang mit z.B. Reaktionszeiten, Fehlerraten, IQ-Punkten etc. zum Einsatz. Sie sind der Verwendung einfacher statistischer Kenngrößen wie dem Mittelwert überlegen, da dieser insbesondere bei asymmetrischen und multimodalen Verteilungen zu fehlgeleiteten Schlussfolgerungen und Interpretationen führen kann. So ist es möglich, dass zwei unterschiedliche Verteilungen beispielsweise identische Mittelwerte und Standardabweichungen besitzen, sich aber aufgrund ihrer Schiefe stark unterscheiden.

Verteilungsmodelle liefern somit mehr Informationen und werden deshalb zum Auffinden der besten Beschreibung der Daten, der Untersuchung von Bedingungs- und Gruppenunterschieden sowie in der weiteren Analyse verwendet. Damit ermöglichen sie ein tieferes Verständnis der Datenstruktur.

Verteilungsmodelle beschreibt man mittels der sogenannten Verteilungsfunktion f(x). Diese gibt an, wie groß die Wahrscheinlichkeit ist, dass eine Zufallsvariable (z.B. Reaktionszeit, IQ, …) einen Wert gleich oder kleiner als x annimmt. Sie besitzt somit einen positiven Wertebereich im Intervall [0,1] und ist monoton steigend.

Um einen visuellen Eindruck der Verteilung zu erhalten, nutzt man die Dichtefunktion, welche die Ableitung der Verteilungsfunktion darstellt. Sie gibt an, in welchen Teilen des Definitionsbereichs der Zufallsvariablen die Werte am häufigsten vorkommen. Die Werte der Dichtefunktion sind ebenfalls alle positiv, können jedoch auch größer als 1 sein. Möchte man anhand der Dichtefunktion die Wahrscheinlichkeit bestimmen, dass eine Zufallsvariable einen Wert innerhalb eines bestimmten Intervalls [a, b] aufweist, berechnet man hierzu die Fläche unterhalb der Kurve zwischen den Grenzen a und b. Das so ermittelte Ergebnis entspricht der Differenz der Werte der Verteilungsfunktion an den Stellen b und a. Die Gesamtfläche unterhalb der Dichtefunktion hat immer einen Wert von 1, da die Wahrscheinlichkeit, dass eine Zufallsvariable irgendeinen Wert innerhalb ihres Definitionsbereichs aufweist, ebenfalls 1 beträgt.

Das bekannteste Verteilungsmodell stellt die Normalverteilung dar. Diese ist beispielsweise zur Beschreibung der IQ-Werte innerhalb einer Population sehr gut geeignet, kann aufgrund ihrer Symmetrieeigenschaft jedoch z.B. nur schlecht für Reaktionszeitverteilungen verwendet werden. In solchen Fällen ist es möglich, mit anderen Verteilungsmodellen einen besseren Fit der Daten zu erreichen. Im Fall der Reaktionszeitverteilung könnte man beispielsweise auf eine Gammaverteilung zurückgreifen.

Normalverteilung

Die Normalverteilung ist das bekannteste und am weitesten verbreitete Verteilungsmodell, da die Werte vieler Variablen, die in der Psychologie oder den Sozialwissenschaften erhoben werden, normalverteilt sind. Dazu gehören unter anderem Körpergröße und Gewicht, IQ, aber auch Abweichungen der Messwerte vom Erwartungswert in vielen natur-, wirtschafts- und ingenieurwissenschaftlichen Untersuchungen.

Man spricht von einer Normalverteilung, wenn eine stetige Zufallsvariable mit Erwartungswert μ und Varianz &sigma² (- ∞ < μ < ∞, σ² > 0) die folgende Dichtefunktion besitzt:

Die Dichtefunktion dieser Verteilung wird in der folgenden Abbildung für verschiedene Erwartungswerte μ und Varianzen σ² dargestellt:

Der Graph der Normalverteilung ist glockenförmig und achsensymmetrisch, wobei der Parameter μ den Mittelwert der Verteilung darstellt, das heißt, die Werte der Zufallsvariablen konzentrieren sich in der Mitte der Verteilung und treten mit größerem Abstand zu dieser immer seltener auf.

Die blaue Linie entspricht dabei der Dichtefunktion der Standardnormalverteilung. Diese ist durch den Erwartungswert μ = 0 und die Varianz σ² = 1 definiert.

Einen Vorteil der Normalverteilung stellt die einfache Schätzung der zwei Parameter μ und σ aus den empirischen Daten dar:

, [[[Datei:Verteilungsmodelle_3_1.png]]

Unabhängig von μ und σ ist die Verteilung nicht schief, d.h. sie ist symmetrisch.

Aufgrund ihrer Eigenschaften lässt sich die Normalverteilung jedoch nicht auf alle Daten anwenden, da Merkmale wie die Schiefe der Verteilung oder Ausreißerwerte nicht dargestellt werden können und somit kein guter Fit für entsprechende Daten erzielt werden kann. In solchen Fällen sollten andere Verteilungsmodelle verwendet werden.

Ex-Gauß Verteilung

Die Ex-Gauß Verteilung stellt eine Konvolution oder Faltung (= mathematische Kombination) der Normal- und Exponentialverteilung dar. Sie liefert eine sehr gute Möglichkeit zur Schätzung von Reaktionszeiten und dient beispielsweise der Darstellung von Zellteilungsprozessen oder der Verdopplung der DNA.

Man spricht von einer Ex-Gauß Verteilung, wenn eine stetige Zufallsvariable die folgende Dichtefunktion mit den drei Parametern μ, σ und λ besitzt (σ² > 0, λ² > 0):

Die komplementäre Fehlerfunktion ist:

Die Dichtefunktion der Ex-Gauß Verteilung wird in der folgenden Abbildung dargestellt:

Der Parameter λ ist als λ > 0 definiert. Er stellt die exponentielle Komponente der Verteilung dar. Wie man in der Abbildung erkennen kann, ist die Ähnlichkeit der Ex-Gauß Verteilung und Normalverteilung abhängig vom Wert des Parameters λ. Je stärker sich dieser Parameter dem Wert Null annähert, desto mehr gleicht die Dichtefunktion dem Graphen der Normalverteilung.

Mittelwert, Varianz und Schiefe lassen sich folgendermaßen ermitteln:

Verteilungsmodelle

Normalverteilung

Ex-Gauß Verteilung

Navigationsmenü

Suche