Skalierung
Skalierung
Skalierung beschreibt die Abbildung der Ausprägungen eines Merkmals/komplexen Konstruktes auf einer kontinuierlichen Skala. Mit dem Ziel der Abbildung der Ausprägungen eines Konstruktes gleicht das Skalieren der Indizes – allerdings erfüllen die resultierenden Skalen besondere, strenge Anforderungen. Skalen müssen folgende Anforderungen erfüllen:
- Homogenität (Eindimensionalität), das heißt, eine Skala darf immer nur ein einziges Merkmal erfassen (siehe Repräsentationsproblem)
- Differenzierung, das bedeutet, dass die Skala auch wirklich möglichst alle Ausprägungsgrade des Merkmals erfasst.
- Distinktionsfähigkeit - es muss klar an der Skala erkennbar sein, ob die Ausprägung bei einer Person eher hoch oder eher niedrig ist. Die verschiedenen Ausprägungsgrade des Merkmals bei verschiedenen Personen müssen auch auf der Skala klar voneinander zu unterscheiden sein. Die verschiedenen Werte dürfen nicht zu nah beieinander liegen.
Eine Skala besteht aus mehreren Items, je nach Art der Skala zum Beispiel Aussagen, die abgelehnt oder angenommen werden oder Aufgaben, die gelöst oder nicht gelöst werden (siehe Tests).
Je nach Art der Skala wird den Ergebnissen dieser Items ein Wert zugeordnet und aus diesen Einzelwerten ein Gesamtwert errechnet, der das Merkmal/Konstrukt möglichst präzise abbildet (siehe klassische Testtheorie). Items können vom Forscher selbst ausgedacht, in Vorstudien ermittelt oder aus existierenden Skalen entnommen werden.
Die einzelnen Items eines Intelligenztests messen alle das gleiche Merkmal: Intelligenz (die Möglichkeit von Subskalen lassen wir hier der Einfachheit halber außer Acht). Kein Item misst eine zweite oder dritte Dimension. Einige Items deuten auf eine höhere Ausprägung, einige auf eine niedrigere hin. Zusammen ergibt sich durch die einzelnen Ausprägungen eine Gesamtausprägung, das Testergebnis.
Skalierungsverfahren
Skalierungsverfahren geben vor, wie die Items einer Skala entwickelt werden, wie die Einhaltung der Skalenanforderungen sichergestellt wird, und auf welche Art eine Skala ein Merkmal erfasst. Letzteres wird durch die sogeannten ‘‘Itemcharakteristik‘‘ beschrieben, welche angibt, wie Merkmalsausprägung und Lösungswahrscheinlichkeit der Items einer Skala zusammenhängen (siehe Grafik).
Es gibt eine große Anzahl von Skalenarten und damit verbundenen Skalierungsverfahren, so z.B. Thurstone-Skalen (Thurstones gleicherscheinende Intervalle), Likert-Skalen, Guttman-Skalen, Magnitude-Skalen. Grundsätzlich sind Skalen aufwendig zu konstruieren und basieren auf verschiedenen Annahmen. Dadurch ist auch nicht immer jede Art von Skala für jede Art von Fragestellung geeignet.
Im Folgenden wird beispielhaft auf die Konstruktion von Thurstone-Skalen und Likert-Skalen eingegangen.
Thurstones gleicherscheinende Intervalle
Die Annahme von Items der Thurstone-Skala ist: Wenn die befragte Person eine extremer Ausprägung des Merkmals hat, als das Item angibt, dann lehnt sie das Item ab (magentafarbene Itemcharakteristik in der Grafik). Ein Item wird also abgelehnt, wenn das Merkmal schwächer oder stärker ausgeprägt ist als im Item ausgedrückt. Folgende Schritte werden bei der Konstruktion einer Thurstone-Skala ausgeführt:
- Es werden möglichst viele (100+) Items gesammelt, die infrage kommen, in die Skala aufgenommen zu werden.
- Experten, je nach Möglichkeiten 25-50, bewerten die Items mit 1 bis 11 Punkten nach ihrer Ausprägung, d.h. nach der Ausprägung des Items im Bezug auf das zu untersuchende Merkmal. Dabei bedeutet 11, das Item repräsentiert eine sehr starke Merkmalsausprägung, und 1, das Item repräsentiert eine sehr schwache Merkmalsausprägung. Wichtig ist: die Experten geben nicht ihre persönliche Ausprägung des Merkmals an, sondern beurteilen jedes Item so objektiv wie möglich.
- Der Mittelwert aller Beurteilungen eines Items ist sein Wert.
- Es werden ca. 30 Items ausgewählt, die
- zusammengenommen möglichst die komplette Breite möglicher Itemwerte abdecken. Es sollten also Items vertreten sein, die auch die Extreme vertreten, und Items, die mittlere Ausprägungen vertreten.
- möglichst geringe Varianz in den Beurteilungen haben - ein Item, welches von der Hälfte der Experten eine 1 erhält und von der anderen eine 11, ist schlecht
geeignet, im Gegensatz zu einem, dem alle Experten den gleichen Wert zuteilen.
- Die gewählten Items bilden nun das Verfahren, um die Ausprägung des Merkmals zu messen.
- Eine Versuchsperson stimmt nun entsprechend jedem Items zu oder nicht zu. Die Ausprägung des Merkmals bei dieser Versuchsperson, also das Testergebnis, entspricht nun dem arithmetischen Mittel der Werte, die von der Person bejahten wurden.
Beispiel Bongers und Rehm (1973) (angelehnt an J. Bortz, N. Döring, 2009, p. 223) Es soll eine Skala zur Einschätzung des Selbstwertes von Sozialhilfeempfängern konstruiert werden. Es werden Items entworfen und von Experten (in diesem Fall Sozialpädagogen) bewertet. 1 bedeutet hier, wenn der Aussage zugestimmt wird, ist die Lebenszufriedenheit sehr schlecht, 11, dass sie sehr gut ist. Als Kriterium zur Übereinstimmung der Experten werden Items, deren Werte eine Standardabweichung zwischen Experten von über 1,5 haben, aussortiert. Das Item “Keinen Menschen würden es auffallen, wenn mir etwas zustieße” könnte im Mittel zum Beispiel mit dem Wert 2,95 beurteilt worden sein, es deutet also (offensichtlich) auf ein sehr niedriges Selbstwertgefühl hin sehr schlechte nachbarschaftliche Kontakte hin. Das Item “Im Leben anderer spiele ich eine große Rolle” könnte hingegen den Wert 9,30 erhalten und das Item “Ich habe die Hoffnung, irgendwann wieder an Ansehen zu gewinnen” mit 5,67. Eine Person, die der zweiten und dritten Aussage zustimmt, die erste aber ablehnt, hätte also den Skalenwert
- 9,30 + 5,67 = 14,97
- 14,97 / 2 = 7,485
was einer gering positiven Ausprägung entspräche.
Zu beachten ist, dass hinter diesem Skalierungsverfahren nach Thurstone die Annahmen stehen, dass Personen Aussagen ablehnen, die extremer als ihre Einstellung sind, und dass Experten Items “objektiv” beurteilen können.
Likert-Skalen (Methode der summierten Ratings)
Die Annahme von Likert-Skalen ist, dass Personen einem Item zustimmen, wenn sie eine Ausprägung des Merkmals haben, die gleich oder stärker als die Beschreibung des Items ist (idealerweise rote Itemcharakteristik in der Grafik, aber auch schwarz/grün/blau). Folgende Schritte werden bei der Konstruktion einer Likert-Skala ausgeführt:
- Es werden möglichst viele (100+) Items gesucht, die das Merkmal wiedergeben und (aus Gründen der Ausgewogenheit) positiv oder negativ formuliert sind
- Die Items werden an eine repräsentative Eich-Stichprobe von Versuchspersonen gegeben, welche die Items mit 1 (lehne stark ab) bis 5 (stimme stark zu) bewertet.
- Der Testwert einer Person ist die Summe der von ihr angekreuzten Skalenwerte.
- Nun wird für jedes Item eine Itemanalyse durchgeführt, welche auf Homogenität, Differenzierung und Distinktionsfähigkeit prüft (siehe unten).
- 20-30 der besten Items der Itemanalyse werden ausgewählt und bilden die Skala.
- Die Ausprägung des Merkmals bei einer Person wird ermittelt durch Aufsummieren der Punkte aus allen Items (wie bei 3., jedoch nur noch für die hochqualitativen Items aus 5.)
Itemanalyse
Eine Itemanalyse stellt sicher, dass die (Roh-)Items einer Skala die Anforderungen der Homogenität, Differenzierung und Distinktionsfähigkeit erfüllen.
Homogenität
Die Homogenität der Items bedeutet, dass alle Items sich auf nur eine Merkmalsdimension beziehen. Sie kann über die Interitemkorrelation ermittelt werden. Dabei korrelliert man die Ergebnisse jeden Items der Eichstichprobe mit denen jeden anderen Items. Die Items, welche stark miteinander korrelieren, scheinen dasselbe Merkmal zu erfassen.
Differenzierung
Ein Item, dem alle zustimmen oder das alle ablehnen, kann nicht zwischen Personen mit hoher und niedriger Merkmalsausprägung differenzieren. Für Items, welche nur angenommen oder abgelehnt werden können, kann die Lösungswahrscheinlichkeit eines Items mit
- p = [Anzahl Annehmende Personen]/[Größe Eichstichprobe]
berechnet werden. Für Items einer Likertskala kann die Differenzierungsfähigkeit errechnet werden mit
- p = [Erreichte Wertepunkte]/[Erreichbare Gesamtwertepunkte]
In beiden Fällen sollte 0 < p < 1 sein.
Distinktionsfähigkeit
Die Distinktionsfähigkeit zeigt sich in der Trennschärfe eines Items. Diese bestimmt, wie gut ein Item den Gesamtwert einer Person auf der Skala vorhersagt. Die Trennschärfe berechnet sich aus der Korrelation der Itemwerte aller Personen der Eichstichprobe mit den Gesamtwerten der Eichstichprobe. Ist diese Korrelation nahe 0, bedeutet dies, dass das Item unabhängig vom Gesamtwert einer Person mal gelöst und mal nicht gelöst wird. Ist die Korrelation nahe 1, bedeutet dies, dass eine Lösung des Items auch einen hohen Gesamtwert auf der Skala vorhersagt.