Reliabilität: Unterschied zwischen den Versionen

Aus eLearning - Methoden der Psychologie - TU Dresden
Zur Navigation springen Zur Suche springen
Keine Bearbeitungszusammenfassung
Keine Bearbeitungszusammenfassung
 
(7 dazwischenliegende Versionen von 4 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
[[Kriterien|Zurück zu Gütekriterien]]
{{Nav|Navigation|Kriterien wissenschaftlichen Arbeitens|Wissenschaftliches Arbeiten}}


Die Reliabilität gibt die ''Zuverlässigkeit'' und ''Beständigkeit'' einer Untersuchung an und bezieht sich auf den ''Grad der Messgenauigkeit'' eines Messverfahrens. Je reliabler ein Messinstrument ist, desto häufiger wird es bei mehrfachen Messungen das (exakt) gleiche Messergebnis anzeigen. <br/>
Die Reliabilität gibt die ''Zuverlässigkeit'' und ''Beständigkeit'' einer Untersuchung an und bezieht sich auf den ''Grad der Messgenauigkeit'' eines Messverfahrens. Je reliabler ein Messinstrument ist, desto häufiger wird es bei mehrfachen Messungen das (exakt) gleiche Messergebnis anzeigen. <br/>
Auf die [[klassische Testtheorie]] bezogen, richtet sich die Frage also nach der Größe des Fehlers E.<br/>
Auf die [[klassische Testtheorie]] bezogen, richtet sich die Frage also nach der Größe des Fehlers E.<br/>
[[Datei:Reliabilität Testtheorie.jpg|600px|thumb|zentriert|Reliabilität in der klassischen Testtheorie]] <br/>


Man unterscheidet in der Anwendung vier Arten von Reliabilität:


==Retestreliabilität==
:: [[Datei:Reliabilitaet_neu.PNG|500px|link=Ausgelagerte_Bildbeschreibungen#Reliabilität|Ausgelagerte Bildbeschreibung von Reliabilität]] <br/>
Die Retestreliabilität gibt die '''Zuverlässigkeit der Daten bei mehrfacher Durchführung''' des gleichen Tests zu unterschiedlichen Zeitpunkten an.<br/>
Die Daten einer Messung werden mit den Daten einer folgenden Messung an derselben Stichprobe [[Korrelation|korreliert]]. Das heißt, es wird der Grad des Zusammenhangs berechnet. .<br/>
Ab einem Wert von r > (+/-) 0.8 spricht man von einer guten Reliabilität, hohe Reliabilität liegt ab einem Wert von r> (+/-) 0.9 vor. .<br/>
[[Datei:Retestreliabilität.jpg|300px|thumb|zentriert|Schaubild Retestreliabilität]]


<br/>Bei der Retestreliabilität können Probleme auftreten. So kann es zum Beispiel sein, dass sich eine Versuchsperson bei einer zweiten Messung an Items erinnert oder "dazugelernt" hat (siehe [[Within_Subjects_Design|Within Subjects Design]]). <br/>
Reliabilitäten sie werden i.d.R. durch [[Korrelation|Korrelationen]] berechnet. Eine hohe Reliabilität erzielt man demnach durch möglichst standardisierte und kontrollierte Untersuchungsbedingungen. Der Mensch als Messinstrument misst häufig nicht so genau und zuverlässig wie ein Lineal oder eine Waage. Deshalb ist die [[Objektivität]] gerade bei sozialwissenschaftlichen und psychologischen Verfahren eine wichtige Voraussetzung für Reliabilität.
Außerdem steckt hinter der Retestreliabilität die Annahme, dass man ein unveränderliches Merkmal erfasst. Wenn man nun aber in Betracht zieht, dass sich das Merkmal doch zeitlich verändern kann (z.B. Zufriedenheit mit steigendem beruflichem Erfolg), kann eine geringe Retestreliabilität entweder auf eine geringe Testreliabilität ''oder'' auf die Zeitabhängigkeit bzw. Instabilität des Merkmals zurückgeführt werden und ist damit nicht eindeutig. Weitere Probleme äußern sich im zeitlichen Aufwand sowie der zu wahrenden [[Datenschutz|Anonymität]] der Versuchspersonen. <br/>
Reliabilitäten bewegen sich zwischen den Werten -1 und 1. Ein Wert von 1 entspricht einer perfekten Reliabilität. Ein vollkommen reliables Verfahren führt etwa […] zu verschiedenen Zeitpunkten im Prinzip zu identischen Messwerten für ein und denselben Sachverhalt.“ (Sarris, 1992, S.238) Ein Beispiel dafür wäre die Variable Geschlecht. Das Geschlecht ist ein extrem stabiles Merkmal. Entsprechend sollte in den allermeisten Fällen auch in einem Test von einer weiblichen Versuchsperson bei jeder Wiederholung „weiblich“ angekreuzt werden (die Retestreliabilität ist nahe 1). Viele Merkmale in Tests sind nicht so eindeutig, wie zum Beispiel Intelligenz. Hier liegen die Reliabilitäten je nach Test und Art etwa zwischen .60 und .90. Generell sind in der Realität kaum perfekte Reliabilitäten anzutreffen, sodass die Messwerte von zwei Zeitpunkten nicht hundertprozentig miteinander korrelieren. Eine relativ gute Reliabilität ist ab .80 gegeben. (vgl. Bortz&Döring, 2005)
Hat man mehrere Testverfahren oder Fragebögen zur Auswahl, so ist oft die Reliabilität ein entscheidendes Auswahlkriterium. Tests mit möglichst geringem Messfehler und demnach möglichst hoher Reliabilität sollten bevorzugt werden.




 
Man unterscheidet in der Anwendung vier Arten von Reliabilität. Die [[Retestreliabilität|Retest-]],[[Paralleltestreliabilität|Paralleltest-]], [[Split-half Reliabilität]] und [[Interne Konsistenz]].
==Paralleltestreliabilität==
 
 
Um Reliabilität mit der Paralleltestmethode zu prüfen, bearbeiten Versuchspersonen eine Aufgabe, die mit '''zwei verschiedenen Messinstrumenten''' analysiert wird. Diese erheben entweder gleichzeitig ''(ein Beobachter schätzt die Nervosität der Versuchsperson ein, während die Hautleitfähigkeit (EDA) gleichzeitig das Arousal misst)'' oder gleichzeitig, bzw. kurz hintereinander ''(zwei Tests mit minimaler Verzögerung)''. Die Daten, die aus der Erhebung mit den beiden Messinstrumenten hervorgehen, werden über die Gesamtheit der Probanden miteinander [[Korrelation|korreliert]]. Gleichen sich die Ergebnisse der beiden parallelen Erhebungen, so kann man davon ausgehen, dass die Erhebungsmethoden ''beide'' reliabel und zuverlässig sind. Unterscheiden sich die Ergebnisse voneinander, muss man ebenfalls ''beide'' Instrumente vorerst als unreliabel verwerfen, da man nicht herausfinden kann, welches der Messinstrumente womöglich eigentlich zuverlässige Daten lieferte.  <br/>
 
[[Datei:Paralleltestreliabilität.jpg|300px|thumb|zentriert|Schaubild Paralleltest- <br/> reliabilität]]
 
Bei der Erhebungsmethode der [[Beobachtung]] spricht man spezifischer von der '''Inter-Rater-Reliabilität''', wenn ''mehrere Beobachter das gleiche Ergebnis'' finden. <br/>
<br/>
 
Schwierigkeiten der Paralleltestmethode sind möglicherweise das Finden oder Erstellen zweier äquivalenter Messmethoden (z.B. die Konstruktion zweier äquivalenter Tests), als auch der damit verbundene Zeitaufwand.
 
 
 
==Interne Konsistenz==
 
Bei der Methode der internen Konsistenz erfolgt die Reliabilitätsmessung ''innerhalb eines Tests''. Anders als bei der Methode der Split-half Reliabilität werden hier allerdings nicht ganze Test-Partien miteinander verglichen – vielmehr wird die mittlere Korrelation aller '''einzelnen Items''' miteinander untersucht. Diese mittlere Korrelation wird durch den Koeffizienten α  ''('''Cronbachs Alpha''')'' ausgedrückt. Je größer α (0 - 1), desto höher wird die Reliabilität (unter den in der Messung gegebenen Bedingungen!) <br/>
[[Datei:Interne.jpg|300px|thumb|zentriert|Schaubild Interne Konsistenz]]
<br/> ''Interne Konsistenz, gemessen im Stroop-Task. Die Reaktionszeiten der einzelnen Items (Wörter) werden miteinander korreliert. Ist die Korrelation hoch, so messen die einzelnen Wörter zuverlässig das interessierende Merkmal (kognitive Kontrolle).''
<br/>
'''Problem''': <br/>
Möglicherweise entsteht ein hohes α lediglich aus dem Grund, dass die Items sich sehr stark ähneln und dennoch bei wiederholten Messungen andere Ergebnisse liefern würden. Dadurch wäre die Reliabilität nicht mehr gewährleistet. Je mehr Items verwendet werden, desto zuverlässiger ist die Methode der internen Konsistenz. <br/>
<br/>
''Beispiel: Folgende zwei Items wollen die Qualität einer Freundschaft (Skala von 1 bis 10) abfragen (eigentlich bräuchte man viel mehr Items!)'':<br/>
''(1) Ich treffe meine Freunde regelmäßig'' <br/>
''(2) Ich habe regelmäßigen Kontakt zu meinen Freunden'' <br/>
''Fraglich ist, ob die Qualität einer (als konstant angenommenen) Freundschaft durch diese Fragen zuverlässig in mehreren Messwiederholungen abgefragt werden kann. Das Problem liegt in der Unklarheit des Wortes "regelmäßig". So könnte eine Versuchsperson in einem Erhebungsdurchgang den monatlichen Kontakt zu ihrer besten Freundin als "regelmäßig" empfinden, im nächsten Durchgang aber vielleicht nicht (monatlich ist zu selten, um es als regelmäßig zu bezeichnen etc.). Trotzdem würde Sie die Fragen (1) und (2) vermutlich ähnlich bewerten, da sie etwas sehr ähnliches abfragen. Die Korrelation zwischen den beiden Items - Cronbachs Alpha-  wäre dementsprechend hoch, würde aber keine Reliabilität (geschweige denn [[Validität]] oder [[Objektivität]]) nachweisen, sondern lediglich Item-Ähnlichkeit bzw. {Homogenität} der Skala (siehe auch Itemanalyse bei der {Skalenkonstruktion})''.<br/>
''Bei hoher Korrelation der folgenden Items würde man eher von Reliabilität des Tests ausgehen können:'' <br/>
''(1) Ich treffe mich gerne mit meinen engsten Freunden''<br/>
''(2) Ich vertraue meinen Freunden sehr'' <br/>
''Die beiden Items fragen unterschiedliche Indikatoren für die Qualität der Freundschaft ab (Kontakt,Vertrauen). Die hohe Korrelation aufgrund von Item-Ähnlichkeit könnte daher ausgeschlossen werden und die Annahme einer Paralleltestreliabilität befürworten.''
 
==Split-half Reliabilität==
Um die Reliabilität mittels der Testhalbierungsreliabilität (auch Split-half Reliabilität genannt) zu bestimmen, wird ein Test in zwei Hälften geteilt, welche dann miteinander korreliert werden. Die Idee hinter dieser Reliabilitätsbestimmung ist, dass ein Test, der ein bestimmtes Merkmal erfassen soll, dies konsistent über den gesamten Test und mit jedem Item tut. Die Items, die in der einen Hälfte des Tests zusammengefasst werden, und die andere Hälfte sollten sich daher in den Ergebnissen bezüglich einer vorhandenen Merkmalsausprägung nicht oder kaum unterscheiden. Ist dies dennoch der Fall, scheint der Test in sich nicht konsistent das gleiche Merkmal abzufragen. <br/>
[[Datei:Split-half.jpg|300px|thumb|zentriert|Schaubild Split-half Reliabilität:''Beispiel [http://de.wikipedia.org/wiki/Stroop-Effekt Stroop-Task]: Die Reliabilität des Tests könnte untersucht werden, indem man den Mittelwert der Reaktionszeit der oberen Items (1.Hälfte) mit dem der 2. Hälfte vergleicht (korreliert)'']]
<br/>
<br/>
Das Erstellen zweier äquivalenter Tests wie bei der [[Paralleltestreliabilität]] wird hier umgangen, allerdings können auch bei der Bestimmung der Split-half Reliabilität Schwierigkeiten auftreten. Zum einen stellt sich die Frage, wie die sinnvolle Aufteilung in zwei Hälften vorzunehmen ist und wie man berücksichtigt, dass sich (trotz hoher Reliabilität der einzelnen Test-Partien) die Ergebnisse im Test z.B. durch Übung verändern können (Versuchsperson wird bspw. schneller aus reinem Gewöhnungs- oder Übungseffekt).

Aktuelle Version vom 10. Dezember 2021, 00:11 Uhr

Die Reliabilität gibt die Zuverlässigkeit und Beständigkeit einer Untersuchung an und bezieht sich auf den Grad der Messgenauigkeit eines Messverfahrens. Je reliabler ein Messinstrument ist, desto häufiger wird es bei mehrfachen Messungen das (exakt) gleiche Messergebnis anzeigen.
Auf die klassische Testtheorie bezogen, richtet sich die Frage also nach der Größe des Fehlers E.


Ausgelagerte Bildbeschreibung von Reliabilität

Reliabilitäten sie werden i.d.R. durch Korrelationen berechnet. Eine hohe Reliabilität erzielt man demnach durch möglichst standardisierte und kontrollierte Untersuchungsbedingungen. Der Mensch als Messinstrument misst häufig nicht so genau und zuverlässig wie ein Lineal oder eine Waage. Deshalb ist die Objektivität gerade bei sozialwissenschaftlichen und psychologischen Verfahren eine wichtige Voraussetzung für Reliabilität. Reliabilitäten bewegen sich zwischen den Werten -1 und 1. Ein Wert von 1 entspricht einer perfekten Reliabilität. Ein vollkommen reliables Verfahren führt etwa […] zu verschiedenen Zeitpunkten im Prinzip zu identischen Messwerten für ein und denselben Sachverhalt.“ (Sarris, 1992, S.238) Ein Beispiel dafür wäre die Variable Geschlecht. Das Geschlecht ist ein extrem stabiles Merkmal. Entsprechend sollte in den allermeisten Fällen auch in einem Test von einer weiblichen Versuchsperson bei jeder Wiederholung „weiblich“ angekreuzt werden (die Retestreliabilität ist nahe 1). Viele Merkmale in Tests sind nicht so eindeutig, wie zum Beispiel Intelligenz. Hier liegen die Reliabilitäten je nach Test und Art etwa zwischen .60 und .90. Generell sind in der Realität kaum perfekte Reliabilitäten anzutreffen, sodass die Messwerte von zwei Zeitpunkten nicht hundertprozentig miteinander korrelieren. Eine relativ gute Reliabilität ist ab .80 gegeben. (vgl. Bortz&Döring, 2005) Hat man mehrere Testverfahren oder Fragebögen zur Auswahl, so ist oft die Reliabilität ein entscheidendes Auswahlkriterium. Tests mit möglichst geringem Messfehler und demnach möglichst hoher Reliabilität sollten bevorzugt werden.


Man unterscheidet in der Anwendung vier Arten von Reliabilität. Die Retest-,Paralleltest-, Split-half Reliabilität und Interne Konsistenz.