Vorexperimentelle Designs

Aus eLearning - Methoden der Psychologie - TU Dresden
Version vom 23. Januar 2017, 21:21 Uhr von Diana (Diskussion | Beiträge) (Die Seite wurde neu angelegt: „{{Nav|Navigation|Nicht-Experimente|Versuchsplanung}} Vorexperimentelle Versuchspläne sind ungültige (invalide) Pläne, die keine kausaltheoretischen Rücksc…“)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen

Vorexperimentelle Versuchspläne sind ungültige (invalide) Pläne, die keine kausaltheoretischen Rückschlüsse von der AV auf die UV zulassen. Wie auch die experimentellen Designs basieren vorexperimentelle Designs auf der Einführung einer experimentellen Bedingung (UV). Im Gegensatz zu den experimentellen Plänen sind sie aber als nicht intern valide einzustufen, da keine ausreichende Kontrolle von möglichen Störeinflüssen erfolgt und die Untersuchungsbedingungen weitgehend unstandardisiert sind. Die Ergebnisse von vorexperimentellen Designs sind dementsprechend mehrdeutig und unbefriedigend. Daher dürfen vorexperimentelle Versuchspläne nicht zur Hypothesenprüfung angewendet werden. Dennoch können sie eine wichtige Rolle spielen, z.B. bei Fragestellungen, die explorativ (erkundend) und hypothesengenerierend orientiert sind. Häufig sind experimentelle, gültige Studien mit hohen Kosten verbunden. Daher ist es in vielen Fällen sinnvoll, kleinere und kostengünstigere Voruntersuchungen durchzuführen. Damit kann man herauszufinden, ob es sich lohnt, die Forschungsfrage weiter zu untersuchen.

Formalisiert wird ein vorexperimentelles Design durch das Symbol V.

Es ist wichtig, die Schwächen der einzelnen vorexperimentellen Pläne zu kennen, denn sie werden in einigen Fällen tatsächlich verwendet. Außerdem bauen die gültigen, experimentellen Designs darauf auf, eben diese Schwächen durch geeignete Strategien zu vermeiden.

Die vorexperimentellen Designs lassen sich in drei Untergruppen teilen:

  • einmalige Untersuchung einer einzigen Gruppe (Schrotschuss-Design)
  • Vorher-Nachher-Messung an einer einzigen Gruppe
  • statischer Gruppenvergleich.


Einmalige Untersuchung an einer einzigen Versuchsgruppe

Diese ist „eine Versuchsanordnung, bei der eine einzige Versuchsgruppe nur einmal einer einzigen Behandlung X unterzogen wird, um danach den Effekt auf die abhängige Variable zu messen.“ (Sarris, 1992, S.31) Wie alle vorexperimentellen Versuchspläne ist auch die einmalige Untersuchung an einer einzigen Versuchsgruppe ein invalider Plan (siehe interne Validität). Diese Gruppe von vorexperimentellen Designs wird in der Literatur auch als Schrotschuss-Designs oder one-shot case studies bezeichnet. Solche Untersuchungsanordnungen verdienen die Bezeichnung Versuchsplan nicht, da sie eher einem unkontrollierten Probieren entsprechen. Sie können bestenfalls als Erkundungsexperimente eingesetzt werden. Häufig findet man sie jedoch in der Alltagspsychologie. Aufgrund ihrer vermeintlichen Plausibilität führen sie typischerweise zu Pseudonachweisen (Sarris, 1992). Mit dem Schrotschussdesign wird eine Statusmessung oder Bestandsaufnahme durchgeführt, aber keine Aufklärung von Ursache-Wirkungs-Zusammenhängen. Da es weder Vergleichsmöglichkeiten gibt, noch Kontrolltechniken eingesetzt werden, können Ergebnisse mehrdeutig ausfallen. Die interne Validität ist nicht gegeben und folglich auch keine externe Validität. Eine so gefundene Erkenntnis ist wissenschaftlich nicht haltbar nachgewiesen. Die Ergebnisse eines solchen Designs lassen sich grafisch darstellen, wobei eine darüber hinausgehende (interferenz-)statistische Auswertung unzulässig ist. Um tatsächlich valide Ergebnisse zu bekommen, muss man mit einem besseren (im Idealfall experimentellen) Design die Untersuchung erneut durchführen.

Beispiel:
Petra und Sabine essen ein Jahr lang jeden Abend einen Apfel und sind seitdem nicht krank gewesen. Solche Erfahrungswerte sind wissenschaftlich unbrauchbar, da verschiedene Ursachen zu diesem Ergebnis geführt haben könnten. Beispielsweise kann besagtes Jahr einen besonders milden Winter gehabt haben, oder aber Petra und Sabine sind generell fast nie krank. Ein Vergleich mit Personen, die nicht jeden Abend einen Apfel gegessen haben wird nicht gezogen. Es lässt sich daher kein gültiger Rückschluss ziehen und die Erfahrung darf nicht verallgemeinert werden.

Vorher-Nachher-Messung an einer einzigen Versuchsgruppe

Diese bezeichnet einen vorexperimentellen Versuchsplan, bei welchem eine einzige Gruppe vor und nach einem Treatment untersucht wird, um Veränderungen durch das Treatment festzustellen. Wie alle vorexperimentellen Versuchspläne ist auch die Vorher-Nachher-Messung an einer einzigen Gruppe ein invalider Plan (siehe interne Validität). Im Gegensatz zum Schrotschuss-Design weist dieses Design eine zusätzliche Vorhermessung auf. Das bedeutet, dass die abhängige Variable (AV) vor und nach dem Treatment an denselben Personen gemessen wird. Der erhobene Ausgangswert dient als Kontrolle von interindividuellen Unterschieden. Somit verfügt das Design über eine echte Vergleichsmöglichkeit. Könnte man von unverzerrten und validen Messergebnissen ausgehen, so ergäbe die Differenz aus Endwert und Ausgangswert (ȲN-ȲV) ein Maß für den Effekt des Treatments. Dennoch ist dieses Design aufgrund von erheblichen Mängeln in der internen Validität eingeschränkt. Da keinerlei Kontrollstrategien angewendet werden, darf nicht von den Veränderungen der unabhängigen Variable (Treatment) auf die gefundenen Werte der abhängigen Variable geschlussfolgert werden. Vor allem die Störgrößen Zeiteinflüsse, Reifung und Testeffekte sind zu berücksichtigen, aber auch die Reaktivität von Probanden und Versuchsleitern. Das Problem dieses Designs ist nicht grundsätzlich, dass Störeinflüsse wirken können, sondern, dass man nicht genau weiß, ob und wie stark Störeinflüsse wirken. Alternativerklärungen lassen sich nicht generell ausschließen. Entscheidend ist also die Unsicherheit in der Schlussfolgerung. Im Rahmen einer Pilotstudie und mit erhöhter Vorsicht in der Interpretation der Ergebnisse ist es möglich, eine einfache statistische Auswertung (beispielsweise die Prüfung auf signifikante Differenzen) durchzuführen. Es ist jedoch wichtig, dass auch die beste statistische Auswertung die Mängel des Untersuchungsdesigns nicht aufheben kann!

Beispiel:
In einer Grundschule werden neue Lehrbücher für den Deutschunterricht eingeführt. Die Klasse 4b arbeitet im ersten Halbjahr zunächst mit dem alten und im zweiten Halbjahr mit dem neuen Lehrbuch. Die Lehrerin vergleicht nun die Noten aus dem Halbjahreszeugnis mit dem Jahreszeugnis. Sie stellt fest, dass sich 19 der 30 Kinder in den Noten verbessert haben. Ist dieser Effekt auf das Lehrbuch zurückzuführen? Die Antwort ist Nein. In dieser vorexperimentellen Untersuchungsanordnung ist das Ergebnis mehrdeutig. Es gibt verschiedene Alternativerklärungen, die nicht ausgeschlossen werden können. Beispielsweise können die Noten mit den Jahreszeiten schwanken (Zeiteinflüsse), die Schüler könnten durch ihre Halbjahresnote zu mehr Leistung motiviert worden sein (Testeffekte) oder aber die Lehrerin könnte mit den neuen Lehrbüchern mehr Spaß am Lehren haben und daher die Schüler auch mehr motiviert haben (Versuchsleitereffekte). Aufgrund der Unsicherheit in der Schlussfolgerung ist der Effekt nicht eindeutig auf das neue Lehrbuch zurückzuführen. Aufgrund der nicht-repräsentativen Stichprobe sind die Ergebnisse nicht verallgemeinerbar.


Statistischer Gruppenvergleich

Bei diesem werden zwei oder mehr feststehende (statische) Gruppen nach der Einführung einer experimentellen Bedingung einmalig untersucht. Im Vergleich zu den anderen beiden vorexperimentellen Designs weist dieses zwei wichtige Kontrollvorteile auf: Es berücksichtigt einerseits die interindividuell variablen Ausgangsmesswerte und schafft zudem eine sinnvolle Vergleichsmöglichkeit durch mindestens eine weitere statische Gruppe (Sarris, 1992). Häufig untersucht man mit dem statischen Gruppenvergleich zwei Gruppen. Die Versuchsgruppe (VG) erhält ein Treatment und die Kontrollgruppe (KG) nicht. Nach Einführung dieser zweifach gestuften experimentellen Bedingung wird eine Nachhermessung vorgenommen. Geht man von völlig unverzerrten Messergebnissen aus, so ergibt eine signifikante Differenz zwischen den Werten der KG und der VG den experimentellen Effekt (ȲN-ȲV). Tatsächlich sind solche Schlussfolgerungen aber ungültig, da die interne Validität nicht gewährleistet ist. Statt durch Zufall gewonnene Gruppen werden bereits bestehende Gruppen (z.B. Schulklassen) untersucht. Solche natürlichen Gruppen können sich bereits vor der Untersuchung relevant unterscheiden, d.h. sie sind nicht in jedem Fall vergleichbar. In einem solchen Fall spricht man von Auswahlverzerrungen. Dieser Störeinfluss auf die interne Validität ist der wichtigste Kritikpunkt am statischen Gruppenvergleich. Wenn Zufallsgruppenbildung (Randomisierung) für eine Studie nicht möglich ist, wird dennoch manchmal auf den statischen Gruppenvergleich zurückgegriffen (z.B. bei Schulversuchen oder bei Psychotherapievergleichsuntersuchungen). Ab einer genügend großen Anzahl von Studienteilnehmern (N>30, laut Sarris, 1992) lassen sich auch die üblichen statistischen Auswertungsverfahren (z.B. t-Test) anwenden. Das eigentliche Problem, nämlich dass keine gültigen Erklärungen abgegeben werden können, lässt sich dadurch aber nicht lösen! Der statische Gruppenvergleich ist ein ungenügendes Design und sollte wie alle vorexperimentellen Pläne in kausaltheoretischen Untersuchungen unbedingt vermieden werden. Die optische Ähnlichkeit zum 2-Gruppenrandomisierungsplan sollte darüber nicht hinwegtäuschen. Zur Unterscheidung ist es wichtig auf die Formalisierung durch das Symbol V zu achten. „Gerade die scheinbare Ähnlichkeit dieser beiden Designtypen ist bei der Bewertung einer Untersuchung stets kritisch zu berücksichtigen. Denn eine Verwechslung […] kann zu folgenschweren Irrtümern […] führen“ (Sarris, 1992, S. 40). Statt eines statischen Gruppenvergleichs stellt ein Randomisierungsdesign häufig die besser geeignete Alternative zur Untersuchung der Fragestellung dar.

Beispiel:
Forscher einer Uniklinik interessieren sich für den Einfluss von Zuwendung auf den Krankheitsverlauf von Depressionen. Sie wollen überprüfen, ob besonders viel Zuwendung durch Gespräche einen anderen Krankheitsverlauf bedingt. Hierfür werden 7 depressive Patienten der Uniklinik mit täglich 30 min Gespräch behandelt und 9 Depressions-Patienten der städtischen Klinik als Vergleichsgruppe herangezogen. Der Krankheitsverlauf wird durch den jeweiligen Therapeuten schriftlich dokumentiert und ausgewertet. Sollte sich im Anschluss an die Intervention ein positiverer Krankheitsverlauf bei den Uniklinik-Patienten zeigen als bei jenen aus dem städtischen Krankenhaus, möchten die Forscher eine umfangreiche Längsschnittstudie realisieren. Im Beispiel wird ein vorexperimenteller, statischer Gruppenvergleich als erkundende Pilotstudie verwendet. Die Ergebnisse der Studie sind mehrdeutig. Die Untersuchungsgruppen könnten sich bereits vor der Untersuchung systematisch unterschieden haben. Weitere Einflüsse wie zum Beispiel Ausbildung des Psychotherapeuten, Dauer des bisherigen Klinikaufenthalts der Patienten, etc. werden weder kontrolliert, noch berücksichtigt. Zur Überprüfung der Fragestellung ist es notwendig, dass die Forscher im Anschluss eine experimentelle Untersuchung, beispielsweise mit einem 2-Gruppen-Randomisierungsplan durchführen.