Wird ein neues Messinstrument (z.B. ein Fragebogen) entwickelt, so ist die Messung der Reliabilität ein wichtiges Gütekriterium dieses neuen Messinstruments.
Was ist Reliabilität?
Die Reliabilität ist die Messgenauigkeit der Messung. Es wird also danach gefragt, wie genau der Test misst (ob er das misst, was er messen soll, ist hier erstmal unwichtig, das wird stattdessen mit der Validität untersucht).
Welche Arten der Reliabilität gibt es?
Es gibt verschiedene Aspekte der Reliabilität. Ob sie alle in Deiner Untersuchung gemessen werden können hängt vom Studiendesign ab. Manche Reliabilitäten können nur gemessen werden, wenn die Datenerhebung an mehreren Messzeitpunkten durcheführt wurden (Retest-Reliabilität), oder wenn zwei Erhebungen gleichzeitig durchgeführt wurden (Paralleltest-Methode).
Im Folgenden stelle ich Dir die verschiedenen Aspekte der Reliabilität vor und wie Du sie untersuchen kannst.
Innere oder interne Konsistenz
Die interne Konsistenz (auch innere Konsistenz genannt) wird untersucht, wie gut die einzelnen Items einer Skala zusammen passen. Dazu wird als Maß Cronbachs Alpha berechnet. Werte ab 0,7 gelten als akzeptabel, ab 0,8 als gut (Bühner, 2011).
Ein weiteres Maß für die interne Konsistenz kann über die Split-Half-Methode berechnet werden, in der der Test in zwei Teile geteilt wird und die Korrelation der beiden Teile als Wert für die interne Konsistenz berichtet wird.
Du willst mehr Durchblick im Statistik-Dschungel?
Retest-Reliabilität
Mit der Retest-Reliabilität wird untersucht, ob das Messinstrument über die Zeit hinweg stabil misst. Um sie zu berechnen wird das Messinstrument also an zwei oder mehr Zeitpunkten an den gleichen Probanden erhoben und die Korrelation der Messungen berechnet. Je nach Variablentyp und Anzahl der Messungen wird das passende Maß verwendet, siehe folgende Tabelle. Werte ab 0,7 gelten als akzeptabel, ab 0,8 als gut (Bühner, 2011).
nominaler Parameter | ordinaler Parameter | metrischer Parameter | |
zwei Beobachter / zwei Wiederholungen | Cohens Kappa | Kendalls Tau | Pearson-Korrelation |
mehr als zwei Beobachter / mehr als zwei Wiederholungen | Fleiss Kappa | Kendalls W | Intra-Klassen-Korrelation (ICC) |
Inter-Rater- oder Intra-Rater-Reliabilität
Soll untersucht werden, wie stabil die Messungen bei Verwendung verschiedener Beurteiler oder beim gleichen Beurteiler über die Zeit sind, so wird die Übereinstimmung zwischen mehreren Beurteilern (=Inter-Rater-Reliabilität) oder die Übereinstimmung beim gleichen Beurteiler über die Zeit (Intra-Rater-Reliabilität) ermittelt. Auch hier wird wieder wie oben bei der Retest-Reliabilität abhängig vom Variablentyp und der Anzahl der Messungen das passende Maß ausgewählt, siehe Tabelle oben.
Für diese Übereinstimmungsmaße gelten Werte ab 0,6 als akzeptable Übereinstimmung, ab 0,8 als fast perfekte Übereinstimmung (Landis, Koch, 1977).
Referenzen:
J. R. Landis, G. G. Koch (1977) The measurement of observer agreement for categorical data. In: Biometrics. 33, 159-174.
Markus Bühner (2011) Einführung in die Test- und Fragebogenkonstruktion, 3. Auflage, Pearson, München.
Ich bin Statistik-Expertin aus Leidenschaft und bringe Dir auf leicht verständliche Weise und anwendungsorientiert die statistische Datenanalyse bei. Mit meinen praxisrelevanten Inhalten und hilfreichen Tipps wirst Du statistisch kompetenter und bringst Dein Projekt einen großen Schritt voran.