Die Reliabilität einer Messung ist deren Verlässlichkeit. Sie gibt an, wie genau ein Merkmal gemessen wird und damit, ob die Daten reproduzierbar sind. Sie wird oft zur Qualitätskontrolle in psychologischen Tests, aber auch in medizinischen Untersuchungen eingesetzt.

Interessante Fragestellungen sind zum Beispiel:

  1. Werden Röntgenbilder von verschiedenen Ärzten verlässlich interpretiert?
  2. Werden die Persönlichkeitsmerkmale anhand einer bestimmten Skala von verschiedenen Psychologen verlässlich eingeschätzt?
  3. Werden Röntgenbilder vom gleichen Arzt verlässlich interpretiert?
  4. Schätzen Patienten ihre Persönlichkeitsmerkmale anhand einer bestimmten Skala verlässlich ein?

Frage 1 und 2 zielen dabei auf die Inter-Variabilität der Messung ab: Wie unterscheiden sich die Messungen zwischen den Beobachtern (Observer, Rater)?

Inter-Observer-Variability, Inter-Rater-Variability

Frage 3 und 4 fragen nach der Intra-Variabilität der Messung: Wie unterscheiden sich mehrere Messungen eines Beobachters?

Intra-Observer-Variability, Intra-Rater-Variability

 

    Du willst mehr Durchblick im Statistik-Dschungel?

    Zur Messung der Variabilität stehen verschiedene statistische Methoden zur Verfügung, die vom Skalenniveau der Daten abhängen und davon, ob es 2 oder mehr Observer/Messungen zu vergleichen gibt. Die folgende Tabelle gibt einen Überblick über eine Auswahl an statistischen Kennzahlen für die Reliabilität von Messungen.

    Außer dem Pearson-Koeffizient liegen alle Koeffizienten zwischen 0 und 1 und beschreiben nahe 1 einen starken Zusammenhang, das heißt eine gute Reliabilität. Nahe 0 bedeutet, dass die Messungen stark streuen und somit nicht verlässlich sind. Landis und Koch (1977) geben folgende Hilfestellung zur Interpretation der Koeffizienten als Grad der Übereinstimmung:

    • 0 = poor
    • 0 – 0.2 slight
    • 0.2 – 0.4 fair
    • 0.4 – 0.6 moderate
    • 0.6 – 0.8 substantial
    • 0.8 – 1 (almost) perfect

    Der Pearson-Koeffizient liegt zwischen -1 und 1. Er beschreibt ebenfalls nahe 0 eine schwache Übereinstimmung und nahe 1 starke Übereinstimmung. Negative Werte sprechen für eine negative Korrelation, was zeigen würde, dass die Beurteilungen in gegengesetzte Richtungen korrelieren. Auch das gilt in diesem Kontext als schlechte Übereinstimmung.

    Referenzen

    • J. R. Landis, G. G. Koch: The measurement of observer agreement for categorical data. In: Biometrics. 33, 1977, 159-174.
    • John Uebersax: Statistical Methods for Rater and Diagnostic Agreement. http://www.john-uebersax.com/stat/agree.htm