Wenn Du fehlende Werte in Deinen Daten hast, musst Du Dir überlegen, wie Du mit ihnen umgehen willst. Es ist gut, wenn Du diese Überlegungen bewusst triffst, anstatt einfach mal drauf los zu analysieren und die fehlenden Werte irgendwie (ohne Reflexion) zu behandeln. Denn fehlende Werte nicht zu behandeln, ist nicht möglich. 🙂
Es gibt verschiedene Möglichkeiten zum Umgang mit fehlenden Werten:
- Du kannst bei der Analyse jeweils nur die paarweise vollständigen Fälle verwenden,
- Du kannst nur die komplett vollständigen Fälle verwenden und
- Du kannst die fehlenden ersetzen (Imputation). Für dieses Ersetzen gibt es auch wieder verschiedene Möglichkeiten.
Egal wie Du Dich entscheidest, wichtig ist zu wissen, um welche Art von fehlenden Werten es sich handelt.
Man unterscheidet MCAR, MAR und NMAR. Je nachdem welche Art von fehlenden Werten vorliegen, sind unterschiedliche Arten vom Umgang mit diesen fehlenden Werten erlaubt.
Hier möchte ich die drei unterschiedlichen Arten von fehlenden Werten dir vorstellen.
Arten von fehlenden Werten
MCAR: Missing completely at random
- rein zufällig fehlend
- Fehlen ist weder von der eigentlichen Variablen (bei der der Wert fehlt) noch von anderen Variablen im Datensatz abhängig
- können einfach ignoriert werden (verringert aber natürlich die Fallzahl)
Du willst mehr Durchblick im Statistik-Dschungel?
MAR: Missing at random
- Fehlen ist unabhängig von der Variable selbst (bei der der Wert fehlt)
- Fehlen ist abhängig von anderen Variablen im Datensatz
- bei Ignorieren wird das Ergebnis verzerrt
- die Regressionsbeziehung bleibt unverzerrt
NMAR: Not missing at random
- Fehlen hängt von der fehlenden Variable ab
- Fehlen hängt auch von anderen Variablen im Datensatz ab
- Ignorieren verzerrt das Ergebnis (mehr als bei MAR)
- Auch Regressionsbeziehung ist verzerrt
Es gibt keine Imputationsmethode, die bei NMAR erlaubt ist, auch das einfache Weglassen der unvollständigen Fälle (Ignorieren) sollte dann nicht in Betracht gezogen werden, da die Ergebnisse verfälscht sein werden.
Ich bin Statistik-Expertin aus Leidenschaft und bringe Dir auf leicht verständliche Weise und anwendungsorientiert die statistische Datenanalyse bei. Mit meinen praxisrelevanten Inhalten und hilfreichen Tipps wirst Du statistisch kompetenter und bringst Dein Projekt einen großen Schritt voran.
Hallo 🙂
In meiner Studie werden zwei Werte (vor und nach der Intervention) verglichen. Ich habe in einer Schule die Brotdoseninhalte untersucht und möchte überprüfen, ob und inwieweit sich die Qualität dieser durch die Intervention Ernährungsunterricht verändert haben. An den Untersuchungstagen haben teilweise Schülerinnen und Schüler gefehlt. Dürfen also die Daten der Personen nicht in die Wertung einfließen, wenn einer der beiden Messwerte gefehlt hat? Könnte man auch die Werte pro Gruppe zusammenfassen und das Vorher-Nachher vergleichen? Es gibt 3 Gruppen. Kontrolle, Intervention 1 und Intervention 2.
Hallo Laura,
wenn du statistische Tests rechnest (z.B. t-Test für verbundene Stichproben), werden automatisch nur die vollständigen Fälle verwendet. Das geht gar nicht anders. Das „Werte pro Gruppe zusammenfassen“ wirst du in der deskriptiven Analyse sowieso machen. Da können also alle Messwerte einfließen, auch die von unvollständigen Fällen, aber das ist dann eben nur deskriptiv und kein Signifikanztest.
LG Daniela