Wie soll man damit umgehen, wenn man Ausreißer in den Daten hat? Vorab das schon kontrollieren, oder erst nach Rechnen aller Analysen? Die auffälligen Werte einfach löschen? Ab wann spricht man überhaupt von einem Ausreißer? und und und …

Solche Fragen werden Dir durch den Kopf gehen, wenn Du Deine Datenanalyse rechnest und Du extreme Werte in den Daten hast.

Es gibt keine pauschale Antwort auf diese Fragen, sondern viele Möglichkeiten, mit Ausreißern umzugehen. Damit Du weißt, wie und wo Du anfangen sollst, habe ich Dir hier eine Liste der Schritte erstellt, die ich als Vorgehen im Umgang mit Ausreißern empfehle.

  1. Tippfehler und offensichtliche Messfehler löschen
  2. Ungewöhnliche Werte (z.B. Patient, der nicht in das Kollektiv passt) ausschließen
  3. Verteilung prüfen, eventuell transformieren
  4. Nach Möglichkeit nicht-parametrische Methode oder Bootstrapping verwenden
  5. Ausreißer aufgrund großer Residuen nach Daumenregel ausschließen (z.B. bei der Regression)

1. Tippfehler und offensichtliche Messfehler löschen

Zunächst solltest Du einen Datencheck machen. Dazu berechnest Du die deskriptiven Maße (insbesondere Minimum und Maximum) Deiner metrischen Parameter und prüfst, ob alle Werte sinnvolle Werte sind. Anhand von Minimum und Maximum würdest Du erkennen, wenn es offensichtliche Messfehler (unmögliche Werte) oder Tippfehler in den Daten gibt, z.B. ein Patientenalter von 130. Diese Werte würdest Du entweder direkt löschen oder, wenn Du die Möglichkeit hast, verbesserst Du die Eingabe z.B. über eine Ansicht der Patientenakten.

2. Ungewöhnliche Werte ausschließen

Wenn Du im nächsten Schritt immer noch ungewöhnliche Werte hast (ungewöhnlich hoch oder niedrig), ohne, dass diese Werte offensichtlich als Tipp- oder Messfehler bezeichnet werden können, betrachtest Du den Fall (Patient, Objekt), bei dem dieser Wert auftritt. Eventuell kannst Du diesen Fall als ungewöhnlichen Fall identifizieren, der nicht in Deine Stichprobe (also nicht in die Grundgesamtheit) passt. Das könnte zum Beispiel dann sein, wenn dieser extreme Wert bei einem Patienten auftritt, der bei genauerer Betrachtung seine Medikamente nicht eingenommen hat. Dann passt dieser Patient nicht in Deine Grundgesamtheit und Du schließt den Patient komplett aus der Analyse aus.

Findest Du keinen solchen Grund, lässt Du die ungewöhnlichen Werte zunächst stehen.

3. Verteilung prüfen und eventuell transformieren

Nun prüfst Du die Verteilung Deines Parameters. Zeigt sich eine Schiefe, so kannst Du Transformationen ausprobieren, um die Daten mit Hilfe der Transformation in eine annähernde Normalverteilung zu überführen. Dadurch können auch extreme Werte an die Daten angenähert werden, so dass Du nach der Transformation keine oder zumindest weniger Ausreißer hast.

Du willst mehr Durchblick im Statistik-Dschungel?

4. Nicht-parametrische Methoden oder Bootstrapping verwenden

Wenn Du diese Schritte gegangen bist und immer noch Ausreißer hast, so wirst Du keine Methode verwenden können, die eine Normalverteilung voraussetzt. Denn mit Ausreißern sind Deine Daten nicht normalverteilt und die parametrischen Methoden werden durch Ausreißer beeinflusst: das Ergebnis ist nicht verlässlich.

Wenn Du eine einfache Analyse rechnest (z.B. einfacher Lageunterschied oder Korrelation), so kannst Du als Analysemethode die nicht-parameterische Methode wählen, die keine Normalverteilung voraussetzt und robust auf Ausreißer reagiert.

Wenn Du eine komplexere Analyse rechnest (z.B. ein mehrfaktorielles Design), dann gibt es meist keine nicht-parametrische Alternative. Dann kannst Du aber Deine ausgewählte Methode (z.B. ANOVA) zusätzlich mit Bootstrapping rechnen. Die Ergebnisse des Bootstrappings reagieren robust auf Ausreißer und sind demnach verlässlich, auch wenn Ausreißer in den Daten vorliegen.

5. Ausreißer aufgrund großer Residuen nach Daumenregel ausschließen

Zudem gibt es für manche Methoden Daumenregeln, nach denen Du Dich in der Untersuchung der Ausreißer richten kannst und nach denen Du auch zu große Ausreißer ausschließen kannst. Dabei ist es wichtig, dass es hier immer um die Ausreißer in einem Modell geht, das heißt, es werden nicht die Messwerte selbst betrachtet sondern die Residuen – die Abweichungen vom Modell.

Eine solche Daumenregel gibt es zum Beispiel für die lineare Regression. Hier soll es keine standardisierten Residuen größer als 3 oder kleiner als -3 geben. Es dürfen höchstens 1 % der standardisierten Residuen größer als 2,5 oder kleiner als -2,5 sein. Und nur 5 % dürfen größer als 2 oder kleiner als -2 sein. (Field, 2013)

Alle Fälle, deren Residuen aus diesen Bereichen heraus fallen, kannst Du anhand dieser Regel aus der Analyse heraus nehmen und das Modell nochmals rechnen.

Referenz:
Andy Field, Discovering Statistics Using SPSS, 4. Auflage, Sage 2013.

Bildnachweis: pixabay.com Natalia_Kollegova