Solche Fragen werden Dir durch den Kopf gehen, wenn Du Deine Datenanalyse rechnest und Du extreme Werte in den Daten hast.
Es gibt keine pauschale Antwort auf diese Fragen, sondern viele Möglichkeiten, mit Ausreißern umzugehen. Damit Du weißt, wie und wo Du anfangen sollst, habe ich Dir hier eine Liste der Schritte erstellt, die ich als Vorgehen im Umgang mit Ausreißern empfehle.
- Tippfehler und offensichtliche Messfehler löschen
- Ungewöhnliche Werte (z.B. Patient, der nicht in das Kollektiv passt) ausschließen
- Verteilung prüfen, eventuell transformieren
- Nach Möglichkeit nicht-parametrische Methode oder Bootstrapping verwenden
- Ausreißer aufgrund großer Residuen nach Daumenregel ausschließen (z.B. bei der Regression)
1. Tippfehler und offensichtliche Messfehler löschen
Zunächst solltest Du einen Datencheck machen. Dazu berechnest Du die deskriptiven Maße (insbesondere Minimum und Maximum) Deiner metrischen Parameter und prüfst, ob alle Werte sinnvolle Werte sind. Anhand von Minimum und Maximum würdest Du erkennen, wenn es offensichtliche Messfehler (unmögliche Werte) oder Tippfehler in den Daten gibt, z.B. ein Patientenalter von 130. Diese Werte würdest Du entweder direkt löschen oder, wenn Du die Möglichkeit hast, verbesserst Du die Eingabe z.B. über eine Ansicht der Patientenakten.
2. Ungewöhnliche Werte ausschließen
Wenn Du im nächsten Schritt immer noch ungewöhnliche Werte hast (ungewöhnlich hoch oder niedrig), ohne, dass diese Werte offensichtlich als Tipp- oder Messfehler bezeichnet werden können, betrachtest Du den Fall (Patient, Objekt), bei dem dieser Wert auftritt. Eventuell kannst Du diesen Fall als ungewöhnlichen Fall identifizieren, der nicht in Deine Stichprobe (also nicht in die Grundgesamtheit) passt. Das könnte zum Beispiel dann sein, wenn dieser extreme Wert bei einem Patienten auftritt, der bei genauerer Betrachtung seine Medikamente nicht eingenommen hat. Dann passt dieser Patient nicht in Deine Grundgesamtheit und Du schließt den Patient komplett aus der Analyse aus.
Findest Du keinen solchen Grund, lässt Du die ungewöhnlichen Werte zunächst stehen.
3. Verteilung prüfen und eventuell transformieren
Nun prüfst Du die Verteilung Deines Parameters. Zeigt sich eine Schiefe, so kannst Du Transformationen ausprobieren, um die Daten mit Hilfe der Transformation in eine annähernde Normalverteilung zu überführen. Dadurch können auch extreme Werte an die Daten angenähert werden, so dass Du nach der Transformation keine oder zumindest weniger Ausreißer hast.
Du willst mehr Durchblick im Statistik-Dschungel?
4. Nicht-parametrische Methoden oder Bootstrapping verwenden
Wenn Du diese Schritte gegangen bist und immer noch Ausreißer hast, so wirst Du keine Methode verwenden können, die eine Normalverteilung voraussetzt. Denn mit Ausreißern sind Deine Daten nicht normalverteilt und die parametrischen Methoden werden durch Ausreißer beeinflusst: das Ergebnis ist nicht verlässlich.
Wenn Du eine einfache Analyse rechnest (z.B. einfacher Lageunterschied oder Korrelation), so kannst Du als Analysemethode die nicht-parameterische Methode wählen, die keine Normalverteilung voraussetzt und robust auf Ausreißer reagiert.
Wenn Du eine komplexere Analyse rechnest (z.B. ein mehrfaktorielles Design), dann gibt es meist keine nicht-parametrische Alternative. Dann kannst Du aber Deine ausgewählte Methode (z.B. ANOVA) zusätzlich mit Bootstrapping rechnen. Die Ergebnisse des Bootstrappings reagieren robust auf Ausreißer und sind demnach verlässlich, auch wenn Ausreißer in den Daten vorliegen.
5. Ausreißer aufgrund großer Residuen nach Daumenregel ausschließen
Zudem gibt es für manche Methoden Daumenregeln, nach denen Du Dich in der Untersuchung der Ausreißer richten kannst und nach denen Du auch zu große Ausreißer ausschließen kannst. Dabei ist es wichtig, dass es hier immer um die Ausreißer in einem Modell geht, das heißt, es werden nicht die Messwerte selbst betrachtet sondern die Residuen – die Abweichungen vom Modell.
Eine solche Daumenregel gibt es zum Beispiel für die lineare Regression. Hier soll es keine standardisierten Residuen größer als 3 oder kleiner als -3 geben. Es dürfen höchstens 1 % der standardisierten Residuen größer als 2,5 oder kleiner als -2,5 sein. Und nur 5 % dürfen größer als 2 oder kleiner als -2 sein. (Field, 2013)
Alle Fälle, deren Residuen aus diesen Bereichen heraus fallen, kannst Du anhand dieser Regel aus der Analyse heraus nehmen und das Modell nochmals rechnen.
Referenz:
Andy Field, Discovering Statistics Using SPSS, 4. Auflage, Sage 2013.
Bildnachweis: pixabay.com Natalia_Kollegova
Ich bin Statistik-Expertin aus Leidenschaft und bringe Dir auf leicht verständliche Weise und anwendungsorientiert die statistische Datenanalyse bei. Mit meinen praxisrelevanten Inhalten und hilfreichen Tipps wirst Du statistisch kompetenter und bringst Dein Projekt einen großen Schritt voran.
Hallo Daniela,
Ich möchte gerne eine Pearson’s Korrelation rechnen (zwei metrische Variablen). Normalverteilung ist nicht gegeben, aber das N ist sehr groß und daher ist die Voraussetzungsverletzung (so hoffe ich) vernachlässigbar. Ich habe einige auch extreme Ausreißer dabei. Allerdings sind diese plausibel, also nicht auf irgendwelche Fehler zurückführbar. Kann ich nun einfach zusätzlich zu Pearson Bootstrapping wegen den Ausreißern verwenden? Oder würdest du mir eher den nicht-parameterischen Spearman empfehlen?
Viele liebe Grüße
Lina
Hallo Lina,
ja, hier hast Du beide Möglichkeiten: nicht-parametrisch oder Bootstrapping. Hilft beides. Sowohl wegen der Nicht-Normalverteilung als auch gegen die Ausreißer.
LG Daniela
P.S.: Wenn Du regelmäßig Deine Fragen an mich loswerden willst und viele ausführliche Infos, Videos, Tutorials und Lernmaterial für Deine Datenanalyse suchst, dann komm in die Statistik-Akademie: https://statistik-und-beratung.de/mitgliederbereich-lp/
Hallo Daniela,
ich möchte eine lineare Regression rechnen und habe mittels fallweiser Diagnose festgestellt, dass bei mehr etwas mehr als 5% bzw. 1% der Fälle die Residuen über 2/2.5 liegen. Würde man nun einfach die Fälle mit den höchsten Residuen ausschließen so lange bis eben nur noch 5%/1% der Fälle in diesem bereich liegen? Leider habe ich auch das Problem, dass teilweise weder NV der Residuen, noch Homoskedastizität vorliegt. Wäre als alternatives Verfahren dann eher bootstrapping oder eine robuste Regression angebracht?
Vielen Dank für deine Antwort.
Christina
Hallo Christina,
ja, so könntest Du vorgehen. Aber es kann passieren, dass dadurch immer neue Ausreißer auftreten.
Da Du sowieso noch andere Probleme mit den Voraussetzungen hast, würde ich anders herangehen und erstmal versuchen, die Variablen zu transformieren, um Normalverteilung zu erzeugen. Vielleicht lösen sich damit die anderen Probleme auch. Falls das nichts nützt, dann kannst Du auch immernoch ein Bootstrapping anwenden.
LG Daniela
P.S.: Wenn Du mehr zur Statistik von mir lernen willst, dann schau Dir mein Angebot der Statistik-Akademie an: https://statistik-und-beratung.de/mitgliederbereich-lp/
Hallo…
Ich habe ein Problem mit den Ausreißer der Residuen in einer multiplen linearen Regression. In der Fallweisen Diagnose werden mir 5 Ausreißer angezeigt, zwei davon sind über dem Grenzwert (3,612 und 3,192) wenn ich die entsprechenden Fälle ausschließen wird allerdings beim Regressionskoeffizienten einer Variable ein Wert (9,785 e-5) angezeigt. Ich verstehe das nicht, da es sich hierbei nur um 2 Fälle von mehreren tausend handelt und ich auch nicht weiß was mir diese Angabe bei dem Regressionskoeffizienten sagen soll…kannst du mir hier weiterhelfen?
Hallo Eva,
der Wert 9,785 e-5 bedeutet: 9,785*10^-5, also 0,00009785.
Wie war denn der Wert vor Ausschluss dieser Fälle?
LG Daniela
P.S.: Wenn Du mehr zur Statistik von mir lernen willst, dann schau Dir mein Angebot der Statistik-Akademie an: https://statistik-und-beratung.de/mitgliederbereich-lp/