Solche Fragen werden Dir durch den Kopf gehen, wenn Du Deine Datenanalyse rechnest und Du extreme Werte in den Daten hast.
Es gibt keine pauschale Antwort auf diese Fragen, sondern viele Möglichkeiten, mit Ausreißern umzugehen. Damit Du weißt, wie und wo Du anfangen sollst, habe ich Dir hier eine Liste der Schritte erstellt, die ich als Vorgehen im Umgang mit Ausreißern empfehle.
- Tippfehler und offensichtliche Messfehler löschen
- Ungewöhnliche Werte (z.B. Patient, der nicht in das Kollektiv passt) ausschließen
- Verteilung prüfen, eventuell transformieren
- Nach Möglichkeit nicht-parametrische Methode oder Bootstrapping verwenden
- Ausreißer aufgrund großer Residuen nach Daumenregel ausschließen (z.B. bei der Regression)
1. Tippfehler und offensichtliche Messfehler löschen
Zunächst solltest Du einen Datencheck machen. Dazu berechnest Du die deskriptiven Maße (insbesondere Minimum und Maximum) Deiner metrischen Parameter und prüfst, ob alle Werte sinnvolle Werte sind. Anhand von Minimum und Maximum würdest Du erkennen, wenn es offensichtliche Messfehler (unmögliche Werte) oder Tippfehler in den Daten gibt, z.B. ein Patientenalter von 130. Diese Werte würdest Du entweder direkt löschen oder, wenn Du die Möglichkeit hast, verbesserst Du die Eingabe z.B. über eine Ansicht der Patientenakten.
2. Ungewöhnliche Werte ausschließen
Wenn Du im nächsten Schritt immer noch ungewöhnliche Werte hast (ungewöhnlich hoch oder niedrig), ohne, dass diese Werte offensichtlich als Tipp- oder Messfehler bezeichnet werden können, betrachtest Du den Fall (Patient, Objekt), bei dem dieser Wert auftritt. Eventuell kannst Du diesen Fall als ungewöhnlichen Fall identifizieren, der nicht in Deine Stichprobe (also nicht in die Grundgesamtheit) passt. Das könnte zum Beispiel dann sein, wenn dieser extreme Wert bei einem Patienten auftritt, der bei genauerer Betrachtung seine Medikamente nicht eingenommen hat. Dann passt dieser Patient nicht in Deine Grundgesamtheit und Du schließt den Patient komplett aus der Analyse aus.
Findest Du keinen solchen Grund, lässt Du die ungewöhnlichen Werte zunächst stehen.
3. Verteilung prüfen und eventuell transformieren
Nun prüfst Du die Verteilung Deines Parameters. Zeigt sich eine Schiefe, so kannst Du Transformationen ausprobieren, um die Daten mit Hilfe der Transformation in eine annähernde Normalverteilung zu überführen. Dadurch können auch extreme Werte an die Daten angenähert werden, so dass Du nach der Transformation keine oder zumindest weniger Ausreißer hast.
Du willst mehr Durchblick im Statistik-Dschungel?
4. Nicht-parametrische Methoden oder Bootstrapping verwenden
Wenn Du diese Schritte gegangen bist und immer noch Ausreißer hast, so wirst Du keine Methode verwenden können, die eine Normalverteilung voraussetzt. Denn mit Ausreißern sind Deine Daten nicht normalverteilt und die parametrischen Methoden werden durch Ausreißer beeinflusst: das Ergebnis ist nicht verlässlich.
Wenn Du eine einfache Analyse rechnest (z.B. einfacher Lageunterschied oder Korrelation), so kannst Du als Analysemethode die nicht-parameterische Methode wählen, die keine Normalverteilung voraussetzt und robust auf Ausreißer reagiert.
Wenn Du eine komplexere Analyse rechnest (z.B. ein mehrfaktorielles Design), dann gibt es meist keine nicht-parametrische Alternative. Dann kannst Du aber Deine ausgewählte Methode (z.B. ANOVA) zusätzlich mit Bootstrapping rechnen. Die Ergebnisse des Bootstrappings reagieren robust auf Ausreißer und sind demnach verlässlich, auch wenn Ausreißer in den Daten vorliegen.
5. Ausreißer aufgrund großer Residuen nach Daumenregel ausschließen
Zudem gibt es für manche Methoden Daumenregeln, nach denen Du Dich in der Untersuchung der Ausreißer richten kannst und nach denen Du auch zu große Ausreißer ausschließen kannst. Dabei ist es wichtig, dass es hier immer um die Ausreißer in einem Modell geht, das heißt, es werden nicht die Messwerte selbst betrachtet sondern die Residuen – die Abweichungen vom Modell.
Eine solche Daumenregel gibt es zum Beispiel für die lineare Regression. Hier soll es keine standardisierten Residuen größer als 3 oder kleiner als -3 geben. Es dürfen höchstens 1 % der standardisierten Residuen größer als 2,5 oder kleiner als -2,5 sein. Und nur 5 % dürfen größer als 2 oder kleiner als -2 sein. (Field, 2013)
Alle Fälle, deren Residuen aus diesen Bereichen heraus fallen, kannst Du anhand dieser Regel aus der Analyse heraus nehmen und das Modell nochmals rechnen.
Referenz:
Andy Field, Discovering Statistics Using SPSS, 4. Auflage, Sage 2013.
Bildnachweis: pixabay.com Natalia_Kollegova
Ich bin Statistik-Expertin aus Leidenschaft und bringe Dir auf leicht verständliche Weise und anwendungsorientiert die statistische Datenanalyse bei. Mit meinen praxisrelevanten Inhalten und hilfreichen Tipps wirst Du statistisch kompetenter und bringst Dein Projekt einen großen Schritt voran.
Liebe Daniela,
danke für deine hilfreichen Antworten.
Was sagst du zu dem Vorgehen, einen gepaarten Wilcoxon-Test mit und ohne Ausreißer zu rechnen und dabei Bootstrapping zu verwenden, um zu schauen, inwieweit die Konfidenzintervalle unterschiedlich sind? Und somit zu schauen, ob Ausreißer die Teststatistik stark beeinflussen.
Oder ist Bootstrapping hier „unnötig“?
Liebe Grüße und danke, Lena
Hallo Lena,
beim Wilcoxon-Test ist das beides nicht nötig. Der ist ja nichtparametrisch und somit stören Ausreißer hier nicht.
LG Daniela
Hallo Daniela,
Ich habe eine Untersuchung zur Menge an Sport, die Menschen vor und nach einem Klinikaufenthalt treiben, durchgeführt und habe dort sehr sehr viele Ausreißer und insgesamt keine normalverteilte Stichprobe. Allerdings ist sie mit 250 Datenpunkten recht groß. Ich habe für alle Analysen jetzt nicht-parametrische Tests verwendet. Sollte ich Ausreißer löschen, oder inhaltlich begründen warum ich sie drinnen gelassen habe? und wenn ich sie besser löschen sollte, dann nach welchen Kriterien?
Ich dachte eigentlich ich wäre fertig mit der Arbeit und muss in 10 Tagen abgeben. jetzt ist mir das ganze erst aufgefallen…
LG Rosa
Hallo Rosa,
wenn du nicht-parametrisch arbeitest, haben die Ausreißer keinen Einfluss auf das Ergebnis. Es sind dann einfach die größten (oder kleinsten) Messwerte. Aber sie verzerren das Ergebnis dann nicht. Lass sie also drin.
Anders wäre es, wenn die Daten inhaltlich nicht passen (z.B. Tippfehler, unrealistische Werte), aber ich denke, das ist hier nicht der Fall.
LG Daniela
Hallo Daniela, vielen Dank für die tolle Erklärung zu Ausreißern! Ich habe aktuell folgendes Problem: Ich habe mittels Boxplots auf Ausreißer überprüft und als Ergebnis zeigen sich neun leichte und elf extreme Ausreißer. Ich möchte eine gemischte ANOVA rechnen und weiß nun nicht so richtig weiter, da diese ja recht anfällig gegenüber Ausreißern sein kann. Alle meine elf Ausreißer stammen aus einer meiner zwei Gruppen und ich habe die Vermutung, dass es sich um echte Ausreißer handelt, weshalb ich die Daten eigentlich gerne drinlassen würde. Die Voraussetzung auf Normalverteilung der Residuen ist außerdem gegeben. Würde ich die elf Extremfälle entfernen würde meine Gruppe zu klein werden und ich dadurch natürlich an Power verlieren. Kann ich das rechtfertigen meine Ausreißer drinzulassen?
Hallo Fenja,
wenn die Normalverteilung gegeben ist, dann sind das vermutlich keine extremen Ausreißer, oder? Denn die würden ja auch eine Normalverteilung stören.
Dass aber alle Ausreißer aus einer einzelnen Gruppe sind, ist schon auffällig. Das passt alles für mich nicht so gut zusammen. Ich würde hier also nochmal genauer untersuchen, woran es liegt und ob du vielleicht doch eine andere Möglichkeit hast (Transformieren, einfachere Analyse auf Differenzwerten oder nicht-parametrisch rechnen auf Differenzwerten, oder Bootstrapping, wenn der Datensatz groß genug ist)…
LG Daniela
Hallo…
Ich habe ein Problem mit den Ausreißer der Residuen in einer multiplen linearen Regression. In der Fallweisen Diagnose werden mir 5 Ausreißer angezeigt, zwei davon sind über dem Grenzwert (3,612 und 3,192) wenn ich die entsprechenden Fälle ausschließen wird allerdings beim Regressionskoeffizienten einer Variable ein Wert (9,785 e-5) angezeigt. Ich verstehe das nicht, da es sich hierbei nur um 2 Fälle von mehreren tausend handelt und ich auch nicht weiß was mir diese Angabe bei dem Regressionskoeffizienten sagen soll…kannst du mir hier weiterhelfen?
Hallo Eva,
der Wert 9,785 e-5 bedeutet: 9,785*10^-5, also 0,00009785.
Wie war denn der Wert vor Ausschluss dieser Fälle?
LG Daniela
P.S.: Wenn Du mehr zur Statistik von mir lernen willst, dann schau Dir mein Angebot der Statistik-Akademie an: https://statistik-und-beratung.de/mitgliederbereich-lp/
Hallo Daniela,
ich möchte eine lineare Regression rechnen und habe mittels fallweiser Diagnose festgestellt, dass bei mehr etwas mehr als 5% bzw. 1% der Fälle die Residuen über 2/2.5 liegen. Würde man nun einfach die Fälle mit den höchsten Residuen ausschließen so lange bis eben nur noch 5%/1% der Fälle in diesem bereich liegen? Leider habe ich auch das Problem, dass teilweise weder NV der Residuen, noch Homoskedastizität vorliegt. Wäre als alternatives Verfahren dann eher bootstrapping oder eine robuste Regression angebracht?
Vielen Dank für deine Antwort.
Christina
Hallo Christina,
ja, so könntest Du vorgehen. Aber es kann passieren, dass dadurch immer neue Ausreißer auftreten.
Da Du sowieso noch andere Probleme mit den Voraussetzungen hast, würde ich anders herangehen und erstmal versuchen, die Variablen zu transformieren, um Normalverteilung zu erzeugen. Vielleicht lösen sich damit die anderen Probleme auch. Falls das nichts nützt, dann kannst Du auch immernoch ein Bootstrapping anwenden.
LG Daniela
P.S.: Wenn Du mehr zur Statistik von mir lernen willst, dann schau Dir mein Angebot der Statistik-Akademie an: https://statistik-und-beratung.de/mitgliederbereich-lp/
Hallo Daniela,
Ich möchte gerne eine Pearson’s Korrelation rechnen (zwei metrische Variablen). Normalverteilung ist nicht gegeben, aber das N ist sehr groß und daher ist die Voraussetzungsverletzung (so hoffe ich) vernachlässigbar. Ich habe einige auch extreme Ausreißer dabei. Allerdings sind diese plausibel, also nicht auf irgendwelche Fehler zurückführbar. Kann ich nun einfach zusätzlich zu Pearson Bootstrapping wegen den Ausreißern verwenden? Oder würdest du mir eher den nicht-parameterischen Spearman empfehlen?
Viele liebe Grüße
Lina
Hallo Lina,
ja, hier hast Du beide Möglichkeiten: nicht-parametrisch oder Bootstrapping. Hilft beides. Sowohl wegen der Nicht-Normalverteilung als auch gegen die Ausreißer.
LG Daniela
P.S.: Wenn Du regelmäßig Deine Fragen an mich loswerden willst und viele ausführliche Infos, Videos, Tutorials und Lernmaterial für Deine Datenanalyse suchst, dann komm in die Statistik-Akademie: https://statistik-und-beratung.de/mitgliederbereich-lp/