Robuster Schätzer
Ein statistisches Maß ist robust, wenn es nicht sehr von Ausreißern beeinflusst wird.
Beispielsweise ist als Lagemaß der Median robust gegen Ausreißer. Der Median ist die mittlere Beobachtung der Daten, oder auch das 50 %-Quantil. Da er sich nicht aus den einzelnen gemessenen Werten berechnet, sondern der Wert der mittleren Beobachtung ist, wird er durch Ausreißer nach oben oder unten kaum beeinflusst.
Anders ist das beim Mittelwert (arithmetisches Mittel), der auch ein Lagemaß ist. Er berechnet sich als Durchschnitt aus allen Beobachtungen und ist deshalb anfällig für Ausreißer.
Ein Beispiel:
Sie messen die Herzfrequenz von 5 Patienten und erhalten folgende Messwerte: 82, 85, 79, 130 und 84 bpm. Als Median erhalten Sie als mittlere Beobachtung 84 bpm. Dieser Wert beschreibt gut die Lage der (meisten) Daten. Der Mittelwert ist 92 bpm. Er liegt außerhalb des Bereichs, wo die meisten Daten liegen. Beschreibt deshalb die Lage der Daten nicht gut. Der Grund ist der extreme Ausreißer bei 130 bpm.
Um Ihre Daten richtig einschätzen zu können, macht es Sinn, beide Lagemaße (Median und Mittelwert) auszurechnen. Im Vergleich der beiden Lagemaße werden Sie auf Unregelmäßigkeiten wie Ausreißer aufmerksam und können darauf entsprechend reagieren.
Ein weiteres robustes Lagemaß ist das getrimmte Mittel. Ein robustes Streumaß ist beispielsweise der MAD (Median absolute deviation).
Du willst mehr Durchblick im Statistik-Dschungel?
Robuster Test
Auch ein Test (eine statistische Methode) kann als robust bezeichnet werden. Das bedeutet dann, dass er robust auf Verletzungen der Voraussetzungen reagiert. Das heißt also, er bleibt auch zuverlässig, wenn die Voraussetzungen (z.B. Normalverteilung) nicht oder nicht vollständig zutreffen.
Beispielsweise gilt die Varianzanalyse als robust auf Abweichungen von der Normalverteilung und heterogene Varianzen. Das haben Simulationen gezeigt. Laut Bortz (2005) reagiert die Varianzanalyse robust auf die Verletzung dieser beiden Voraussetzungen, wenn die Stichprobengrößen in den Gruppen groß (mindestens 10 in jeder Gruppe) und gleich groß sind.
Literatur:
Jürgen Bortz, Statistik für Human- und Sozialwissenschaftler, 6. Auflage, Springer Verlag, 2005.
Lothar Sachs, Angewandte Statistik, Springer Verlag, 1999.
Ich bin Statistik-Expertin aus Leidenschaft und bringe Dir auf leicht verständliche Weise und anwendungsorientiert die statistische Datenanalyse bei. Mit meinen praxisrelevanten Inhalten und hilfreichen Tipps wirst Du statistisch kompetenter und bringst Dein Projekt einen großen Schritt voran.
Hallo,
ich habe eine Frage wegen Chi-quadrat.
Wenn man chi-quadrat berechnet, sollte man dazu noch eine Tabelle machen, damit es übersichtlicher wird, oder es reicht nur mit den Ergebnisse?
Vielen Dank !
Liebe Grüße;
Mónica
Hallo MÓnica,
Eigentlich reichen die Ergebnisse bei Chi² aus. Solltest du dies aber für andere darstellen, die nichts mit den Werten und deren Bedeutung anfangen können wäre eine Erläuterung ganz hilfreich.
Liebe Grüße
Theresa
Liebe Frau Keller,
ich habe eine Frage: In meiner Datenauswertung liegen Mittelwert und Median auf einer 5er Skala sehr nah beieinander: Beispiel: M=3,62 und Mdn=3,8, gibt es eine Faustregel ab wann man von einer Normalverteilung bzw. Symmetrie sprechen kann? Welche Hinweise bietet mir dieser Vergleich bezüglich der Interpretation noch?
Beste Grüsse,
Mila
Hallo Mila,
ich kenne keine Regel, ab welcher Abweichung von Median und Mittelwert man nicht mehr von Symmetrie sprechen kann. Die beiden von dir genannten Werte sind aber relativ nah beieinander. Da könntest du also den Mittelwert zur Beschreibung der Daten nehmen.
Für die Prüfung auf Normalverteilung solltest du stattdessen Q-Q-Diagramme erstellen.
Schöne Grüße
Daniela
Hallo Frau Keller,
ich habe nicht normalverteilte Daten und rechne logistische Regressionen. Eigentlich soll man sich die normalisierten Residuen ansehen und bei Ausreißern ( empfohlen wird sich Werte über 2,5 nochmal genau anzusehen) zu entscheiden, ob man diese rausnimmt. Im Falle nicht normalverteilter Daten sind die normalisierten Residuen aber zu anfällig oder? Ist es sinnvoller Median +/- 4MAD als Kriterium heranzuziehen? Allerdings weiß ich, dass alle Ausreißer realistisch und korrekt gemessen sind, kann ich dann Ausreißer einfach hinnehmen? Würde ich sie löschen, würde das ja ebenfalls die Daten verzerren.
Vielen Dank für Ihren sehr hilfreichen Blog,
Lisa
Hallo Lisa,
ob die Daten normalverteilt sind oder nicht ist für die logistische Regression nicht so wichtig. Wie du richtig geschrieben hast, sind die Ausreißer relevant. Wenn du Ausreißer siehst, die allerdings als Fälle in deine Stichprobe passen, dann kannst du sie in den Daten lassen. Wenn du Ausreißer hast, ist das aber ein Zeichen für eine schlechte Güte. Eventuell passt das Modell insgesamt nicht gut auf die Daten?
Schöne Grüße
Daniela
Hallo Frau Keller,
gibt es denn auch Fälle, in denen der Median wirklich gar keinen Sinn macht?
Also, wenn es hauptsächlich um die Beschreibung von metrischen Daten geht die nicht ganz nv sind und auch ein paar Ausreißer bzw. Extremwerte haben, kann man doch mit dem Median nichts falsch machen. Richtig?
Der passt doch auch zu nicht parametrischen Testverfahren (Kruskal-Wallis & Mann-Whitney) besser als das arithmetische Mittel, oder?
Viele Grüße
Sarah
Hallo Sarah,
nein, der Median passt eigentlich immer. Wenn die Daten normalverteilt sind und/oder symmetrisch, dann ist der Median ungefähr gleich dem Mittelwert.
Und ja, der Median passt besser zu den nicht-parametrischen Verfahren als das arithmetische Mittel.
Trotzdem kann natürlich das arithmetische Mittel berechnet und angegeben werden (wie ich das in einem anderen Kommentar kürzlich gesagt habe). Das wird oft einfach gemacht, weil es geläufiger ist. Ich würde aber den Median vorziehen.
Schöne Grüße
Daniela