Der Begriff Robustheit wird in der Statistik in verschiedenen Zusammenhängen gebraucht, beispielsweise bei Schätzern oder bei statistischen Tests. In allen Fällen geht es darum, dass die Methode auch bei geänderter Ausgangslage zuverlässig bleibt. Im folgenden erkläre ich den robusten Schätzer und die Robustheit von statistischen Tests.

Robuster Schätzer

Ein statistisches Maß ist robust, wenn es nicht sehr von Ausreißern beeinflusst wird.

Beispielsweise ist als Lagemaß der Median robust gegen Ausreißer. Der Median ist die mittlere Beobachtung der Daten, oder auch das 50 %-Quantil. Da er sich nicht aus den einzelnen gemessenen Werten berechnet, sondern der Wert der mittleren Beobachtung ist, wird er durch Ausreißer nach oben oder unten kaum beeinflusst.

Anders ist das beim Mittelwert (arithmetisches Mittel), der auch ein Lagemaß ist. Er berechnet sich als Durchschnitt aus allen Beobachtungen und ist deshalb anfällig für Ausreißer.

Ein Beispiel:

Sie messen die Herzfrequenz von 5 Patienten und erhalten folgende Messwerte: 82, 85, 79, 130 und 84 bpm. Als Median erhalten Sie als mittlere Beobachtung 84 bpm. Dieser Wert beschreibt gut die Lage der (meisten) Daten. Der Mittelwert ist 92 bpm. Er liegt außerhalb des Bereichs, wo die meisten Daten liegen. Beschreibt deshalb die Lage der Daten nicht gut. Der Grund ist der extreme Ausreißer bei 130 bpm.

Um Ihre Daten richtig einschätzen zu können, macht es Sinn, beide Lagemaße (Median und  Mittelwert) auszurechnen. Im Vergleich der beiden Lagemaße werden Sie auf Unregelmäßigkeiten wie Ausreißer aufmerksam und können darauf entsprechend reagieren.

Ein weiteres robustes Lagemaß ist das getrimmte Mittel. Ein robustes Streumaß ist beispielsweise der MAD (Median absolute deviation).

 

Du willst mehr Durchblick im Statistik-Dschungel?

Robuster Test

Auch ein Test (eine statistische Methode) kann als robust bezeichnet werden. Das bedeutet dann, dass er robust auf Verletzungen der Voraussetzungen reagiert. Das heißt also, er bleibt auch zuverlässig, wenn die Voraussetzungen (z.B. Normalverteilung) nicht oder nicht vollständig zutreffen.

Beispielsweise gilt die Varianzanalyse als robust auf Abweichungen von der Normalverteilung und heterogene Varianzen. Das haben Simulationen gezeigt. Laut Bortz (2005) reagiert die Varianzanalyse robust auf die Verletzung dieser beiden Voraussetzungen, wenn die Stichprobengrößen in den Gruppen groß (mindestens 10 in jeder Gruppe) und gleich groß sind.

Literatur:
Jürgen Bortz, Statistik für Human- und Sozialwissenschaftler, 6. Auflage, Springer Verlag, 2005.
Lothar Sachs, Angewandte Statistik, Springer Verlag, 1999.