Sicher hast Du schon von der statistischen Signifikanz, von einem Signifikanztest oder sogar von der Teststärke oder Power eines Tests gehört. Vielleicht hast Du auch schon selbst Signifikanztests durchgeführt und sogar schon beim Beschreiben Deiner Ergebnisse von „statistisch signifikant“ gesprochen. 

Aber was genau bedeutet das? Und wie hängen Signifikanz und Teststärke zusammen?

Bei einem Signifikanztest wird eine Testentscheidung getroffen:

  • signifikanter p-Wert: Nullyhypothese wird abgelehnt oder
  • nicht signifikanter p-Wert: Nullhypothese wird nicht abgelehnt.

Diese Entscheidung kann falsch sein. Das nennt man Fehler beim statistischen Testen.

Es gibt zwei Arten von Fehlern beim statistischen Testen:

  • Fehler 1. Art oder alpha-Fehler
  • Fehler 2. Art oder beta-Fehler

Du willst mehr Durchblick im Statistik-Dschungel?

Der Fehler 1. Art passiert, wenn die Nullyhpothese in Wahrheit richtig ist, der Test sie aber ablehnt. Der Test zeigt also einen signifikanten Unterschied oder Zusammenhang, obwohl es in Wahrheit keinen gibt.

Der Fehler 2. Art tritt ein, wenn die Nullhypothese in Wahrheit falsch ist, der Test sie aber nicht ablehnt. Der Test sagt also, es gibt keinen signifikanten Unterschied oder Zusammenhang, obwohl es in Wahrheit einen gibt.

Der Fehler 1. Art (alpha) wird mit dem Signifikanzniveau kontrolliert. Das Signifikanzniveau wird meist mit 5 % (0,05) festgesetzt. Also wird ein p-Wert kleiner 0,05 als signifikant angesehen. Das bedeutet, man erlaubt sich bei diesem Test einen Fehler 1. Art in maximal 5 % der Fälle.

Der p-Wert wird von der Statistiksoftware direkt als Testergebnis ausgegeben. Basierend auf ihm wird die Entscheidung für oder gegen die Nullhypothese getroffen.

Der Fehler 2. Art (beta) wird normalerweise nicht direkt beim Testergebnis ausgegeben, lässt sich aber nach dem Test berechnen, z.B. mit der freien Software G*Power der Uni Düsseldorf.

Der Wert 1-beta wird auch Power oder Teststärke genannt. Die Teststärke ist ein Maß für die Fähigkeit des Tests, einen Unterschied bzw. Zusammenhang als signifikant nachzuweisen. Ab 80 % (beta < 0,2) wird meist von einer guten Teststärke gesprochen.