Die logistische Regression wird gerechnet, wenn der Einfluss von Faktoren auf eine dichotome abhängige Variable untersucht werden soll. Dabei können die Faktoren metrisch oder kategorial sein.

Im Gegensatz zur linearen Regression hat die logistische Regression nicht ganz so viele Voraussetzungen. Dennoch ist es wichtig, die Voraussetzungen zu prüfen, denn nur wenn sie erfüllt sind, darf das Ergebnis der logistischen Regression verwendet werden.

In diesem Blogbeitrag liste ich Dir die Voraussetzungen auf. Zudem sage ich Dir, wie Du diese Voraussetzungen mit SPSS prüfen kannst (leider ist das in SPSS teils etwas umständlich).

1. Keine Ausreißer

Das logistische Regressionsmodell sollte keine Ausreißer aufweisen. Es sollte also keine Beobachtungen geben, die sehr schlecht zum gerechneten Modell passen.

Dafür betrachtest Du die standardisierten Residuen des Modells und überprüfst, dass es keine Werte größer als 3 oder kleiner als -3 gibt. Zudem sollte es nur wenige Werte (maximal 1 bis 5 %) größer als 2 oder kleiner als -2 geben. Dafür ist es natürlich notwendig, das erstmal das Modell gerechnet wurde. Du führst also erstmal die logistische Regression durch und betrachtest danach die standardisierten Residuen.

In SPSS kannst Du bei der Durchführung der logistischen Regression unter dem Button Optionen ein Häkchen setzen bei „Fallweise Auflistung der Residuen, Ausreißer außerhalb 2 Std.abw.“. Damit bekommst Du eine Liste aller Fälle, deren standardisierte Residuen größer als 2 oder kleiner als -2 sind. Damit kannst Du dann entscheiden, ob die oben genannte Voraussetzung erfüllt ist.

2. Keine Multikollinearität

Wenn Du 2 oder mehr metrische Faktoren in Deinem Modell hast, musst Du prüfen, ob Multikollinearität vorliegt. Multikollinearität bedeutet, dass die Faktoren zu stark miteinander korrelieren, damit erklären Sie den gleichen Anteil an Streuung in Deinen Daten. In diesem Fall sind die Ergebnisse der logistischen Regression nicht verlässlich. Das musst Du also vermeiden. Dazu hast Du verschiedenen Möglichkeiten:

  1. Berechne die bivariaten Korrelationen zwischen den Faktoren. Sind die Korrelationskoeffizienten betragsmäßig kleiner als 0,8, so besteht keine Gefahr von Multikollinearität.
  2. Berechne VIF (Varianzinflationsfaktor) und den Konditionsindex. Ist der VIF kleiner als 5 und der größte Konditionsindex kleiner als 30, so besteht keine Gefahr von Multikollinearität.

Die Berechnung von VIF und Konditionsindex sind leider nicht in der Durchführung der logistischen Regression in SPSS vorgesehen. Sie sind aber über das Menü der linearen Regression erreichbar. Und dieses Menü kannst Du hierfür auch nutzen. Um also VIF und Konditionsindex für Dein Modell der logistischen Regression mit SPSS zu berechnen, führst Du eine lineare Regression (mit den gleichen Variablen, die Du für die logistische verwendest) durch. Über den Button „Statistiken“ aktivierst Du „Kollinearitätsdiagnose“. Alle anderen Werte benötigst Du nicht. In den Ergebnissen liest Du hier dann lediglich die VIF-Werte und den Konditionsindex ab. Alle anderen Ergebnisse der linearen Regression ignorierst Du. Die sind nicht geeignet, da Du ja ein dichotomes Outcome hast und eine logistische Regression rechnen willst.

3. Linearität des Logits

Wenn Du metrische Faktoren hast, ist es notwendig zusätzlich zu prüfen, ob für diese Faktoren die Linearität des Logits vorliegt, das heißt, ob es eine lineare Beziehung zwischen dem metrischen Faktor un dem Logit (Log-Funktion) der abhängigen Variable gibt. Um das zu prüfen, tust Du folgendes:

  1. Berechne für jeden metrischen Faktor x eine neue Variable, indem Du diese metrische Variable mit dem Logarithmus transformierst. Diese neue Variable nenne ich nun ln(x).
  2. Führe nun eine neue logistische Regression durch (oder mehrere, für jeden metrischen Faktor eine eigene). Als abhängige Variable verwendest Du die dichotome abhängige Variable, die Du auch in Deinem eigentlichen Modell hast. Als Faktoren verwendest Du:
    • den metrischen Faktor: x
    • die Interaktion zwischen x und der Logtransformation dieses Faktors: x*ln(x)
  3. In den Ergebnissen kontrollierst Du dann die Signifikanz dieser Interaktion x*ln(x). Die Interaktion soll nicht signifikant sein, damit die Voraussetzung der Linearität des Logits erfüllt ist.

Quellen:

  • B. Tabachnick, L. Fidell: Using Multivariate Statistics, 6. Edition, 2014, Pearson.
  • A. Field: Discovering Statistics Using SPSS, 4. Edition, 2013, Sage.