Die logistische Regression wird gerechnet, wenn der Einfluss von Faktoren auf eine dichotome abhängige Variable untersucht werden soll. Dabei können die Faktoren metrisch oder kategorial sein.
Im Gegensatz zur linearen Regression hat die logistische Regression nicht ganz so viele Voraussetzungen. Dennoch ist es wichtig, die Voraussetzungen zu prüfen, denn nur wenn sie erfüllt sind, darf das Ergebnis der logistischen Regression verwendet werden.
In diesem Blogbeitrag liste ich Dir die Voraussetzungen auf. Zudem sage ich Dir, wie Du diese Voraussetzungen mit SPSS prüfen kannst (leider ist das in SPSS teils etwas umständlich).
1. Keine Ausreißer
Das logistische Regressionsmodell sollte keine Ausreißer aufweisen. Es sollte also keine Beobachtungen geben, die sehr schlecht zum gerechneten Modell passen.
Dafür betrachtest Du die standardisierten Residuen des Modells und überprüfst, dass es keine Werte größer als 3 oder kleiner als -3 gibt. Zudem sollte es nur wenige Werte (maximal 1 bis 5 %) größer als 2 oder kleiner als -2 geben. Dafür ist es natürlich notwendig, das erstmal das Modell gerechnet wurde. Du führst also erstmal die logistische Regression durch und betrachtest danach die standardisierten Residuen.
In SPSS kannst Du bei der Durchführung der logistischen Regression unter dem Button Optionen ein Häkchen setzen bei „Fallweise Auflistung der Residuen, Ausreißer außerhalb 2 Std.abw.“. Damit bekommst Du eine Liste aller Fälle, deren standardisierte Residuen größer als 2 oder kleiner als -2 sind. Damit kannst Du dann entscheiden, ob die oben genannte Voraussetzung erfüllt ist.
2. Keine Multikollinearität
Wenn Du 2 oder mehr metrische Faktoren in Deinem Modell hast, musst Du prüfen, ob Multikollinearität vorliegt. Multikollinearität bedeutet, dass die Faktoren zu stark miteinander korrelieren, damit erklären Sie den gleichen Anteil an Streuung in Deinen Daten. In diesem Fall sind die Ergebnisse der logistischen Regression nicht verlässlich. Das musst Du also vermeiden. Dazu hast Du verschiedenen Möglichkeiten:
- Berechne die bivariaten Korrelationen zwischen den Faktoren. Sind die Korrelationskoeffizienten betragsmäßig kleiner als 0,8, so besteht keine Gefahr von Multikollinearität.
- Berechne VIF (Varianzinflationsfaktor) und den Konditionsindex. Ist der VIF kleiner als 5 und der größte Konditionsindex kleiner als 30, so besteht keine Gefahr von Multikollinearität.
Die Berechnung von VIF und Konditionsindex sind leider nicht in der Durchführung der logistischen Regression in SPSS vorgesehen. Sie sind aber über das Menü der linearen Regression erreichbar. Und dieses Menü kannst Du hierfür auch nutzen. Um also VIF und Konditionsindex für Dein Modell der logistischen Regression mit SPSS zu berechnen, führst Du eine lineare Regression (mit den gleichen Variablen, die Du für die logistische verwendest) durch. Über den Button „Statistiken“ aktivierst Du „Kollinearitätsdiagnose“. Alle anderen Werte benötigst Du nicht. In den Ergebnissen liest Du hier dann lediglich die VIF-Werte und den Konditionsindex ab. Alle anderen Ergebnisse der linearen Regression ignorierst Du. Die sind nicht geeignet, da Du ja ein dichotomes Outcome hast und eine logistische Regression rechnen willst.
3. Linearität des Logits
Wenn Du metrische Faktoren hast, ist es notwendig zusätzlich zu prüfen, ob für diese Faktoren die Linearität des Logits vorliegt, das heißt, ob es eine lineare Beziehung zwischen dem metrischen Faktor un dem Logit (Log-Funktion) der abhängigen Variable gibt. Um das zu prüfen, tust Du folgendes:
- Berechne für jeden metrischen Faktor x eine neue Variable, indem Du diese metrische Variable mit dem Logarithmus transformierst. Diese neue Variable nenne ich nun ln(x).
- Führe nun eine neue logistische Regression durch (oder mehrere, für jeden metrischen Faktor eine eigene). Als abhängige Variable verwendest Du die dichotome abhängige Variable, die Du auch in Deinem eigentlichen Modell hast. Als Faktoren verwendest Du:
- den metrischen Faktor: x
- die Interaktion zwischen x und der Logtransformation dieses Faktors: x*ln(x)
- In den Ergebnissen kontrollierst Du dann die Signifikanz dieser Interaktion x*ln(x). Die Interaktion soll nicht signifikant sein, damit die Voraussetzung der Linearität des Logits erfüllt ist.
Quellen:
- B. Tabachnick, L. Fidell: Using Multivariate Statistics, 6. Edition, 2014, Pearson.
- A. Field: Discovering Statistics Using SPSS, 4. Edition, 2013, Sage.
Ich bin Statistik-Expertin aus Leidenschaft und bringe Dir auf leicht verständliche Weise und anwendungsorientiert die statistische Datenanalyse bei. Mit meinen praxisrelevanten Inhalten und hilfreichen Tipps wirst Du statistisch kompetenter und bringst Dein Projekt einen großen Schritt voran.
Hallo Daniela Keller,
ich habe ziemliche Probleme bei der Wahl des richtigen statistischen Verfahrens bei der Auswertung von Daten, vielleicht können Sie mir weiterhelfen.
Es handelt sich um eine Korrelationsstudie. Ich habe 3 Variablen erhoben, bei einer davon handelt es sich um eine dichotome Variable.
1. Kann ich die logistische Regression anwenden, auch wenn keine Variable manipuliert wurde (also ohne eine Kausalitätshypothese)?
2. Kann ich in einer Korrelationsstudie die Hypothese aufstellen, dass eine Variable davon der Moderator ist oder geht das nur bei Kausalitätshypothesen?
Über einen kleinen Tipp wäre ich sehr dankbar!
Freundliche Grüße
Hallo Kristina,
wenn es keine kausale Richtung in Deinen Hypothesen gibt, dann passt die logistische Regression nicht so gut. Stattdessen kannst Du für den Zusammenhang zwischen dichotom und metrisch z.B. die punktbiserielle Korrelation verwenden (oder einfach einen Test auf Lageunterschied) und für die beiden metrischen die Korrelation.
Statt der Moderationsanalyse würde ich (zumindest wenn die dichotome der Moderator sein soll) die Korrelation zwischen den beiden metrischen auf den Teildatensätzen – eingeteilt nach der dichotomen – rechnen.
Liebe Grüße
Daniela
Liebe Frau Keller,
mich würde interessieren wie „robust“ die logistische Regression gegenüber Voraussetzungsverletzungen ist, und zwar was die Stichprobengröße angeht. Ich hab da unterschiedliches gelesen (mind. 100, mind. 50, abhängig auch von der Anzahl der Kovariaten) – ich hab nämlich eine Stpr. von 46 die ich gern so untersuchen möchte.
Daher frag ich mich nun, ob nach diesen „Faustregeln“ die Berechnung dann überhaupt noch Sinn macht oder einfach nur unter Vorbehalt bzw. vorsichtig interpretiert werden sollte.
MfG Nicolai C.
Hallo Nicolai,
mir sind keine Untersuchungen bekannt, die die Robustheit der Voraussetzungen hier in Beziehung zur Fallzahl gebracht haben. Bei der logistischen Regression ist es vielmehr so, dass die Anzahl genügend groß sein muss, um der Komplexität des Modells (Anzahl von Prädiktoren, Anzahl von Kategorien usw) gerecht zu werden.
Schöne Grüße
Daniela
Hallo Daniela,
ich sitze an meiner Masterarbeit und habe mich durch zu viele Information etwas verwirren lassen. Ich stelle mir gerade die Fragen ob die Skalenniveaus für eine lineare Regression gleich seinen müssen? Ganz konkret:
Ich gehe Hypothesen generierend vor und möchte herausfinden, ob Stigmaerfahrungen (mittels fünfstufiger Liktert-Skala erfasst) einen Einfluss auf die Offenbarung von chronischen Erkrankungen am Arbeitsplatz hat (Im Kern geht es darum, ob die Testperson über die Erkrankung am Arbeitsplatz gesprochen hat oder nicht, dazu haben ich zwei Antwortoption: Ja oder nein).
Kann ich in dem Fall die lineare Regression rechnen?
Danke vorab.
Viele Grüße
Laura
Hallo Laura,
wenn die abhängige Variable dichotom ist, so wie bei Dir beschrieben, dann rechnest Du eine logistische Regression, keine lineare.
Schöne Grüße
Daniela
Hallo!
Ich habe eine Frage zur Voraussetzungs-Testung Linearität in der logistischen Regression. Wenn ich testen möchte, ob es einen linearen Zusammenhang zwischen dem Logit der AV und der metrischen UV gibt, warum rechnet man dann keine Regression der metrischen UV auf den logit der AV (Also UV: metrisch AV: LogAv)? Was ist denn der Sinn dabei die Signifikanz einer Interaktion der logarithmierten metrischen UV mit der metrischen UV auf die AV zu untersuchen?
Vielen Dank!
Top Seite im übrigen 🙂
Hallo Jakob,
es geht hier um den Logarithmus des Verhältnisses der Wahrscheinlichkeiten, das eine oder andere Outcome zu haben. Deshalb kann man das nicht einfach mit Log(AV) rechnen.
Du findest das genauer in Tabachnick & Fidell, Using Multivariate Statistics, Pearson, 2014, S. 489.
Sie nennen dort mehrere Möglichkeiten und beschreiben die von mir erklärte (Interaktion der log(UV) mit UV) als die einfachste. Diese Methode heißt auch Box-Tidwell-Ansatz.
Schöne Grüße
Daniela
Hallo,
vielen Dank für den hilfreichen Beitrag.
Meine Frage ist jedoch welches alternative Verfahren ich nutzen kann, wenn die Voraussetzungen für die logistische Regression eben nicht erfüllt sind? Gibt es robuste Alternativen oder auf welches Verfahren muss ich ausweichen?
Können Sie mir damit weiterhelfen?
Vielen Dank im Voraus,
Elisa
Hallo Elisa,
welche Voraussetzungen sind denn nicht erfüllt bei Dir? Bei Ausreißern oder fehlender Loglinearität kann eine Transformation vorab helfen, oder Du verwendest Bootstrapping. Bei Multikollinearität musst Du einen Prädiktor weglassen.
LG Daniela
P.S.: Wenn Du regelmäßig Deine Fragen an mich loswerden willst und viele ausführliche Infos, Videos, Tutorials und Lernmaterial für Deine Datenanalyse suchst, dann komm in die Statistik-Akademie: https://statistik-und-beratung.de/mitgliederbereich-lp/
„die Interaktion zwischen x und der Logtransformation dieses Faktors: x*ln(x)
In den Ergebnissen kontrollierst Du dann die Signifikanz dieser Interaktion x*ln(x). Die Interaktion soll nicht signifikant sein, damit die Voraussetzung der Linearität des Logits erfüllt ist.“
Liebe Daniela,
Unter welchem Punkt der Ergebnisse würde ich diese Interaktion finden? Es werden mir einige Tabellen mit verschiedenen Signoikanzniveaus angegeben….
Ich habe bei SPSS Regression > logistisch binär > abhängige Variable: meine dichotome abhängige Variable ausgewählt und für die Faktoren x und ln(x)
Was das der richtige Pfad?
LG Friederike
PS: super Seite und Videos!! Danke !!!
Hallo Friederike,
Du musst die Interaktion aus x und ln(x) mit aufnehmen: Beide links in der Variablenliste markieren und dann auf den Button „a*b“ klicken.
Danke für das Feedback! Freut mich, dass es Dir gefällt! 🙂
LG Daniela
P.S.: Wenn Du regelmäßig Deine Fragen an mich loswerden willst und viele ausführliche Infos, Videos, Tutorials und Lernmaterial für Deine Datenanalyse suchst, dann komm in die Statistik-Akademie: https://statistik-und-beratung.de/mitgliederbereich-lp/
Hallo Daniela,
ich möchte gerne die Linearität des Logits prüfen, allerdings weisen meine Variablen auch negative Werte auf. Welche Transformation ist zulässig, damit ich die Variable Logarithmieren kann, um dann die Interaktion auf Signifikant zu testen?
Und was sind meine Möglichkeiten, wenn die Interaktion doch signifikant werden sollte? Gibt es Möglichkeiten, dass die Voraussetzung doch als erfüllt angesehen werden kann o.Ä.?
Vielen lieben Dank,
Mia
Hallo Mia,
bei negativen Werten musst Du vor der Transformation mit dem Logarithmus eine Konstante aufaddieren, so dass die mit dem Log transformierten Werte dann positiv sind.
Falls die Loglinearität nicht gegeben ist, kannst Du Deine metrische Variable transformieren und damit versuchen, Loglinearität zu erhalten.
Wenn Du mehr Deiner Fragen mit mir klären willst und aus einer großen Fülle an verständlich aufbereiteten Material von mir lernen willst, dann komm dich in die Statistik-Akademie: https://statistik-und-beratung.de/mitgliederbereich-lp/
LG Daniela
Liebe Daniela,
vielen Dank für deine Antwort!
Leider wird die Interaktion bei mir signifikant. Welche Transformationen der Variable wären denn möglich, um noch Loglinearität erreichen zu können?
Viele Grüße
Mia
Hallo Mia,
Transformationen musst man ausprobieren. Hier findest Du ein paar Hinweise dazu: https://statistik-und-beratung.de/2016/04/transformationen/
LG Daniela
P.S.: Wenn Du mehr Unterstützung suchst, komm doch gern in die Statistik-Akademie: https://statistik-und-beratung.de/mitgliederbereich-lp/
Liebe Daniela,
ich hoffe du kannst mir weiterhelfen. Ich habe ein Modell mit einer metrischen abhängigen Variable und 3 binären unabhängigen Variablen. Macht es in diesem Fall Sinn auf Multikollinearität zu prüfen? Die binären Variablen können ja garnicht miteinander korrelieren oder? Ich hab in Stata die VIF berechnet und es kommt überall 1.09 heraus in jeder Zeile.
LG Lisa
Hallo Lisa,
bei dichotomen Variablen gibt es selten Probleme mit Multikollinearität. Du kannst die VIF-Werte schon berechnen wie Du es gemacht hast. Die Werte sind ja niedrig, also (wie vermutet) kein Problem mit Multikollinearität.
LG Daniela
P.S.: Wenn Du umfangreiches Material zu statistischen Methoden suchst und Deine Fragen regelmäßig von mir beantwortet habe möchtest, dann komm gern in die Statistik-Akademie: https://statistik-und-beratung.de/mitgliederbereich-lp/
Hallo Daniela,
dein Beitrag hat mir wirklich geholfen! Leider bin ich aktuell noch etwas durcheinander, was die Prüfung der Voraussetzungen angeht. Ich habe eine dichotome abhängige Variable und drei intervallskallierte Variablen. Durch die Prüfung auf Mulitkollinearität würden alle drei Variablen entfallen (wenn beide Vorgehensweisen getestet werden). Bei der Prüfung des Logits würde keine entfallen. Gibt es noch ein anderes Verfahren, um deren Zusammenhang zu prüfen oder besteht einfach kein Zusammenhang zur abhängigen Variablen? Hätte ich die lineare Beziehung nicht mehr prüfen müssen, nachdem die Mulitkollinearität festgestellt wurde?
Ich hoffe du kannst mir helfen, denn langsam bin ich doch ein wenig am Verzweifeln.
Vielen Dank und beste Grüße
Kathrin
Hallo Kathrin,
es kann nicht sein, dass durch die Multikollinearität alle entfallen. Ich vermute Du meinst, dass alle drei so stark miteinander korrelieren, dass Du sie nicht zu dritt (und vermutlich auch nicht zu zweit) aufnehmen kannst, weil sonst Multikollinearität herrscht (VIF groß). Dieses Modell darfst Du dann nicht verwenden. Du wirst dann aber erstmal eine Variable weglassen und schauen, ob es dann geht (VIF klein genug). Wenn die VIF-Werte immer noch zu groß sind, arbeitest Du mit einer Variable weiter. Hier – im einfaktoriellen Modell – ist dann die Multikollinearität kein Thema mehr.
Wenn Du regelmäßig Antworten auf Deine Statistikfragen willst, dann komm gern in die Statistik-Akademie. Da findest Du ausführliche Videotutorials und Unterlagen von mir und im Forum und in drei Online-Treffen pro Monat klären wir alle Deine Statistikfragen schnell und zielführend. Hier kannst Du Dir mehr dazu durchlesen: https://statistik-und-beratung.de/mitgliederbereich-lp/
LG Daniela
Sehr geehrte Frau Keller,
im Rahmen einer Auswertung mit Zähldaten (Range: 1-7) habe ich mich basierend auf diversen internationalen Papern für die Poisson-Regression entschieden, da sich diese für Count-Daten etabliert hat.
Jedoch hänge ich derzeit an einem Formulierungsproblem bezüglich des nicht vorhandenen R² bzw. adjusted R² (Auswertung erfolgte in SPSS).
Wie genau lässt sich begründen, dass es kein Bestimmtheitsmaß (zumindest laut SPSS, aber auch aus der formaltechnischen Vorgehensweise) bei der Poisson-Regression gibt?
Viele Grüße
Elias
Hallo Elias,
wir können uns gern duzen!
Hier ist die Stellungnahme von SPSS zu diesem Thema: https://www.ibm.com/support/pages/can-r-squared-be-printed-generalized-linear-models-genlin-results
Es ist dort auch eine Literaturstelle genannt, nach der SPSS sich hier richtet.
Allerdings ist es schon so, dass in anderen Statistikprogrammen durchaus Pseudo-R-Quadrat-Werte für Poisson-Regressionen berechnet werden können.
LG Daniela
Hallo Daniela,
danke dir vielmals. Deine Anmerkungen helfen sehr.
Leider arbeite ich nur mit SPSS, gibt es denn eine Möglichkeit die Pseudo-R-Quadrate händisch zu berechnen anhand der gewonnen Daten in SPSS?
Viele Grüße
Elias
Hallo Elias,
in SPSS bekommst Du doch bei der logistischen Regression die Pseudo-R-Quadrate ausgegeben (Nagelkerke, Cox-Snell). Da hast Du sie doch dann schon.
Wenn Du regelmäßig Antworten auf Deine Statistikfragen und Zugang zu einer Menge super aufbereitetem Statistikmaterial, auch für SPSS, haben möchtest, dann komm in die Statistik-Akademie: https://statistik-und-beratung.de/mitgliederbereich-lp/
LG Daniela
Hallo Daniela,
vielen Dank für die super Tipps zum testen der Voraussetzungen!
Ich habe eine Frage zu der Linearität des Logits. Bei einer meiner unabhängigen Variablen ist der Moderator (ln(x)*x) nur zum 1% Signifikanzniveau nicht signifikant. Reicht das aus?
Vielen Dank schonmal für deine Hilfe,
Lisa
Hallo Lisa,
der p-Wert ist also unter 0,05, oder? (und über 0,01). Wenn 5 % Dein Signifikanzniveau ist (ist es ja meinst), ist er damit signifikant. Dann reicht das nicht aus.
LG Daniela
P.S.: Wenn Du mehr zur Statistik von mir lernen willst, dann schau Dir mein Angebot der Statistik-Akademie an: https://statistik-und-beratung.de/mitgliederbereich-lp/
Hallo Daniela! Ich hatte eigentlich vor eine logistische Regression in meiner Bachelor Arbeit zu rechnen mit vier unabhängigen Variablen und der Inanspruchnahme (ja/nein) als AV. Ich habe nun den Test auf Multikollinität gemacht. Leider korrelieren so ziemlich alle Variablen untereinander (sogar signifikant).
Was kann ich jetzt tun?
Es geht um die Einflüsse von Belastungen auf die Inanspruchnahme von Gesundheitskursen
Hallo Lisanne,
eine signifikante Korrelation ist kein Problem. Es sollte nur keine sehr starke sein. Als Daumenregel gilt r < 0,8. Außerdem kannst Du über die Varianzinflationsfaktoren noch genauer die Multikollinearität prüfen. Die sollten kleiner 5 sein. Wenn es dann wirklich Probleme mit Multikollinearität gibt, dann schließt Du einzelne problematische Variablen aus. LG Daniela P.S.: Wenn Du mehr zur Statistik von mir lernen willst, dann schau Dir mein Angebot der Statistik-Akademie an: https://statistik-und-beratung.de/mitgliederbereich-lp/
Hallo zusammen,
ich möchte die Zusammenhänge zwischen einer binären abhängigen Variablen und einer unabhängigen kategorialen Variablen (3 Kategorien) mit der logistischen Regression untersuchen. Kann die logistische Regression (in SPSS) hier ohne Weiteres auch in einem riesigen Datensatz (30.000.000 Dateninstanzen) angewendet werden?
Viele Grüße
Daniel
Hallo Daniel,
ja, die Größe ist methodisch kein Problem. Du musst nur bei der Interpretation aufpassen: Du wirst bei diesem großen Datensatz auch minimale Effekte schon als signifkant nachweisen können. Also schau unbedingt auch auf die Größe des Effekts und interpretiere das mit (Odds Ratio in dem Fall).
LG Daniela
Hi Daniela,
ich bräuchte für meine Abschlussarbeit eine Quelle, die ich angeben kann wenn es um die Ausreißer geht und dass man diese entfernen sollte.
Weißt du zufällig wo ich die finden kann?
Grüße
Hallo Leonie,
ja, das steht im Buch von Andy Field (Discovering Statistics Using SPSS, SAGE).
LG Daniela