In diesem Beitrag möchte ich dir zeigen, wie die Koeffizienten der linearen Regression interpretiert werden.

Mittels linearer Regression wird der lineare Zusammenhang zwischen einer Zielvariablen Y, im medizinischen Bereich z.B. der Blutdruck und einer oder mehreren Einflussvariablen X (Gewicht, Alter, Geschlecht…) untersucht. Die Zielvariable Y muss dabei stetig sein, die Einflussvariablen können stetig (Alter), binär (Geschlecht) oder kategorial (Sozialer Hintergrund) sein. Meist wird für die bivariaten (also paarweisen) Zusammenhänge zunächst ein Streudiagramm (Punktwolke) erstellt, wodurch sichtbar wird, ob es sich um einen linearen oder einen nichtlinearen Zusammenhang handelt. Bei einem linearen Zusammenhang kann man quasi eine Grade durch die Punktwolke ziehen.

● r = ± 1: perfekter linearer beziehungsweise monotoner Zusammenhang. Je näher r betragsmäßig bei 1 liegt, desto stärker ist der Zusammenhang.
● r = 0: kein linearer beziehungsweise monotoner Zusammenhang
● r < 0: negativer Zusammenhang
● r > 0: positiver Zusammenhang
 

Einfache lineare Regression

Das lineare Regressionsmodell beschreibt die Zielvariable durch eine Gerade Y = a + b × X, mit a = Achsenabschnitt und b = Steigung der Geraden. Zunächst werden aus den Werten der Zielvariablen Y und der Einflussvariablen X die Parameter a und b der Regressionsgerade mit Hilfe statistischer Methoden geschätzt. Die Gerade ermöglicht, Werte der Zielvariablen Y durch Werte der Einflussvariablen X vorherzusagen.

Wenn du eine einfache lineare Regression rechnest, hast du eine metrische abhängige Variable und einen metrischen Faktor (= unabhängige Variable). Im Ergebnis der Regression bekommst du dann den Regressionskoeffizienten (b) dieses Faktors. An ihm lässt sich  der Beitrag der Einflussvariablen X für die Erklärung der Zielgröße Y ablesen. Bei einer stetigen Einflussgröße (zum Beispiel Körpergröße in cm) beschreibt der Regressionskoeffizient die Veränderung der Zielvariablen (Körpergewicht in kg) pro Maßeinheit der Einflussvariablen (Körpergröße in cm). Du kannst den Regressionskoeffizienten also auch zur direkten Interpretation verwenden: Wenn der Faktor sich um eine Einheit ändert, dann ändert sich die abhängige Variable um b Einheiten.

Zudem erhält man einen p-Wert. An der Höhe und Richtung (positiv oder negativ) siehst du den Einfluss des Faktors auf die abhängige Variable: stark, schwach, positiv, negativ. Der p-Wert sagt dir zusätzlich, ob dieser Regressionskoeffizient sich signifikant von 0 unterscheidet, also ob der Einfluss signifikant ist.

Du willst mehr Durchblick im Statistik-Dschungel?

Multiple Regression

Oft reicht der Beitrag einer Variablen zur Erklärung der Zielvariablen Y nicht aus. In diesen Fällen ist es möglich, im Rahmen einer multiplen linearen Regression den gemeinsamen Einfluss mehrerer Variablen auf die Zielvariable zu untersuchen.
Die Zielvariable wird durch eine lineare Funktion
Y = a + b1× X1+ b2× X2+ …+ bn× Xn der erklärenden
Va r i a b l e n Xi beschrieben.
 
Y = Zielvariable
Xi= Einflussvariablen
a = Konstante, Schnittpunkt mit der y-Achse
bi= Regressionskoeffizient der Variablen Xi
 
Für jede Einflussgröße Xi schätzt man durch das Regressionsmodell einen Regressionskoeffizient bi.

In diesem Fall bekommst du für jeden Faktor einen Regressionskoeffizienten und einen p-Wert. Der p-Wert gibt dir wieder an, ob der Einfluss dieses Faktors auf die abhängige Variable signifikant ist. Den Regressionskoeffizienten kannst du wieder für die Linearkombination der Modellformel verwenden, bzw. ihn dir als Steigung in der Regressionsgeraden vorstellen. Ebenso kann er zur Interpretation des Einflusses verwendet werden. In diesem Fall beschreibt der Regressionskoeffizient von Faktor A nun die Änderung der abhängigen Variable, wenn sich Faktor A um eine Einheit ändert und gleichzeitig die anderen Faktoren / der andere Faktor im Modell konstant bleibt. Damit hast du also den Einfluss des Faktors A kontrolliert für den/die anderen Faktor(en).

Diese Interpretation der Regressionskoeffizienten als Änderung pro Einheit hängt von der Skalierung des Faktors ab. Deshalb ist es nicht sinnvoll, die unterschiedlichen Faktoren miteinander zu vergleichen, wenn sie unterschiedlich skaliert sind. Deshalb solltest du zum Vergleich der Faktoren nicht die „normalen“ Regressionskoeffizienten, sondern die standardisierten Regressionskoeffizienten verwenden. Diese sind anhand der Skala des Faktors standardisiert und deshalb untereinander vergleichbar. So kannst du dann z.B. sagen, welcher Faktor den größten Effekt hat.

Beispiel: „Atemfunktion“

Außer der Beschreibung des Zusammenhangs ist auch eine individuelle Prognose eines Patienten mit Hilfe des multiplen Regressionsmodells möglich. Es können beispielsweise Sollwerte für die Atemfunktion unter Berücksichtigung von Alter, Body-Mass-In-dex (BMI) und Geschlecht erstellt werden. Durch den Vergleich des ermittelten Wertes für einen Patienten mit dem Sollwert kann man Schlussfolgerungen hinsichtlich seines Gesundheitszustandes ziehen.

Bei der multiplen Regressionsanalyse ist das Ziel herauszufinden, welche der Faktoren tatsächlich einen Einfluss auf die Zielvariable haben. Es muss die Variable gefunden werden, die die Zielvariable am ehesten erklärt.
Ich hoffe ich konnte euch mit dem Beitrag weiter helfen und stehe wie immer gerne bei weiteren Fragen zur Verfügung.

Eine genaue schriftliche Anleitung zur Umsetzung der multiplen linearen Regression mit SPSS mit zahlreichen weiteren Infos und Tipps zu dieser Methode findest Du in diesem E-Book.