In komplexeren statistischen Modellen werden metrische Variablen häufig zentriert. Vielleicht hast du du das schonmal gesehen und dich gefragt, warum das gemacht wird. Vielleicht rechnest du auch selbst gerade so ein Modell und bist nicht sicher, ob und wie genau du die Zentrierung umsetzen sollst. In diesem Blogartikel klären wir diese Fragen.

Was ist eine Zentrierung in der Statistik?

Unter Zentrierung einer Variablen versteht man, dass man von den einzelnen Beobachtungen jeweils den Mittelwert der kompletten Variablen abzieht. Wenn du also eine (einfache Mittelwert-)Zentrierung durchführen willst, gehst du in zwei Schritten vor:

  1. Berechne den Mittelwert (arithmetisches Mittel) der Variablen: M
  2. Erstelle eine neue Variable, indem du von der Ursprungsvariable den Mittelwert abziehst: Y_i = X_i – M

Diese neue Variable Y hat dann den Mittelwert 0. Ansonsten bleiben die Eigenschaften der Ursprungsvariable X bestehen. Beispielsweise Verteilungsform, Ausreißer, Streuung, und Beziehungen zu anderen Variablen ändern sich nicht.

Zentrierung betrifft (meist) nur metrische Prädiktoren

Meistens werden metrische Prädiktoren (also unabhängige Variablen, auch Kovariaten im Modell) zentriert. Es ist auch (technisch) möglich die abhängige Variable zu zentrieren, aber das hat normalerweise keinen Nutzen und wird deshalb nicht gemacht.

Warum schreibe ich meist? Weil manchmal auch dichotome Variablen „zentriert“ werden. Auch wenn sich das dann für uns nicht wie eine Zentrierung anfühlt. Möglich ist es schon. Du kannst von einer dichotomen Variablen, die die Ausprägungen 0 und 1 hat, den Mittelwert abziehen.

Beispiel:

Du hast die Variable Arbeitslos erhoben mit den Ausprägungen 0 = nicht arbeitslos und 1 = arbeitslos. Dein Datensatz hat insgesamt 100 Fälle, davon haben 23 Personen 1 angegeben und 77 Personen 0.

Der „Mittelwert“ dieser Variablen ist (23*1 + 77*0)/100 = 0,23.

Wenn du eine neue, mittelwert-zentrierte Variable erstellst, hat diese die Ausprägungen -0,23 (nämlich bei den Personen, die zuvor eine 0 hatten) und 0,77 (bei den Personen, die zuvor eine 1 hatten).

Als Mittelwert der neuen Variablen ergibt sich (0,77*23 -0,23*77)/100 = 0.

Wozu werden Zentrierungen eingesetzt?

Es gibt verschiedene Gründe, warum Zentrierungen in komplexeren Modellen sinnvoll sein können. Der wichtigste Grund ist die bessere Interpretierbarkeit, vor allem der anderen Prädiktoren im Modell.

Verbesserung der Interpretierbarkeit der anderen Effekte

Eine Zentrierung der metrischen Prädiktoren führt dazu, dass die Effekte der anderen Prädiktoren im Modell inhaltlich sinnvoller interpretiert werden können. Und zwar vor allem, wenn der Prädiktor im Original den Wert 0 nicht annimmt.

Beispiel:

Wenn eine deiner unabhängigen Variablen im Modell das Alter von Personen in Jahren ist und deine Stichprobe enthält erwachsene Personen, dann kann diese Variable den Wert 0 (= 0 Jahre) in deinem Datensatz nicht annehmen.

Wenn du mit dieser (nicht zentrierten) Altersvariable das Modell rechnest und den Effekte einer anderen unabhängige Variablen X interpretierst, dann ist deren Effekt inhaltlich der Einfluss der Variable X, wenn das Alter 0 ist. Also der Einfluss der Variable X auf die abhängige Variable bei Babys. Das ergibt inhaltlich keinen Sinn.

Wenn du dagegen die Altersvariable mittelwert-zentriert verwendest, dann meint der Effekt der Variable X den Einfluss dieser Variable auf die abhängige Variable bei durchschnittlichem Alter. Das klingt doch schon viel besser, oder?

Auch, wenn du Interaktionen in deinem Modell untersuchst (z.B. bei Moderationsanalysen), solltest du die dort beteiligten metrischen Variablen vorab zentrieren. So stellst du sicher, dass auch die Haupteffekte dieser Variablen sinnvoll verwendbare Ergebnisse liefern.

Mehrebenen-Modelle ermöglichen die Zentrierung am Gruppen-Mittelwert

In Mehrebenen-Modellen (Multi-Level-Models, Gemischte Modelle) werden häufig speziellere Zentrierungen eingesetzt: Dort hast du aufgrund der Datenstruktur die Möglichkeit, die Daten am Gruppen-Mittelwert zu zentrieren. Das heißt, hier wird nicht der Mittelwert der gesamten Variablen von den einzelnen Beobachtungen abgezogen (Grand-Mean-Centering). Stattdessen wird von jeder Beobachtung der Mittelwert, berechnet aus der zugehörigen Gruppe (Cluster) verwendet (Group-Mean-Centering).

Wieder ein Beispiel:

Stell dir vor, du hast Schüler*innen in Klassen erhoben und hast dort den Punktescore in einem Englischtest erhoben. Nun berechnest du von jeder Klasse separat (Gruppe = Cluster) den Mittelwert des Punktescores. Anschließend ziehst du bei jedem Schüler und jeder Schülerin jeweils den Mittelwert DER EIGENEN Klasse vom Punktescore ab. Diese neue, am Gruppen-Mittelwert zentrierte Variable zeigt dann nicht, wie der Schüler oder die Schülerin insgesamt zum Schulergebnis steht. Stattdessen sieht man anhand dieses Werts, wie das Ergebnis im Verhältnis zum Klassenschnitt ist.

Diese am Gruppen-Mittelwert zentrierten Variablen eröffnen somit die Möglichkeit, andere Hypothesen und Aspekte in der Analyse zu untersuchen. Du kannst hier den Einfluss des Prädiktors innerhalb der Klasse von dem Einfluss trennen, den diese Variable auf Klassen-Ebene hat. Wichtig dabei ist, dass du dazu auch die Mittelwert-Variable selbst mit aufnimmst. Das ist dann eine Level-2-Variable (alle Schüler*innen einer Klasse haben den gleichen Wert).

Merke dir für den Umgang mit Zentrierungen

  • Es ist oft hilfreich, metrische Prädiktoren (alle unabhängigen Variablen, auch Kovariaten) in mehrfaktoriellen Modellen zentriert zu verwenden.
  • Bei dichotomen Variablen bringt es meistens keinen Mehrwert. Hier reicht es oft, die Kodierung 0 und 1 zu verwenden (0 ist wieder wichtig wegen der Interpretierbarkeit).
  • Zwingend erforderlich ist die Zentrierung, wenn Interaktionen beteiligt sind oder wenn der Prädiktor den Wert 0 nicht (sinnvollerweise) annimmt.
  • Bei Mehrebenen-Modellen überlege dir gut, ob du mit mittelwert-zentrierten (grand-mean) oder gruppen-mittelwert-zentrierten (group-mean) Variablen arbeiten willst (ist inhaltlich eine andere Bedeutung).
  • Die abhängige Variable in Mehrebenen-Modellen wird nie am Gruppen-Mittelwert zentriert.

Auf YouTube findest du passend zum Thema Zentrieren ein kurzes Video von mir:

➡️ https://youtu.be/n9jloORqyr8

Tiefer einsteigen in der Statistik-Akademie

Und wenn du noch tiefer ins Thema einsteigen willst, dann komm in die Statistik-Akademie. Dort gibt es neben zahlreichem anderen Material ein ausführliches Video zum Thema Zentrieren sowie zwei Softwaretutorials, in denen ich dir die Umsetzung mit SPSS und R zeige. Dort gehe ich jeweils auch intensiv auf die Group-Mean- und die Grand-Mean-Zentrierung ein. Du bekommst dazu die Beispieldaten, das R-Skript, die SPSS-Syntax und die SPSS-Ausgabe zum Download.

Du bist noch nicht in der Statistik-Akademie? Dann hol dir deinen Zugang hier:

Akademie

Bildquelle: Beitragsbild von scholty1970 über pixabay.