Wozu brauchst Du eine Transformation Deiner Daten?

Wenn sich Deine Daten als nicht normalverteilt herausstellen, kannst Du versuchen, sie durch Transformation in eine annähernde Normalverteilung umzuformen. Wenn das gelingt, rechnest Du anschließend die weiteren Analysen wie Signifikanztests mit den transformierten Daten. Dann ist es möglich, parametrische Methoden, die Normalverteilung fordern, anzuwenden.

Auch andere Probleme mit der Verteilung, wie zum Beispiel Hetereskedastizität, Nicht-Linearität oder Ausreißer können eventuell mit Transformationen behoben werden.

Ist das Datenmanipulation?

Die Transformation ist dabei keine Datenmanipulation und völlig legitim und eine Standardmethode in der Statistik. Es ist aber wichtig, dass als Transformation nur Formeln verwendet werden, die die Reihenfolge der Beobachtungen nicht durcheinander werfen. Die Reihenfolge komplett umkehren ist aber wieder kein Problem, nur durcheinander gemischt werden darf die Reihenfolge nicht. Dadurch bleiben die relativen Unterschiede zwischen den Beobachtungen für die Variable bestehen. Das ist wichtig.

Die Transformation ändert allerdings die Beziehung zwischen Variablen, und das ist auch so gewollt (z.B. wenn das Problem der Nicht-Linearität damit behoben werden soll). Deshalb muss bei der Interpretation der Ergebnisse später die Transformation mit berücksichtigt werden. Z.B. bei einer Regression sind die Regressionskoeffizienten dann auf der Skala des transformierten Faktors zu interpretieren.

Welche Transformation passt?

Es gibt keine grundsätzliche Regel, welche Transformation wann passt. Du musst hier nach dem Prinzip von Trial-and-Error vorgehen. Du probierst also einfach eine Transformation nach der anderen aus. Das heißt,

  1. Du transformierst Deine Variable  mit der ausgewählten Formel.
  2. Dazu erstellst Du eine neue Variable im Datensatz. Wie das in SPSS geht siehst Du zum Beispiel hier.
  3. Dann prüfst Du diese neue Variable auf Normalverteilung, z.B. mit Q-Q-Diagrammen oder entsprechenden Tests. Dazu findest Du Hinweise hier.
  4. Wenn das Ergebnis passt, die neue Variable also annähernd normalverteilt ist, rechnest Du die folgende Analysen mit dieser neuen Variablen weiter.
  5. Wenn nicht, suchst Du Dir eine neue Formel aus und probierst diese aus, beginnst also wieder oben bei 1.

Damit Du bei der Auswahl der Transformation nicht völlig im Nebel stocherst, gebe ich Dir in der folgenden Tabelle die gängigsten Transformationen mit den Einsatzgebieten als Übersicht. Damit kannst Du leichter auswählen, mit welcher Art von Transformation Du das Ausprobieren startest.

TransformationFormelVerwendung
mit dem Logarithums (Logtransformation)log(x)Positive Schiefe, positive Kurtosis, ungleiche Varianzen, Nicht-Linearität
mit der Wurzelfunktionwurzel(x)Positive Schiefe, positive Kurtosis, ungleiche Varianzen, Nicht-Linearität
mit dem Kehrwert1/xPositive Schiefe, positive Kurtosis, ungleiche Varianzen
Reverse-Score (jeden Wert vom größten Wert abziehen)maximum - xdiese Transformation wird mit obigen kombiniert, um z.B. negative Schiefe zu bereinigen, Beispiel: log(maximum - x)
Addieren einer Konstantenx + aDiese Transformation wird vorgeschalten, wenn die Variable negative Werte oder Nuller enthält, damit anschließend eine der obigen Transformationen angewandt werden kann. Beispiel: 1/(x + a)

Wie in der Tabelle schon angedeutet, sind auch Kombinationen der einzelnen Transformationen möglich und manchmal nötig. So müssen zum Beispiel negative Werte meist zunächst in den positiven Bereich verschoben werden (Addition einer Konstanten), um sie dann mit z.B. dem Logarithmus weiter transformieren zu können.

Welche Alternative gibt es?

Das Ausprobieren der Transformationen kann zeitaufwendig sein und manchmal führt es zu keinem zufriedenstellenden Ergbnis. Wenn also die Daten trotz verschiedener Transformationen nicht annähernd normalverteilt wird, bleibt nur die Verwendung nichtparametrischer Methoden für die weitere Analyse.

Quellen:

  • Andy Field, Discovering Statistics Using SPSS, SAGE, 2013
  • Beitragsbild von pixabay.com