Wozu brauchst Du eine Transformation Deiner Daten?
Wenn sich Deine Daten als nicht normalverteilt herausstellen, kannst Du versuchen, sie durch Transformation in eine annähernde Normalverteilung umzuformen. Wenn das gelingt, rechnest Du anschließend die weiteren Analysen wie Signifikanztests mit den transformierten Daten. Dann ist es möglich, parametrische Methoden, die Normalverteilung fordern, anzuwenden.
Auch andere Probleme mit der Verteilung, wie zum Beispiel Hetereskedastizität, Nicht-Linearität oder Ausreißer können eventuell mit Transformationen behoben werden.
Ist das Datenmanipulation?
Die Transformation ist dabei keine Datenmanipulation und völlig legitim und eine Standardmethode in der Statistik. Es ist aber wichtig, dass als Transformation nur Formeln verwendet werden, die die Reihenfolge der Beobachtungen nicht durcheinander werfen. Die Reihenfolge komplett umkehren ist aber wieder kein Problem, nur durcheinander gemischt werden darf die Reihenfolge nicht. Dadurch bleiben die relativen Unterschiede zwischen den Beobachtungen für die Variable bestehen. Das ist wichtig.
Die Transformation ändert allerdings die Beziehung zwischen Variablen, und das ist auch so gewollt (z.B. wenn das Problem der Nicht-Linearität damit behoben werden soll). Deshalb muss bei der Interpretation der Ergebnisse später die Transformation mit berücksichtigt werden. Z.B. bei einer Regression sind die Regressionskoeffizienten dann auf der Skala des transformierten Faktors zu interpretieren.
Welche Transformation passt?
Es gibt keine grundsätzliche Regel, welche Transformation wann passt. Du musst hier nach dem Prinzip von Trial-and-Error vorgehen. Du probierst also einfach eine Transformation nach der anderen aus. Das heißt,
- Du transformierst Deine Variable mit der ausgewählten Formel.
- Dazu erstellst Du eine neue Variable im Datensatz. Wie das in SPSS geht siehst Du zum Beispiel hier.
- Dann prüfst Du diese neue Variable auf Normalverteilung, z.B. mit Q-Q-Diagrammen oder entsprechenden Tests. Dazu findest Du Hinweise hier.
- Wenn das Ergebnis passt, die neue Variable also annähernd normalverteilt ist, rechnest Du die folgende Analysen mit dieser neuen Variablen weiter.
- Wenn nicht, suchst Du Dir eine neue Formel aus und probierst diese aus, beginnst also wieder oben bei 1.
Damit Du bei der Auswahl der Transformation nicht völlig im Nebel stocherst, gebe ich Dir in der folgenden Tabelle die gängigsten Transformationen mit den Einsatzgebieten als Übersicht. Damit kannst Du leichter auswählen, mit welcher Art von Transformation Du das Ausprobieren startest.
Transformation | Formel | Verwendung |
mit dem Logarithums (Logtransformation) | log(x) | Positive Schiefe, positive Kurtosis, ungleiche Varianzen, Nicht-Linearität |
mit der Wurzelfunktion | wurzel(x) | Positive Schiefe, positive Kurtosis, ungleiche Varianzen, Nicht-Linearität |
mit dem Kehrwert | 1/x | Positive Schiefe, positive Kurtosis, ungleiche Varianzen |
Reverse-Score (jeden Wert vom größten Wert abziehen) | maximum - x | diese Transformation wird mit obigen kombiniert, um z.B. negative Schiefe zu bereinigen, Beispiel: log(maximum - x) |
Addieren einer Konstanten | x + a | Diese Transformation wird vorgeschalten, wenn die Variable negative Werte oder Nuller enthält, damit anschließend eine der obigen Transformationen angewandt werden kann. Beispiel: 1/(x + a) |
Wie in der Tabelle schon angedeutet, sind auch Kombinationen der einzelnen Transformationen möglich und manchmal nötig. So müssen zum Beispiel negative Werte meist zunächst in den positiven Bereich verschoben werden (Addition einer Konstanten), um sie dann mit z.B. dem Logarithmus weiter transformieren zu können.
Welche Alternative gibt es?
Das Ausprobieren der Transformationen kann zeitaufwendig sein und manchmal führt es zu keinem zufriedenstellenden Ergbnis. Wenn also die Daten trotz verschiedener Transformationen nicht annähernd normalverteilt wird, bleibt nur die Verwendung nichtparametrischer Methoden für die weitere Analyse.
Quellen:
- Andy Field, Discovering Statistics Using SPSS, SAGE, 2013
- Beitragsbild von pixabay.com
Ich bin Statistik-Expertin aus Leidenschaft und bringe Dir auf leicht verständliche Weise und anwendungsorientiert die statistische Datenanalyse bei. Mit meinen praxisrelevanten Inhalten und hilfreichen Tipps wirst Du statistisch kompetenter und bringst Dein Projekt einen großen Schritt voran.
Hallo Daniela,
ich habe Daten, die nicht normalverteilt sind und keine Varianzhomogenität ausweisen. Eine log-Transformation löst dieses Problem. Allerdings ist mir nicht ganz klar, wie ich das Ergebnis (z. B. einer ANOVA) anschließend interpretieren muss. Also was genau meinst du mit „Deshalb muss bei der Interpretation der Ergebnisse später die Transformation mit berücksichtigt werden.“? Muss ich das Ergebnis irgendwie zurück transformieren? Ich stehe leider gerade etwas auf dem Schlauch und blicke bei dem Thema Transformation gar nicht durch.
Schon mal vielen Dank im Voraus und viele Grüße
Stephanie
Hallo Stephanie,
die p-Werte der ANOVA kannst Du so interpretieren wie sie sind. Da brauchst Du nichts zu transformieren. Wenn Du aber z.B. die Mittelwerte, die da mit berechnet werden ansiehst, dann sind das die logtransformierten. Um die sinnvoll zu interpretieren musst Du sie mit der Umkehrfunktion zurücktransformieren. Beim Log ist das die Exponentialfunktion.
Alternativ kannst Du aber die deskriptive Analyse einfach nochmal extra auf den Originaldaten rechnen. Dann geht die Interpretation direkt.
Schöne Grüße
Daniela
Hallo Frau Keller,
ich schreibe momentan meine Masterarbeit im Bereich Marketing. U.a. untersuche ich dabei den Einfluss von Produkt-Involvement. Ich habe deshalb zwei Fragebögen erstellt, einen mit einem niedrigen Produkt_Involvement (Instantkaffee) und der andere mit einem hohen Produkt-Involvement (Smartphone). Nun sind die zwei Gruppen in sich nicht normalverteilt – was auch an sich beabsichtigt war, da ich ja wollte, dass Instantkaffee als nicht so wichtig wie ein Smartphone betrachtet wird. Nun meine Frage: Kann ich die beiden Fragebögen zusammenfassen und eine Oberkategorie z.B. Produkt bilden?
Vielen Dank für Ihre Hilfe und liebe Grüße,
Lea
Hallo Lea,
sind das beides Messungen an den gleichen Probanden? Willst Du einen „Schnitt“ aus dem Involvement bilden und somit die beiden Messungen „mischen“? Dann kannst Du den Mittelwert pro Proband bilden und nochmal schaun, ob der normalverteilt ist.
Oder sind es wirklich Probandengruppen? Dann wirst Du ja einen Gruppenvergleich rechnen und dazu mus jede Gruppe für sich normalverteilt sein, nicht die Messungen gemeinsam betrachtet.
Schöne Grüße
Daniela
„Wenn sich Deine Daten als nicht normalverteilt herausstellen, kannst Du versuchen, sie durch Transformation in eine annähernde Normalverteilung umzuformen.“ Warum sollte man das wollen? Für die gängigen statistischen Verfahren sind normalveteilte Daten (Variablen) unerheblich. Einige Verfahren erfordern normalverteilte Vorhersagefehler (Residuen), so die Regressionsanalyse oder die Varianzanalyse. Aber selbst das nur bei kleinen Stichproben (ca. n < 30, siehe zentraler Grenzwertsatz).
"Die Transformation ist dabei keine Datenmanipulation und völlig legitim und eine Standardmethode in der Statistik." Das sind gleich 3 fragwürdige Aussagen in einem Satz. Aber vor allen Dingen, die meisten Anwender wissen nicht, ob eine Transformation inhaltlich angemessen ist; oder was die transformierte Variable eigentlich bedeuten soll, wenn sie vor ihren Auswertungsergebnissen sitzen – was soll mir das sagen, dass 2 Gruppen sich hinsichtlich ihrer Mittelwerte der Wurzelder abhängigen Variable unterscheiden? Aus statistischen Gründen erforderlich sind Transformationen (s.o.) in aller Regel ohnedies nicht.
Mit freundlichen Grüßen
Der zentrale Grenzwertsatz sagt nicht aus, dass die Daten an sich bei großem n normalverteilt sind, sondern dass der Mittelwert sich einer Normalverteilung annähert. Deshalb kann er z.B. bei Verwendung eines t-Tests als Argument angeführt werden, dass bei großem n die Verteilungsannahme unerheblich ist. Bei einer Regression (unter anderem) allerdings nicht.
Es stimmt, dass hier bei der Regression die Residuen normalverteilt sein sollen, und das kann man manchmal erreichen, indem die Ursprungsvariablen geeignet transformiert werden.
Zudem kommt es nun eben auch vor, dass statistische Analysen auf kleinen Datensätzen gerechnet werden. Insofern kann es durchaus sein, dass Transformationen erforderlich sind.
Zum zweiten Punkt: die Daten werden ja transformiert, um Voraussetzungen für Signifikanztests zu erfüllen. Das Ziel ist also das Testergebnis. Und hier können Sie dann eben schließen, ob der Unterschied oder Zusammenhang signifikant ist oder nicht. Für die Beschreibung und Darstellung ist es sinnvoll, zusätzlich die Originaldaten zu verwenden, damit die Interpretation (Was bedeutet dieser signifikante Unterschied jetzt in meinen Zahlen?) leichter fällt.
Herzliche Grüße
Daniela
Hallo Frau Keller,
ich möchte einen T-Test mit mehreren Testvariablen machen – Muss ich die Normalverteilung dann für jede Testvariable einzeln in den Gruppen testen oder gibt es die Möglichkeit die Normalverteilung je Gruppe über alle Testvariablen (Abhängige Variablen) hinweg zusammen zu testen?
Ist der Welch-Test auch möglich durchzuführen ohne Normalverteilung?
Danke für Ihre Hilfe!
Hallo Sophia,
wir können uns gern duzen!
Du rechnest die t-Tests ja für jede Testvariable einzeln. Und Du prüfst und entscheidest auch für jede Testvariable einzeln je Gruppe, ob Normalverteilung vorliegt. Es hängt allerdings von Deiner Software ab, ob Du das in einem Rutsch durchführen kannst oder alles einzeln eingeben musst. Ergebnisse ansehen und entscheiden musst Du auf jeden Fall einzeln.
Der Welch-Test braucht Normalverteilung, wie der t-Test.
LG Daniela
P.S.: Wenn Du regelmäßig Deine Fragen an mich loswerden willst und viele ausführliche Infos, Videos, Tutorials und Lernmaterial für Deine Datenanalyse suchst, dann komm in die Statistik-Akademie: https://statistik-und-beratung.de/mitgliederbereich-lp/
Hallo Daniela,
wenn ich meine abhängige Variable (Lohn) logarithmiert habe und nun den Scheffé-Test zur ANOVA interpretieren möchte, wie muss ich dabei vorgehen?
Ich untersuche, inwiefern Unterschiede in der Entlohnung zwischen drei Ländern vorliegen. Wenn nun z. B. folgendes gegeben ist: Indien – Deutschland Mittlere Differenz (I-J) 0,1580* bedeutet das, dass in Indien der Lohn 1,58 % höher wäre oder liege ich mit dieser Interpretation ganz daneben?
Vielen Dank im Voraus für deine Hilfe!
Liebe Grüße
Hanna
PS: Ich finde deine Seite super und auch, dass du anderen immer wieder Tipps gibst!
Hallo Hanna,
vielen Dank für Dein Feedback. Das freut mich!
Eine Differenz im Logarithmus entspricht einem Bruch (I/J) nach Berechnung der Umkehrfunktion Exponentialfunktion.
Exp(0,1580) ist 1,17. Das heißt, der Bruch I/J hat den Wert 1,17 in den Rohdaten gerechnet. Das bedeutet, dass I um 17 Prozent größer ist als J (Faktor 1,17 entspricht 17 % Anstieg).
Ist das verständlich?
LG Daniela
P.S.: Wenn Du mehr mit mir und anderen Gleichgesinnten zusammen arbeiten willst, dann komm in die Statistik-Akademie: https://statistik-und-beratung.de/mitgliederbereich-lp/
Hier findest Du zahlreiche Erklär-Videos, Tutorials und Unterlagen von mir zu vielen Statistikthemen und ich beantworte jede Frage schnell und verständlich im Forum.
Liebe Daniela, die Interpretaion der Ergebnisse transformierter Variablen stellt mich auch vor gewisse Herausforderungen und ich hoffe, dass Du mir helfen kannst.
Meine multiple lineare Regression mit vier Prädiktoren (von denen die beiden metrischen z-standardisiert wurden) hat ergeben, dass lediglich einer der beiden sig. ist. Das ergab die Koeffiziententabelle in SPSS:
b =1.300, SE b = .452, beta = .180, t = 2.875, p =.004.
Da der Prädiktor ja z-standardisiert ist, kann man ja nicht sagen: wenn die Erfahrung um eine Einheit steigt, steigt die Anwendung der Methode XY um 1.300 Einheiten. Leider weiß ich nicht, wie ich das mit SD ausdrücken kann, was man nach meinem Verständnis ja tun müsste, oder?!?
Über einen Tipp von Dir würde ich mich sehr freuen.
Liebe Grüße und schon mal vielen Dank (im Voraus und für all die anderen Tipps, die ich schon bei Dir gefunden habe).
Natalie
Hallo Natalie,
wenn Du die Formel der z-Standardisierung ((x-m)/sd) in die Regressionsformel einsetzt, siehst du, dass der Faktor b/sd bei x stehen bleibt. Das heißt, Du teilst Dein b (1.3) durch die Standardabweichung der Variable und erhältst damit den Faktor, um den sich y ändert, wenn sich x um eine Einheit ändert.
LG Daniela
P.S.: Wenn Du schnelle Antworten auf all Deine Statistikfragen bekommen möchtest und Zugriff auf meine Videotutorials, Erklärvideos usw., dann komm doch in die Statistik-Akademie: https://statistik-und-beratung.de/mitgliederbereich-lp/
Hallo Daniela,
ich würde gerne eine hierarchische Clusteranalyse durchführen und musste leider feststellen, dass die Variablen bei mir nicht normalverteilt sind. Jedoch gilt bei mir n >500, ich habe also genügend (zulässige) Datensätze. Muss man sich im Rahmen einer Clusteranalyse und anschließender Diskriminanzanalyse bei n>500 um das Thema der Normalverteilung explizit kümmern?
Viele Grüße und Lob für deinen Blog sowie deine video-tutorials,
Dario
Hallo Dario,
um welche Variablen handelt es sich denn? Wenn sie metrisch sind, dann reicht das für gewöhnlich aus. Wenn sie sehr schief sind, kannst Du sie eventuell transformieren. Außerdem kannst Du Ausreißer vorab ausschließen, wenn das inhaltlich Sinn macht. Wenn Du auch nominale Variablen hast, dann musst Du ein dafür passendes Verfahren wählen. Die hierarchische Clusteranalyse geht meist nur für metrische Merkmale.
LG Daniela
P.S.: Wenn Du mehr Antworten auf Deine Fragen willst, dann komm gern in die Statistik-Akademie. Da haben wir diesen Monat (Januar) sogar das Monatsthema Clusteranalyse. 🙂 Hier findest Du weitere Infos: https://statistik-und-beratung.de/mitgliederbereich-lp/
Hallo Daniela, wie gehe ich denn vor, wenn ich eine positive Schiefe aber eine negative Kurtosis habe?
Hallo,
am besten Du versuchst das, was extremer ist, zuerst zu beheben.
LG Daniela
P.S.: Wenn Du mehr zur Statistik von mir lernen willst, dann schau Dir mein Angebot der Statistik-Akademie an: https://statistik-und-beratung.de/mitgliederbereich-lp/
Hallo Daniela
Ich habe ein sehr grundlegende Frage.
Ich habe zwei Skalen aus einem Fragebogen (digitale Organisationskultur mit Ausprägung von 1-5 und digitale Handlungskompetenz ebenfalls mit Ausprägung 1-5). Beide Varibalen sind metrisch. Nun möchte ich gerne eine lineare Regression durchführen (eine Korrelation ist vorhanden und das Streudiagramm zeigt eine lineare Tendenz).
Wie bestimme ich nun, welches meine abhängige Variable ist und welches meine unabhängige Variable? Zwar bleibt R2 bei beiden Varianten gleich, aber ich weiss nicht wie ich die Interpretation durchführen soll.
Es könnte ja sein, dass die digitale Handlungskompetenz die digitale Organisationskultur beeinflusst oder umgekehrt (das weiss ich ja nicht). Kann ich hierbei von einer Kausalität ausgehen?
Liebe Grüsse
Kathrin
Macht eine lineare Regression überhaupt Sinn?
Hallo Kathrin,
das kannst Du nur rein inhaltlich entscheiden. Und nur, wenn Du das inhaltlich festlegen kannst, macht die lineare Regression Sinn.
LG Daniela
P.S.: Wenn Du mehr zur Statistik von mir lernen willst, dann schau Dir mein Angebot der Statistik-Akademie an: https://statistik-und-beratung.de/mitgliederbereich-lp/
Hallo Daniela,
ich habe eine große Anzahl Haltestellen, denen jeweils ein Wert (Anzahl der Abfahrten / Tag) zugeordnet ist. Das Ziel ist, diese Werte anhand des MIN und MAX auf eine Skala von 0 – 1 zu normalisieren. Wie mache ich das?
MIN = 0
MAX = 1812
Beispielhaltestelle = 72
Was teile ich wodurch? Ich möchte linear skalieren.
Vielen Dank!
Hallo Paul,
Du könntest durch 1812 teilen.
LG Daniela
Hallo Daniela,
ich habe eine wichtige Frage bezüglich meiner Bachelorarbeit. Und zwar möchte ich eine lineare Regression rechnen, jedoch ist keine der Voraussetzungen gegeben auch nachdem ich die Ausreißer entfernt habe. Daher hätte ich jetzt vor die lineare Regression mit Bootstrap zu rechnen, aber kann ich dann die Ausreißer ebenfalls miteinbeziehen oder sollte ich sie trotzdem ausschließen? Und kann ich irgendwie mit einem Test die Homoskedaszidität bzw. die Linearität prüfen, da ich das aus den Grafiken nicht wirklich herauslesen kann.
Hallo Gregor,
wenn Du Bootstrapping verwendest, kannst Du die Ausreißer im Datensatz belassen (musst aber nicht).
Falls Du mit SPSS arbeitest: Da gibt es keinen Test auf Homoskedastizität und Linearität.
LG Daniela