Voraussetzungen der Varianzanalyse (ANOVA)

von Daniela Keller | Mai 9, 2017 | Analyse von Unterschieden, Statistisches Testen | 18 Kommentare

Die ANOVA (ANalysis Of VAriance – Varianzanalyse) untersucht den Effekt eines oder mehrerer Faktoren (Inner-Subjekt- oder Zwischen-Subjekt-Faktoren) und Interaktionen auf eine abhängige Variable. Die abhängige Variable hat dabei metrisches Skalenniveau.

Die ANOVA setzt einige Bedingungen an die Verteilung der Daten voraus, die ich Dir in diesem Beitrag zusammen stellen werde. Je nach Art der Faktoren ist die Prüfung von verschiedenen Voraussetzungen notwendig.

Varianzanalyse mit Zwischen-Subjekt-Faktor(en) (Gruppenfaktor(en))

Normalverteilung der abhängigen Variable in jeder Gruppenkategorie bzw. Kategorienkombination bei mehreren Gruppenfaktoren
Varianzhomogenität für jeden Gruppenfaktor

Varianzanalyse mit Inner-Subjekt-Faktor(en) (Messwiederholungsfaktor(en))

Normalverteilung der abhängigen Variablen zu jedem Messzeitpunkt bzw. in jeder Kombination von Messwiederholungsstufen bei mehreren Messwiederholungsfaktoren
Sphärizität bei mehr als zwei Stufen des Messwiederholungsfaktors (Sphärizität ist die Gleichheit der Varianzen der paarweisen Differenzen zwischen den Messwiederholungen)

Du willst mehr Durchblick im Statistik-Dschungel?

Dann klicke hier für Dein gratis Statistik-Starter-Paket.

Mixed ANOVA (ANOVA mit Zwischen- und Inner-Subjekt-Faktor(en))

Normalverteilung der abhängigen Variable in jeder Gruppenkatgorie (bzw. Kategorienkombination) und zu jedem Messzeitpunkt
Varianzhomogenität für jeden Gruppenfaktor
Sphärizität bei mehr als 2 Stufen des Messwiederholungsfaktors

Wenn diese Voraussetzungen erfüllt sind, kannst Du also die entsprechende Methode für Deine Analyse verwenden.

So prüfst Du diese Voraussetzungen

Normalverteilung prüfst Du mit Normalverteilungstests (z.B. Kolmogorov-Smirnoff- oder Shapiro-Wilk-Test) oder Q-Q-Diagrammen (oder Quantil-Plots, Normalverteilungsdiagramme). Dabei sind die Q-Q-Diagramme zu empfehlen, da die Normalverteilungstests bei großen Stichproben zu streng sind (= die Normalverteilung zu oft ablehnen). Bei kleinen Stichprobe reagieren sie dagegen zu liberal. Zur Normalverteilung siehe auch dieser Blogbeitrag über Schiefe und Excess sowie dieser Blogbeitrag zu parametrischer und nichtparametrischen Methoden.

Varianzhomogenität prüfst Du mit dem Levene-Test. Ist der p-Wert dieses Tests größer als 0,05, so wird die Varianzgleichheit nicht abgelehnt und diese Voraussetzung ist erfüllt.

Sphärizität wird mit dem Mauchly-Test geprüft. Auch hier gilt: ein p-Wert größer als 0,05 lehnt die Nullhypothese der Sphärizität nicht ab, so dass diese Voraussetzung angenommen werden kann.

Daniela Keller

Ich bin Statistik-Expertin aus Leidenschaft und bringe Dir auf leicht verständliche Weise und anwendungsorientiert die statistische Datenanalyse bei. Mit meinen praxisrelevanten Inhalten und hilfreichen Tipps wirst Du statistisch kompetenter und bringst Dein Projekt einen großen Schritt voran.

18 Kommentare

Doris Becker am 29. Mai 2020 um 11:17

Liebe Daniela,
für meine Bachelorarbeit ich möchte gerne eine sensorische Verkostung von verschiedenen Produkten auswerten. Die Anzahl der Prüfer, die alle Produkte hedonisch bewertet haben, liegt zwischen n=50 und 60. Reicht die Stichprobenanzahl der Prüfer aus, um Signifikanzen mit Hilfe von ANOVA auswerten zu können oder kann ich nur Mittelwertvergleiche anstellen? Gibt es eine Berechnungsgrundlage, wie groß eine Stichprobengröße mindestens sein muss, um eine ANOVA durchführen zu können/dürfen? Vielen Dank im Voraus für Deine Hilfe.

Herzliche Grüße sendet Dir Doris
Antworten
- Daniela Keller am 31. Mai 2020 um 16:24
  
  Hallo Doris,
  
  Du wirst vermutlich eine Messwiederholungs-ANOVA rechnen, oder? Teilen sich die Messwerte dann noch zusätzlich in Gruppen auf? Also untersuchst Du noch weitere Effekte neben dem Produkt-Effekt? Wenn nicht, reicht die Stichprobe auf jeden Fall, um das Modell rechnen zu können. Und es wäre auch noch „Platz“ für weitere Faktoren.
  Aber ob der/die Effekt(e) signifikant sein werden hängt dann auch noch von der Stärke des Effekts ab. Und ja, das kann man mit einer Fallzahlplanung ausrechnen. Schau mal hier im Blog, da gibt es zu dem Thema schon ein paar Infos.
  
  LG Daniela
  Antworten
Paula am 16. April 2020 um 13:49

Liebe Daniela,

vielen Dank für deine Seite!
Mir ist noch etwas unklar: Bei einer 2-faktoriellen ANOVA prüft man die NV und Varianzhomogenität in den einzelnen Faktorstufenkombinationen. Also nicht pro Faktorstufe, sondern in den Kategorienkombinationen (korrekt?).
Wenn beide Voraussetzungen verletzt sind, und ich sehr kleine Gruppen habe (teilweise <10), welche Tests kann ich mit SPSS rechnen? Den Brown-Forsythe und Welch-Test gibt es bei SPSS wohl nur für einfaktorielle Designs…

Vielen Dank schonmal!

Herzliche Grüße, bleib gesund.
Paula
Antworten
- Daniela Keller am 27. April 2020 um 09:56
  
  Hallo Paula,
  
  ja genau. Die Voraussetzung gilt pro Kategorienkombination.
  
  Eine nicht-parametrische Alternative der zweifaktoriellen ANOVA gibt es in SPSS nicht, das stimmt. Aber Du kannst in SPSS die ANOVA trotzdem so rechnen und rechnest ein Bootstrapping dazu. Du solltest dann das Bootstrapping-Ergebnis berichten und interpretieren. Das ist robust, auch wenn die Verteilungsvoraussetzungen nicht erfüllt sind.
  
  Wenn Du regelmäßig Antworten auf Deine Statistikfragen und Zugang zu einer Menge super aufbereitetem Statistikmaterial, auch für SPSS, haben möchtest, dann komm in die Statistik-Akademie: https://statistik-und-beratung.de/mitgliederbereich-lp/
  
  LG Daniela
  Antworten
Paula Teich am 16. April 2020 um 12:45

Liebe Daniela,

vielen Dank für diese Seite!
Meine Frage zur zwei-faktoriellen ANOVA: Ich muss ja die NV und Varianzhomogenität pro Faktorstufenkombination, nicht pro Faktorstufe prüfen (richtig?).
Bei SPSS habe ich es bisher geschafft, die Voraussetzungen pro Faktorstufe zu prüfen, aber wie tue ich das pro Faktorstufenkombination?
Außerdem sind meine Ns pro Faktorstufenkombination sehr klein (teilweise <10). Was kann ich rechnen, wenn beide Voraussetzungen verletzt sind? Den Brown-Forsythe oder Welch-Test gibt es bei SPSS wohl nur für einfaktorielle Designs.

Herzlichen Dank im Voraus!

Viele Grüße – bleib gesund.
Paula
Antworten
- Daniela Keller am 27. April 2020 um 09:57
  
  Hallo nochmal,
  
  die Kombination kannst Du prüfen, indem Du in SPSS auf aufgeteilten Datensätzen arbeitest (über Datei -> aufgeteilte Datei).
  
  LG Daniela
  Antworten
Ella Smirnova am 13. April 2020 um 11:35

Hallo Daniela!

Ich hoffe, Dir und Deiner Familie geht es gut!

Ich habe eine Frage: ich mache das experimentelle Praktikum im Rahmen des BSc Psychologie und habe folgende Forschungsarbeit, für welche ich ein Espose schreiben soll: Einfuss der Adobe Connect E-Meetings auf den Lernerfolg der Studierenden in der Fernlehre. Nun habe ich mir folgendes Design überlegt: 120 Probanden (Psychologiestudenten des BSc im ersten Semester, die das Modul 1 belegen). Vortestphase: Fragebogenerhebung über die Erfahrung mit Synchronen E-Meetings, Einteilung der Probanden in 3 Gruppen: Anfaenger (keine bis wenig Erfahrung), Fortgeschrittene (mittel bis gute Erfahrung) und Experten (sehr gute/exzellente Erfahrung). Nun werden die Probanden dieser 3 Gruppen randomisiert der Versuchsanordnung „Synchrones E-Meeting“ zugeteilt und der Kontrollgruppe „Asynchrones Meeting“: insgesamt 60 Studenten in der Versuchsgruppe und andere 60 in der Kontrollgruppe. Die Testphase: waehrend des gesamten ersten Semesters werden Gruppen der Versuchsgruppe a 10 Studenten jeweils einer der 3 E-Meetingerfahrungsgruppen wöchentlich an einem Adobe Connect Meeting für jeweils 1,5 h teilnehmen, wohingegen die Gruppen der Kontrollgruppe an Asynchrnonen Meetings (z. B. Emailaustausch) teilnehmen. Am Ende des Semesters wird die Klausurnote registriert und ein Selbstbeurteilungsfragebogen zur Effektivitaet des Collaborativen Lernens erhoben.

Zur Methode: ein Quasi-Experiment mit randomisierter Einteilung der Probanden zu Versuchs- und Kontrollgruppe. Frage: ist es ein Einfaktorielles Design mit einer UV mit zweistufiger Auspraegung (E-Meeting vs Asynchrones Meeting) und wie soll ich die 3 E-Meeting-Erfahrungsgruppen in das Design mit einbringen?

Die H0 lautet: es gibt keinen sign. Unterschied im Lernerfolg zw. der Versuchs- und Kontrollgruppe
H1: es gibt einen sign. Unterschied im Lernerfolg zw. der Versuchs- und Kontrollgruppe

Hierfür setzte ich Anova und Tukey post-hoc Test für Intergruppenunterschiede ein. Vorher werden die Daten auf Homoskedastizitaet mit dem Levene Test und die Normalverteilung der Residuen mit dem Shapiro-Wilk Test überprüft.

Darüber hinaus will ich den Zusammenhang zwischen der Effektivitaetsbeurteilung und den Adobe Connect Synchron Meetings untersuchen.

Kann ich das mit der Konfirmatorischen Faktorenanalyse machen?

Vielen Dank und bleib gesund!

LG
Ella
Antworten
- Daniela Keller am 27. April 2020 um 10:24
  
  Liebe Ella,
  
  Du bist ja jetzt in der Statistik-Akademie und wir konnte dort Deine Fragen alle klären. 🙂
  Wenn neue auftreten, stellst Du sie einfach weiterhin in der Akademie im Forum oder in unseren Online-Treffen.
  
  LG Daniela
  Antworten
Charlotte am 27. März 2020 um 09:41

Hallo Frau Keller
und herzlichen Dank für Ihre enorm hilfreichen Seiten und Kommentare!

Zwei Dinge vorweg: ich habe als Anglistik-Lehramtsstudentin kaum statistische Vorkenntnisse, musste für meine Masterarbeit jedoch eine experimentelle Untersuchung planen, durchführen und nun statistisch auswerten.
Und dafür verwende ich Excel (bitte nicht lachen!); während des Studiums hatten wir nur einen SPSS-Wochenend-Crashkurs(!), und außerdem ist das hiesige Uni-Rechenzentrum in der Corona-Krise geschlossen…

Untersucht wurden 3 Gruppen (2 InterventionsG + 1 KontrollG) mit n=27, 24 und 22.
An 2 Messzeitpunkten (Vor- und NachTest) wurden Leistungen (Zeitwerte in Sekunden und Zehntelsekunden) von allen VPn erhoben (jede VP hat also je eine Zeit VorT und Zeit NachT).

Die beiden Interventionsgruppen hatten zwischen VorT und NachT ein unterschiedliches „Treatment“ über 8 Wochen, die Kontrollgruppe kein Treatment.

Die Fragestellung: unterscheiden sich die Leistungen VorT zu NachT innerhalb und zwischen den Gruppen? (welches Treatment führt zu welcher Zeit-Differenz zwischen VorT und NachT)

Normalverteilung und Varianzhomogenität liegt in den Gruppen und zwischen den Gruppen vor (Kolmogorov-Smirnoff bzw. F-Test).

Innerhalb der Gruppen habe ich jeweils einen t-Test für abhängige Stichproben durchgeführt.

Aber was mache ich zwischen den Gruppen? Das Design ist ja: 3 Gruppen mit 2 Messzeitpunkten (Messwiederholung). So passt eine einfaktorielle ANOVA nicht, und bei einer „zweifaktoriellen ANOVA mit Messwiederholung“ kommt Excel – vermutlich wegen der ungleichen Stichprobengrößen? – mit einer Fehlermeldung.

Nun endlich meine konkrete Frage: Eine Lösung wäre vielleicht, eine einfaktorielle ANOVA mit den Zeit-DIFFERENZEN durchzuführen (also in 3 Gruppen pro VP „Leistung NachT minus Leistung VorT“) – Excel beschwert sich dabei nicht, aber darf ich das denn überhaupt: ANOVA mit (Paar-)Differenzwerten?

Ganz herzlichen Dank für Ihre Geduld und (hoffentlich) Hilfe,
Charlotte
Antworten
- Daniela Keller am 27. April 2020 um 10:50
  
  Hallo Charlotte,
  
  zu Excel direkt kann ich Dir leider nicht helfen und weiß nicht, warum Du bei der zweifaktoriellen ANOVA eine Fehlermeldung bekommst. Aber Deine Idee, die Differenzwerte zu verwenden, ist sehr gut. Das darfst Du machen und wird auch oft so gemacht. Oft auch als Umweg, wenn man eine einfachere Methode braucht, weil man keine parametrische Methode rechnen darf. Und in Deinem Fall passt es auch sehr gut zu Deiner Fragestellung.
  
  LG Daniela
  P.S: Wenn Du regelmäßig Antworten auf Deine Statistikfragen und Zugang zu einer Menge super aufbereitetem Statistikmaterial haben möchtest, dann komm in die Statistik-Akademie: https://statistik-und-beratung.de/mitgliederbereich-lp/
  Antworten
Marion Neubauer am 6. Februar 2020 um 10:16

Liebe Daniela,

schön, dass es diese Seite gibt! Ich habe eine Frage, die offenbar noch nirgends wirklich beantwortet ist: Ich möchte eine Anova durchführen, um die Unterschiede zwischen den Stichproben auf Signifikanz zu testen. Ich habe sehr große (unabhängige) Stichproben (insgesamt 8 Proben, Größe zwischen ca. 3.000 und 5.500 Token). Da sie also sehr groß sind, muss ich mir über die Normalverteilung keine Sorgen machen, wenn ich es richtig verstanden habe. Allerdings verletzen die Daten die Homogenitätsvoraussetzung (Levene-Test). Jetzt habe ich gelesen, dass das nicht weiter schädlich ist, wenn die Stichproben gleich groß sind. Da ich ja sehr viele Daten pro Stichprobe habe, verliere ich nicht zuviel, wenn ich die Stichproben normalisieren würde, z. B. alle 8 Proben auf die Größe 1.000 oder 3.000 oder 5.000 relativieren. Dann wären die Stichproben gleich groß.

Ich bin allerdings sehr unsicher, ob das zulässig ist, und würde mich freuen, hierzu eine Rückmeldung zu bekommen. Und falls ich so verfahren kann, wie auf welche Größe sollte ich die Stichproben am besten „normalisieren“? Gibt es hierzu Werte, die üblich sind? Oder nehme ich die kleinste Stichprobe und relativiere die anderen auf diese Größe?

Vielen Dank im voraus und herzliche Grüße
Marion
Antworten
- Daniela Keller am 24. März 2020 um 19:45
  
  Hallo Marion,
  bei Deinen sehr großen Stichproben wird so gut wie jeder Test signifikant werden. Auch der Levene-Test wird da sehr leicht signifikant (sehr große Teststärke). Deshalb beurteile lieber deskriptiv, ob Du ähnliche Varianzen hast: Schau Dir die Varianzen als Zahlen an und mache einen Boxplot. Das ist in dem Fall sinnvoller.
  Die Stichproben kleiner machen würde ich nicht.
  Wenn Du wirklich auch nach der deskriptiven Betrachtung deutlich unterschiedliche Varianzen hast, dann nimm lieber eine ANOVA, die bei Varianzheterogenität erlaubt ist (z.B. Welch-ANOVA).
  LG Daniela
  P.S.: Wenn Du mehr zur Statistik von mir lernen willst, dann schau Dir mein Angebot der Statistik-Akademie an: https://statistik-und-beratung.de/mitgliederbereich-lp/
  Antworten
Klaus am 14. Dezember 2019 um 20:24

Hallo Daniela,

für meine Hausarbeit sind für die Auswertung einer Stichprobe die geeigneten Verfahren zu bestimmen. Für die Stichprobe gilt: n=40 (2 Gruppen je n=20). Per Fragebogen mit Likertskala 1-5 wurden zu drei Variablen je 10 Fragen erhoben. Es sollen für die beiden Gruppen die Unterschiede ermittelt werden. Ich würde hierfür die zweifaktorielle Varianzanalyse wählen (Faktor A: Variablen 1-3; Faktor B: Gruppen 1+2), bin mir aber nicht sicher, ob unabhängig oder abhängig. Abhängig insofern, da die gleichen je 20 Teilnehmer aus den beiden Gruppen alle drei Variablen bewertet haben.

Gruß Klaus
Antworten
- Daniela Keller am 17. Dezember 2019 um 08:56
  
  Hallo Klaus,
  
  ja, die 3 Variablen sind abhängig und die Aufteilung nach den Gruppen erzeugt unabhängige Stichproben. Insofern wäre das dann die gemischte ANOVA (ein Messwiederholugnsfaktor A Variable 1-3 und ein Gruppenfaktor B Gruppe 1+2).
  Die Frage ist aber, ob das auch Deine Forschungfrage beantwortet. Mit so einer gemischten ANOVA wirst Du folgendes untersuchen:
  1. Gibt es einen Unterschied zwischen den Variablen 1 bis 3? (Haupteffekt Faktor A)
  2. Gibt es einen Gruppenunterschied? (Haupteffekt Faktor B)
  3. Ist der Unterschied zwischen den Variablen 1 bis 3 bei den beiden Gruppen unterschiedlich? (Interaktion)
  Wenn das zu Deiner Forschungsfrage passt und Deine Daten die Voraussetzungen der gemischten ANOVA erfüllen, dann kannst Du das so rechnen. 🙂
  
  LG Daniela
  
  P.S.: Wenn Du schnelle Antworten auf all Deine Statistikfragen bekommen möchtest und Zugriff auf meine Videotutorials, Erklärvideos usw., dann komm doch in die Statistik-Akademie: https://statistik-und-beratung.de/mitgliederbereich-lp/
  Antworten
Annika am 30. November 2019 um 14:22

Hallo Daniela,

danke für deinen Bericht. Ich habe ein ähnliches Problem wie Mareke, ich habe 284 Probanden (fast gleich verteilt) auf 4 Gruppen. Mein Problem ist nur: Weder Normalverteilung noch Varianzhomogenität sind gegeben, sodass ich Angst habe, die Anova nicht nutzen zu dürfen. Welch und Kruskalvalis kann ich nicht nutzen, da ich zwei unabhängige Variablen habe. Hast du eine Lösung? Oder denkst du ich kann so argumentieren wie Mareke sagte (Test ist robust bei großer Stichprobe)?
Antworten
- Daniela Keller am 8. Dezember 2019 um 19:02
  
  Hallo Annika,
  
  ja, Du kannst hier über die Robustheit argumentieren. Wenn Du Jürgen Bortz (Statistik für Human- und Sozialwissenschaftler, 6. Auflage) zitierst, gilt die Robustheit bei n > 10 pro Gruppe und ca. gleich großen Gruppen.
  Oder Du verwendest ein Bootstrapping, um Deine Ergebnisse abzusichern.
  
  Komm doch gern in die Statistik-Akademie, um weiter Deine Fragen mit mir zu klären. Du findest dort auch zahlreiche Inhalte, die für Deine Analyse hilfreich sind. Z.B. auch Unterlagen und Videos zum Thema Bootstrapping: https://statistik-und-beratung.de/mitgliederbereich-lp/
  
  LG Daniela
  Antworten
Mareke am 16. Oktober 2019 um 15:36

Hallo Daniela,
ich habe gelesen, dass die Varianzanalyse gegen die Verletzung der Normalverteilung und der Varianzhomogenität weitgehend robust sind (Rasch). Aber dass es problematisch sein kann, wenn die Stichprobengrößen zu klein sind oder sich Gruppengrößen unterscheiden. Aber wie ist eine kleine Stichprobe definiert? Meine drei Faktoren haben die Größen n=39, 33 und 41. Sie unterscheiden sich also auch etwas.
Ich prüfe aktuell vier AV, eine davon besitzt keine Varianzhomogenität. Sollte ich für diese dann den Kruskal-Wallis-Test machen?
Die Prüfung auf Normalverteilung hat bisher getrennt nach n erfolgt, also für jede Gruppe einzeln. Muss ich für die ANOVA nochmal alle drei Gruppen zusammenfassen und für N=113 auf Normalverteilung testen?
Muss ich dann bei nicht normalverteilten Daten Abstand von der ANOVA nehmen?

Ich hoffe ich konnte mein Durcheinander einigermaßen verständlich zu Papier bringen.

Grüße, Mareke
Antworten
- Daniela Keller am 15. November 2019 um 09:02
  
  Hallo Mareke,
  
  die Verteilung hast Du schon richtig auf den Gruppen getrennt geprüft. Das passt so.
  Im Bortz (Statistik für Humanwissenschaftler, 6. Auflage, Springer, 2005, Seite 287) steht, dass eine „kleine“ Stichprobe n<10 hat. Also bist Du da drüber. Ich finde Deine Gruppen auch nicht sehr unterschiedlich groß, habe dafür aber keinen Literaturbeleg, was "sehr unterschiedlich" ist. Bei fehlender Varianzhomogenität kannst Du auch die ANOVA mit der Welch-Anpassung verwenden (wenn Deine Software das implementiert hat). Oder Du setzt ein Bootstrapping ein, oder eben Kruskal-Wallis. Du hast viele Möglichkeiten. 🙂
  
  LG Daniela
  
  P.S.: Wenn Du regelmäßig Deine Fragen an mich loswerden willst und viele ausführliche Infos, Videos, Tutorials und Lernmaterial für Deine Datenanalyse suchst, dann komm in die Statistik-Akademie: https://statistik-und-beratung.de/mitgliederbereich-lp/
  Antworten