+++ UPDATE 2018-11-10: Bitte probiere auch die neue ShinyApp aus! Nie war es so einfach, die statistische Power für eine Meta-Analyse zu berechnen… +++

Du möchtest die Teststärke einer Meta-Analyse ermitteln, um die Ergebnisse besser interpretieren zu können? Oder fragst du dich vielleicht, ob es noch weiterer Forschung bedarf, um bisherige Ergebnisse eines systematischen Reviews abzusichern? In diesem Beitrag erkläre ich dir, wie du die statistische Power einer Meta-Analyse berechnest und welchen praktischen Nutzen das hat.

Auf dem Weg werden wir zu der Erkenntnis kommen, dass viele – wenn nicht sogar die meisten – Schlussfolgerungen in der biomedizinischen Forschung potenziell falsch(1) sind und ihre signifikanten Ergebnisse nicht immer wahre Effekte wiederspiegeln. Lösen Meta-Analysen dieses Problem?

Welche Bedeutung hat die statistische Power?

Beginnen wir mit einer kurzen Wiederholdung zur Teststärke, im englischen „Power“. Was hatte es damit auf sich? Die Teststärke gibt uns Auskunft darüber, mit welcher Wahrscheinlichkeit ein Effekt in einer Studie tatsächlich nachgewiesen werden kann. Nehmen wir hierzu an, eine bestimmte Intervention hat einen Effekt und die Alternativhypothese ist wahr, dann beschreibt die statistische Power den Anteil der Experimente, der zu einem statistisch signifikanten Ergebnis führt. Hat unser Studiendesign eine Teststärke von sagen wir 50 %, so müssen wir davon ausgehen, dass im Umkehrschluss jede zweite Studie mit diesem Design zu keinem signifikanten Ergebnis führt.

Wir schließen daraus: Ein Studiendesign mit schwacher statistischer Power hat immer eine geringere Chance, einen wahren Effekt zu erkennen. Gleichzeitig – und das ist weit weniger bekannt – verringert eine geringe Teststärke aber auch die Wahrscheinlichkeit, dass ein statistisch signifikantes Ergebnis einen wahren Effekt widerspiegelt. Hohe Post-hoc Power bestätigt also ein Testresultat, wohingegen niedrige Post-hoc Power es relativiert!

Kleine Stichproben untergraben die Zuverlässigkeit biomedizinischer Forschungsergebnisse

Werfen wir mit dieser Erkenntnis einen Blick in die Naturwissenschaften, so müssen wir feststellen, dass ein Großteil der dort verfügbaren Studien systematisch unterpowert(2) ist. Untersuchungen legen nahe, dass die Teststärke im Median gerade einmal bei ∼10 % bis ∼30 % liegt. In Folge kommt es zu Überschätzungen der Effektstärken und geringer Reproduzierbarkeit(3) berichteter Ergebnisse. Schuld daran sind Untersuchungen an meist viel zu kleinen Stichproben!

Das Ganze hat auch eine ethische Dimension, denn mangelnde Reliabilität macht Forschung ineffizient und ist verschwenderisch.

Die Meta-Analyse: ein Allheilmittel zur Kompensation methodischer Schwächen in der Primärforschung?

Zur Lösung wird häufig die Meta-Analyse herangezogen. Dabei handelt es sich um eine statistische Methode, die der Zusammenfassung und Kontrastierung von Primärforschungsergebnissen dient. Sie ermöglicht es, die Resultate einzelner Studien mit gleicher Fragestellung systematisch zusammenzufassen. Durch die größere Gesamtzahl an Stichproben können die wahren Effekte in der Population dadurch zuverlässiger geschätzt werden.

Power-Analysen liefern in diesem Zusammenhang aufschlussreiche Informationen über die Robustheit von Gesamteffekten und helfen dabei, die Anzahl der Studien zu bestimmen, die zur Bestätigung von Ergebnissen benötigt werden. Das kann bedeutsam bei der Planung und Aktualisierung von Meta-Analysen sein und sogar Hinweise liefern, ob zu einer bestimmten wissenschaftlichen Fragestellung weitere Forschung überhaupt noch zu großem Erkenntniszugewinn führen kann. Die Beurteilung der Teststärke von Meta-Analysen nimmt also bestenfalls wieder Einfluss auf die Primärforschung.

Bisweilen wird der statistischen Power von Meta-Analysen jedoch kaum Beachtung geschenkt. Ein wesentlicher Grund dafür könnte sein, dass es keine anwenderfreundlichen Möglichkeiten für die Berechnung gibt. Statistikprogramme wie SPSS und Co. verfügen nicht über derartige Funktionen und Programme wie G*Power(4) sind nur für Analysen von Primärstudien ausgelegt.

Der Meta-Power Kalkulator – ein Freeware Excel-basierter Teststärkenrechner für Meta-Analysen

Ich habe deshalb vor einiger Zeit einen Excel-basierten Power-Kalkulator entwickelt, der es im Grunde jedem ermöglicht, die Teststärke einer Meta-Analyse schnell und einfach zu berechnen.

Abb. 1: Screenshot des Meta-Power Kalkulators.

Abb. 1: Screenshot des Meta-Power Kalkulators.

Probiere es einfach mal aus – du kannst dir den Kalkulator kostenlos hier(5) herunterladen!

Die Berechnung ist kinderleicht. Es sind lediglich drei einfach zu ermittelnde Eingaben erforderlich:

  • die Gesamteffektstärke der Meta-Analyse (Cohen’s doder Hedge’s g),
  • die Anzahl der in die Meta-Analyse eingeschlossenen Studien (Effekte) und
  • die durchschnittliche Anzahl der Studienteilnehmer pro Gruppe.

Die aktuelle Version bietet keine Möglichkeit das Signifikanzniveau oder die Testrichtung festzulegen. Wir folgen hier weit verbreiteten Konventionen und testen stets zweiseitig mit einer Irrtumswahrscheinlichkeit von α = .05. Wer detailliertere Analysen durchführen möchte, dem empfehle ich auf die R-Scripts zurückgreifen, die ich ebenfalls auf der Projektseite(5) zur Verfügung stelle. Diese können beliebig modifiziert werden. Die verwendeten Formeln zur Berechnung stammen alle aus diesem Paper(6).

Mit der Eingabe der nötigen Informationen berechnet das Excel-Skript automatisch die Teststärke und gibt in Abhängigkeit vom Gesamteffekt X-Y-Plots mit Power-Kurven für unterschiedliche Studien- und Stichprobenumfänge aus.

Heterogenität – der Umgang mit inkonsistenten Studienergebnissen

Wie anhand der Abbildung (Abb.1) zu erkennen ist, werden insgesamt vier Werte berichtet, die die statistische Power in Abhängigkeit von der Heterogenität eingeschlossener Studien reflektieren.

Besteht große Heterogenität zwischen den Ergebnissen, nimmt die Teststärke ab. Folglich werden dann mehr Studien benötigt, um den Gesamteffekt abzusichern. Häufig wird der prozentuale Anteil der Unterschiede zwischen Studien mit Hilfe der I²-Statistik(7) berechnet. Es handelt sich dabei um einen recht intuitiven Ausdruck der Inkonsistenz, bei dem ein I² von 0, 25, 50 bzw. 75 % für keine, geringe, moderate bzw. hohe Heterogenität steht. Diesen Konventionen folgt auch der Kalkulator.

Wann können wir von einer ausreichenden Teststärke sprechen?

Jetzt gilt es noch zu klären, wann wir von einer ausreichenden Teststärke sprechen können. Nun, das ist – wie so oft in der Statistik – ein Kompromiss und meist von der Forschungsfrage abhängig. In der Regel wird jedoch bei einer Teststärke größer 80 % (β < 0.2) von ausreichender Power gesprochen.

Welche Faktoren beeinflussen die statistische Power einer Metaanalyse?

Beeinflusst wird die statistische Power einer Meta-Analyse durch die Effektgröße, die durchschnittlichen Gruppengröße sowie die Anzahl eingeschlossener Studien und deren Heterogenität. Anhand der Matrixdarstellung (Abb. 2) ist dieser Zusammenhang gut nachvollziehbar.

Die Matrixdarstellung zeigt das Verhältnis von Effektgröße, durchschnittlicher Gruppengröße, Anzahl der Studien und Heterogenität. Die blauen, grünen, violetten und roten Kurven reflektieren 5, 10, 15, 20 eingeschlossene Effektgrößen.

Abb. 2: Die Matrixdarstellung zeigt das Verhältnis von Effektgröße, durchschnittlicher Gruppengröße, Anzahl der Studien und Heterogenität. Die blauen, grünen, violetten und roten Kurven reflektieren 5, 10, 15, 20 eingeschlossene Effektgrößen.

Meta-Analysen mit kleinen durchschnittlichen Gruppengrößen und einer geringen Anzahl eingeschlossener Studien haben lediglich ausreichende statistische Power, um große Gesamteffekte nachzuweisen (obere Reihe), wohingegen der Nachweis kleiner Gesamteffekte selbst bei vielen eingeschlossenen Studien und großen Fallzahlen kaum möglich ist (untere Reihe). Bei Mittleren Effektstärken entscheidet vor allem die Heterogenität der Ergebnisse darüber, ob und wann eine ausreichende Teststärke erreicht wird (mittlere Reihe).

Meta-Analysen sind kein Allheilmittel um methodische Schwächen der Primärforschung zu überwinden!

Die Darstellung verdeutlicht noch einmal das Problem, vor dem wir in den Naturwissenschaften häufig stehen: Stark unterpowerte Primärstudien mit viel zu kleinen Stichproben liefern in der Regel keine robusten Ergebnisse und sind schwer zu replizieren. Aus Versuchswiederholungen resultieren heterogene Ergebnisse, die eine durch systematische Zusammenfassung der Daten zunehmende Teststärke wieder eliminieren.

Meta-Analysen sind kein Allheilmittel mit dem grundlegende methodische Schwächen aus der Primärforschung kompensiert werden können. Die Verbesserung der Reproduzierbarkeit von Studien ist und bleibt eine Hauptpriorität im Rahmen der Primärforschung und es bedarf dringend mehr der Beachtung etablierter, nur leider oft ignorierter methodischer Grundprinzipien.

Quellen:

  1. http://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.0020124
  2. https://www.nature.com/articles/nrn3475
  3. https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970
  4. http://www.gpower.hhu.de/en.html
  5. https://osf.io/w4xrs/
  6. http://journals.sagepub.com/doi/abs/10.3102/1076998609346961
  7. https://onlinelibrary.wiley.com/doi/abs/10.1002/sim.1186