An diesem Punkt ein Wort zum p-Wert und der sogenannten inferentiellen Statistik. In den vergangenen Monaten kam eine Diskussion auf, ob der p-Wert „gut genug“ sei, das heißt, ob er nicht zu leicht als Schwellenwert für eine statistische Signifikanz, also für eine „gewünschte Richtigkeit“ der Ergebnisse missbraucht werden könne. Im März 2015 verkündete das Journal Basic and Applied Social Psychology, dass es bei der Veröffentlichung von Fachaufsätzen auf die Angabe von p-Werten verzichten wolle (Trafimow & Marks, 2015).
Der p-Wert wird oft so einfach verstanden, dass Ergebnisse “signifikant” sind, sobald dieser kleiner als 0,05 ist, also als das vorher festgelegte Signifikanzniveau α. Aber p-Werte können sich verändern, wenn Experimente und Analyseschritte wiederholt werden, und zwar in alle Richtungen; ein p-Wert ist also kein Wert mit konstanter Aussage. Die Konvention erlaubt es jedoch, zu sagen, dass das Ergebnis, also z.B. ein Unterschied, desto stärker ist, je kleiner der p-Wert. Aber durch seine Dynamik, die auf seinen vielen Einflüssen beruht, spiegelt der p-Wert nicht die Beweiskraft der Ergebnisse wieder und kann falsch positive Schlüsse ermöglichen. Insbesondere bei schwacher Datenlage kann, wenn die Stellschrauben im Datengefüge geschickt gedreht werden (manchmal reicht schon eine Veränderung der Stichprobengröße), die 0,05-Schwelle zu einfach unterschritten werden – und damit kann der Wissenschaftler „signifikante“ Ergebnisse präsentieren, auch wenn letztere eigentlich schwach sind, weil der wissenschaftliche Standard der Untersuchung niedrig lag (Woolston, 2015).
Positive und negative Ergebnisse
Diese Signifikanz ist immer noch die Eintrittspforte in viele Journale, die Legitimation zur Veröffentlichung von Daten und Dissertationen und das Aushängeschild vieler Forscher: „Siehe! Ich habe etwas herausgefunden!“. Nicht nur einmal habe ich Schreibende betreut, denen von ihren Doktorvätern oder –müttern nahegelegt wurde, noch mehr Daten zu erheben, weil das Ergebnis noch nicht, wie gewünscht, „richtig“ oder signifikant war. Dieses „zielorientierte Forschen“ ist ganz sicher ziemlich weit verbreitet, denn wer gibt schon gern Forschungsgelder für ein negatives Ergebnis her?
Dabei sind negative Ergebnisse ebenso wichtig wie positive: wenn ich herausfinde, dass z.B. ein Ansatz nicht funktioniert, dann kann der nächste davon profitieren und ihn modifizieren. Wenn ein Medikament oder eine Operation nicht die Wirkung hat, die ich mir beim Aufstellen der Studie vielleicht gewünscht habe, dann kann aber der nächste zeigen, woran es liegt, und der Prozess des wissenschaftlichen Fortschritts schreitet voran.
Dabei darf die eigene Eitelkeit natürlich nicht zu stark ausgeprägt sein, damit man auch einem anderen die Lorbeeren überlassen und sich über das eigene Wegbereiten freuen kann. Auch das ist Teil der Guten Wissenschaftlichen Praxis (DFG, 2013). Insbesondere bei klinischen Studien als Grundlage zur Zulassung von Therapeutika sehe ich den Umgang mit p-Werten aus all diesen Gründen durchaus kritisch. Das kritische Auge sollte ein Wissenschaftler ohnehin nie verlieren.
DFG (2013): Vorschläge zur Sicherung guter wissenschaftlicher Praxis. Ergänzte Auflage. WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim.
Trafimow D. & Marks M. (2015): Editorial. Basic Appl. Soc. Psych. 37, 1–2.
Woolston CH (2015): Psychology journal bans P values. Nature 519 (9). doi:10.1038/519009f
Ein paar Gedanken und Anwendungsempfehlungen zur Effekstärke von Daniela Keller findest Du hier.
Dr. Regina E. Moritz promovierte 2007 an der Universität Duisburg-Essen über ein sinnesphysiologisches Thema und unternahm daraufhin einen kurzen Ausflug ins Science Management. Seit viereinhalb Jahren arbeitet sie freiberuflich und leidenschaftlich als Wissenschaftslektorin. Sie lebt mit Mann, Töchtern, Garten, Aquarium und sehr vielen Büchern im Ruhrgebiet.
Hallo Frau Moritz,
vielen Dank für Ihren guten Input. Ich habe gerade „Probleme“ mit dem p-Wert in meiner Studie – bzw. dessen Interpretation. Um zu schauen wie gut Probanden in der Lage sind ihre Haut einzuschätzen, verglich ich die Werte der Selbsteinschätzung und die Werte eines Hautanalysegerätes. Ich führte die Korrelationsanalyse durch: es sind metrische Daten + normalverteilt und überprüfte sie mit dem Korrelationskoeffizient nach Bravais-Pearson. Nun zeigte sowohl die niedrige Korrelation nach Pearson von z.B. 0,149 als auch das Streudiagramm, dass ein Zusammenhang für einige Parameter nicht vorhanden ist – allerdings wies SPSS aus, dass die Korrelation signifikant ist (2-seitig) und der p-Wert 0,036 beträgt. Wie kann nun ein solches Ergebnis gedeutet werden? Heißt das, dass es einen Zusammenhang in der Grundgesamtheit gibt, aber dieser so gering ist, dass der Proband nicht in der Lage ist sich (für diesen Parameter) selbst richtig einzuschätzen?
Darüber hinaus bin ich noch auf ein weiteres Problem gestoßen. Ich wollte schauen, ob überhaupt insgesamt über alle Altersklassen hinweg eine Korrelation besteht und dann in den einzelnen Altersgruppen. Dann wies SPSS signifikante Werte (aber eine geringe Korrelation) bei den Gesamtwerten aus – aber keine signifikanten Werte in den Untergruppen, also für die einzelnen Altersgruppen. Aber wie kann das sein? Wenn in der Gesamtheit eine Signifikanz zu erkennen ist, dann muss dies doch auch (zumindest wenigstens) für eine Untergruppe gelten?!
Ich hoffe Sie können mir eine kurze Rückmeldung geben. Ich wäre Ihnen unheimlich dankbar.
Hallo Larry,
ich antworte mal für Frau Moritz 🙂 Es kann durchaus sein, dass auch ein schwacher Korrelationskoeffizient signifikant wird. Dann war einfach die Fallzahl groß genug, um diese schwache Korrelation als signifikant nachzuweisen. Bei kleinerer Fallzahl wäre das nicht möglich gewesen. Mit kleiner Fallzahl kann man nur größere Effekte als signifikant nachweisen. Und das ist auch genau der Grund, warum die Korrelation auf den Untergruppen berechnet dann nicht mehr signifikant ist: hier ist die Fallzahl dann nicht mehr groß genug, um den Effekt als signifikant nachzuweisen. Die Signifikanz hängt also extrem von der Fallzahl ab: um kleinere Effekte als signifikant nachzuweise wird eine große Fallzahl gebraucht. Für große Effekte reicht auch schon eine kleine Fallzahl. Deshalb ist es so wichtig, sich nicht nur auf den p-Wert zu beziehen sondern auch die Effektgröße (in dem Fall den Korrelationskoeffizienten) zu interpretieren.
Schöne Grüße
Daniela
Liebe Daniela,
ich danke vielmals für dieses plausible Feedback! Wenn die Hypothese aufgestellt ist: dass es einen Zusammenhang zwischen der persönlichen Einschätzung und einer objektiven Erfassung gibt, kann ich für die signifikanten, aber gering korrelierten Ergebnisse nun sagen, dass ein schwacher Zusammenhang tatsächlich auch in der Grundgesamtheit zu finden ist. Für die Untergruppen gilt, dass hier kein signifikanter Zusammenhang besteht. Heißt das nun, dass einfach kein Zusammenhang zwischen subjektiver und objektiver Messung für die Untergruppen besteht ODER dass ein oder kein Zusammenhang nicht nachgewiesen ist, weil jetzt bspw. hier die Fallzahl zu klein war und dies nicht als repräsentatives Ergebnis gilt? Also sprich: ich bin gerade etwas verwirrt, ob ein nicht signifikantes Ergebnis auch gleich heißt, dass das Ergebnis nicht auf die Grundgesamtheit übertragen werden kann – ich hatte keine Signifikanz in diesem Bereich zunächst damit gleichgesetzt, dass Personen schlecht darin waren sich einzuschätzen (da auch der Korrelationskoeffizient so gering war)
Vielen vielen Dank!
Hallo Larry,
das nicht signifikante Ergebnis heißt, dass hier kein signifikanter Zusammenhang nachgewiesen werden konnte. Das heißt nicht, dass es keinen gibt, sondern nur, dass er nicht groß genug war, um ihn als signifikant nachzuweisen. Mit diesen Signifikanztests kann nur ein Zusammenhang nachgewiesen werden. Es kann nicht gezeigt werden, dass es keinen gibt. Dazu bräuchte man andere Methoden.
Liebe Grüße
Daniela