Was der p-Wert (nicht) kann

Selbst außerhalb von Wissenschaft und Statistik hat man schon mal vom p-Wert gehört. Dieses mystische Wesen, von dem alle wollen, dass es kleiner als 0,05 ist. Daran werden dann die Zauberworte „statistische Signifikanz“ festgemacht. Manchmal sieht man merkwürdige Schlagzeilen, in denen die Abschaffung des p-Werts gefordert wird. Was ist dran an der Kritik und – was bedeutet das überhaupt?

TL;DR
– Wenn wir Gruppen miteinander vergleichen, rechnen wir statistische Tests, die oft p-Werte ausspucken. Ist dieser Wert kleiner als 0,05, sprechen wir von statistischer Signifikanz.
– „Statistische Signifikanz“ wird aber häufig – auch von Profis – falsch interpretiert.
– Der p-Wert hilft uns, die Passung unserer Daten zur Nullhypothese einzuschätzen – also z.B. der Hypothese, dass es keinen Unterschied zwischen zwei Burgerläden gibt.
– Das Problem: Selbst wenn p < 0,05 ist heißt das nicht, dass es wahrscheinlicher ist, dass es einen Unterschied zwischen zwei Gruppen gibt.
– Deswegen argumentieren einige Wissenschaftler für die Abschaffung stumpfer Signifikanztests – dafür sollen wir Unsicherheit in den Daten aktiv berichten.

Herausforderung p-Wert

Immer, wenn wir wissen wollen, ob es einen Unterschied zwischen zwei Gruppen gibt, rechnen wir einen statistischen Test.1 Zum Beispiel, ob Menschen, die ein Medikament erhalten haben, bessere Chancen auf Heilung haben als die, die keins genommen haben. Bei den aktuell gängigsten Tests kommt dann ein sogenannter p-Wert heraus – wenn der kleiner als 0,05 ist, sprechen wir von einem „statistisch signifikanten Unterschied“.2 Was das genau bedeutet, ist aber gar nicht so einfach. Selbst Menschen mit statistischer Ausbildung ziehen häufig falsche Schlussfolgerungen aus dem p-Wert. Dieses Missverständnis wird gerne als (Mit-)Ursache der Replikationskrise in der Wissenschaft genannt, also dem Problem, dass sich Befunde in einem erneuten Experiment so nicht mehr zeigen lassen. Ein wesentlicher Schuldiger ist dabei der Publication Bias, der direkt mit dem p-Wert zusammenhängt: Statistisch signifikante Befunde (p < 0,05) haben größere Chancen auf eine Veröffentlichung. Naheliegend, dass einige Autoren daher versuchen, möglichst kleine p-Werte herauszubekommen – was man z.B. durch Veränderung der Ausschlusskriterien von Probanden oder andere statistische Kniffe erreichen kann. Dieses sogenannte „p-hacking“ geschieht nicht immer absichtlich – es ist nicht immer offensichtlich, was ein notwendiger Griff an die Daten ist und was ein falscher. Vielleicht singen deswegen Coldplay in The Scientist: „Nobody said it was easy.“

Das Problem mit den p-Werten ist also eine Mischung aus Unwissen und (gezielter) Manipulation. Um die Kritik zu verstehen, die aktuell am p-Wert geübt wird, müssen wir aber zunächst verstehen, was der p-Wert überhaupt aussagt. Ich will das gar nicht schön reden: Die Interpretation eines p-Wertes ist eine ordentliche Kopfnuss und ich musste auch erst mal drei Stunden ins Leere starren, bevor ich mich in der Lage gefühlt habe, diesen Beitrag zu verfassen. Aber keine Sorge – ich denke, ich kriege eine nachvollziehbare Erklärung hin, die keinen Mathe- oder Statistikkurs voraussetzt.

Warum der p-Wert?

Wieso veranstalten wir das ganze Theater überhaupt? Weil wir immer dann, wenn wir Gruppen vergleichen, niemals die ganze Bevölkerung untersuchen können. Stattdessen ziehen wir eine kleine Stichprobe, mit der wir Aussagen über die „Population“ machen wollen.3 Dabei kann es zufällig passieren, dass wir uns Unterschiede zwischen den Gruppen einfangen, die gar nichts mit dem Effekt zu tun haben, den wir untersuchen wollen. Am besten stellen wir das mit einem Beispiel dar. Wir vergleichen zwei Burgerläden und wollen wissen, ob einer davon bessere Onlinebewertungen erhalten hat als der andere.

Wir simulieren das mal mit R, meiner Lieblingsprogrammiersprache. Das hat den Vorteil, dass wir alle Bewertungen (also die gesamte Population) kennen und verschiedene Szenarien durchspielen können. Ich generiere mal 10 Millionen Burgerladen-Bewertungen auf einer Skala von 1 – 10. Weil ich’s kann. Diese 10 Millionen Bewertungen verwende ich einmal für Burgerladen 1 und einmal für Burgerladen 2. Das heißt, insgesamt gibt es 20 Millionen Bewertungen und die beiden Burgerläden sind exakt identisch. Für jeden der beiden Läden sieht die Verteilung der Bewertungen so aus:

Die Bewertungen zeigen eine gewisse Streuung: Einige Kunden haben einen besonders guten Tag erwischt und volle zehn Punkte gegeben, einige Kunden sind vielleicht generell schwer zu begeistern und mussten auch noch lange warten und haben deswegen nur einen Punkt vergeben. Wir haben es aber insgesamt mit soliden, wenn auch nicht großartigen Burgerläden zu tun: Die allermeisten Bewertungen liegen bei beiden um die fünf oder sechs Punkte, und das ist auch etwa die durchschnittliche Bewertung.

Im echten Leben hätten wir aber nicht alle 20 Millionen Bewertungen zur Verfügung, sondern würden uns eine Handvoll Bewertungen – sagen wir 100 pro Burgerladen – aus dem Internet ziehen.4 Genau da liegt der Knackpunkt: Selbst wenn wir die Bewertungen zufällig auswählen, kann es zu einer Verzerrung kommen: Mit etwas Pech erwischen wir für Burgerladen 1 ausgerechnet die schlechtesten Bewertungen und für Burgerladen 2 nur die besten. Wir sehen, dass von 10 Millionen Bewertungen 500.000 Mal die 1 vergeben wurde – es gibt also diverse Möglichkeiten, für alle 100 Bewertungen von Burgerladen 1 ausschließlich 1-Punkte-Bewertungen zu ziehen. Es wirkt dann, als sei Burgerladen 2 der bessere – dabei haben beide Läden, wenn man alle Bewertungen betrachtet, exakt dieselbe Wertung erhalten.

Dieses Phänomen – also zufällig Daten zu erwischen, die die wahren Verhältnisse gar nicht angemessen darstellen – nennt man Sampling Error (Stichprobenfehler). Selbst wenn man seine Stichproben völlig zufällig zieht und eine große Menge an Daten sammelt, kann man ihn nicht vollständig verhindern. Es sei denn natürlich, man schafft es wirklich die gesamte Population zu befragen – das ist aber unrealistisch.

Was der p-Wert uns sagen möchte

Statistische Tests – und der daraus resultierende p-Wert – versuchen genau dieses Problem einzuschätzen: Wie häufig finde ich durch ein wenig Pech bei der Stichprobenziehung einen Unterschied zwischen den beiden Burgerläden, die in Wahrheit gar nicht unterschiedlich sind? Hier zeigt sich die Macht meiner Simulation: Ich kann so oft wie ich möchte so eine zufällige Stichprobenziehung nachstellen. 10.000 Mal greife ich 100 Bewertungen pro Burgerladen aus den Millionen von Bewertungen heraus – ich tue also so, als würde ich mein Burgerexperiment 10.000 Mal durchführen. Dann sehe ich mir an, in wie vielen Fällen es so aussieht, als sei der eine Laden besser als der andere – obwohl sie eigentlich gleich gut sind. Jedes Mal vergleiche ich die Burgerläden mit einem sogenannten t-Test, der mir dann einen p-Wert ausspuckt. Dieser sagt mir nun: In wie viel Prozent der Fälle würden wir einen noch extremeren Unterschied erwarten als den, den wir gerade beobachtet haben – angenommen, dass es in Wahrheit keinen Unterschied gibt? Den Zusatz „angenommen, dass es in Wahrheit keinen Unterschied gibt“ können wir vorerst unter den Tisch fallen lassen. Durch unsere Simulation haben wir den Luxus, dass wir wissen, dass es in Wahrheit keinen Unterschied gibt. In unserem Fall dürfen wir den p-Wert also direkt übersetzen mit: „Wie hoch ist die Wahrscheinlichkeit, in all unseren Simulationen einen noch extremeren Unterschied zwischen den Burgerläden zu finden als diesen?“ Das klingt erst mal ein wenig kompliziert, aber keine Sorge: Gleich wird es deutlicher. Zunächst einmal wollen wir anhand von drei Beispielen aus unseren 10.000 simulierten Burgerexperimenten ein Gefühl dafür bekommen, wie unsere Daten bei verschiedenen p-Werten aussehen. Unten findet ihr eine grafische Darstellung der drei genannten Beispiele.

Beispiel 1: In unseren Simulationen finden sich mehrere Fälle, in denen der t-Test p = 1 ausspuckt. Das bedeutet: So ziemlich jede mögliche Ziehung an Bewertungen würde einen größeren Unterschied zwischen den Burgerläden bedeuten als der, den wir hier vorliegen haben. Zum Beispiel dann, wenn beide Burgerläden eine mittlere Bewertung von 5,16 erhalten haben. Es leuchtet sofort ein, dass der Unterschied in einer anderen Stichprobe allenfalls größer, aber niemals kleiner sein kann. Weil 1 nur eine andere Schreibweise für 100 % ist bedeutet das: In 100 % unserer simulierten Burgerladenvergleiche würde sich ein größerer Unterschied zwischen den beiden finden.

Beispiel 2: Wie sieht die magische Grenze von p = 0,05 aus? Diesen Wert erreichen wir ziemlich genau, wenn wir beispielsweise eine mittlere Bewertung von 5,11 für Burgerladen 1 und eine mittlere Bewertung von 5,74 für Burgerladen 2 finden. Weil 0,05 wiederum nur eine andere Schreibweise für 5 % ist, bedeutet das: In nur 5 % unserer simulierten Stichproben erwarten wir einen noch größeren Unterschied zwischen den beiden Burgerläden. Das ist es also, was wir „statistisch signifikant“ nennen.

Beispiel 3: Was ist der kleinste p-Wert, den ich zwischen meinen 10.000 Mal zufällig gezogenen Gruppen finde? Eine mittlere Bewertung von 5,98 für Burgerladen 1 und 4,075 für Burgerladen 2. Der p-Wert beträgt hier p = 0,00013 – man würde hier von einem „hochsignifikanten Unterschied“ sprechen. Ich finde den Unterschied von beinahe 2 Punkten ziemlich krass wenn man bedenkt, dass die beiden Restaurants sich in Wahrheit gar nicht unterscheiden. Aber der Unterschied ist immer noch überraschend klein wenn man wiederum überlegt, dass ich theoretisch auch 100 Mal die 1 für Burgerladen 1 und 100 Mal die 10 für Burgerladen 2 hätte ziehen können. Wenn wir oft genug Stichproben ziehen, wird auch genau dieser Fall irgendwann eintreten. Das heißt auch: Irgendwo wird irgendeinen Burger-Forscher dieser merkwürdige Zufall irgendwann treffen.

Mit unseren Simulationen können wir überprüfen, ob unser t-Test richtig gearbeitet hat. Der Logik nach sollte bei etwa 5 % unserer zufällig gezogenen Burger-Stichproben ein p-Wert herauskommen, der kleiner ist als 0,05. Bei 2 % der Vergleiche sollte ein p-Wert kleiner als 0,02 herauskommen und so weiter. Und tatsächlich: Von meinen 10.000 Vergleichen resultieren 5,14 % in einem p-Wert < 0,05.

Der p-Wert hilft uns also, die Wahrscheinlichkeit des Sampling Errors einzuschätzen. Hier kommt die Krux: Der p-Wert gibt uns nur dann eine verlässliche Einschätzung der Wahrscheinlichkeit eines Sampling Errors, wenn es in Wahrheit gar keinen Unterschied zwischen den Gruppen gibt. Das konnten wir gerade vernachlässigen, weil wir genau wissen, dass die Burgerläden sich wirklich nicht unterscheiden. Damit erhalten wir eine perfekte Einschätzung, wie oft wir einen Sampling Error zu erwarten haben. Hätten wir es aber mit unterschiedlich guten Burgerläden zu tun, dann würden bei unseren 10.000 Vergleichen nicht mehr nur 5 % p-Werte herauskommen, die kleiner 0,05 sind. Sondern mehr.

Ja, und – wo ist dann das Problem?

Zunächst leuchtet das Problem mit dem p-Wert ein: In der Realität wissen wir nicht, ob sich die Burgerläden unterscheiden oder nicht. Das versuchen wir ja gerade herauszufinden! Wir wissen also auch nicht, ob unser p-Wert als verlässliches Maß für den Sampling Error taugt. Das klingt nach einem völlig nutzlosen Werkzeug. Aber im zweiten Schritt kommen wir schnell auf folgende Überlegung: „Moment mal. Wir wissen, dass 5 % der p-Werte kleiner 0,05 sind, wenn es keinen Unterschied gibt. Und dass umso mehr p-Werte kleiner 0,05 sind, wenn es tatsächlich einen Unterschied zwischen den beiden Burgerläden gibt. Das heißt dann doch: Wenn der p-Wert kleiner 0,05 ist, dann ist es wahrscheinlicher, dass es einen Unterschied gibt!“ So denken viele Menschen: Sobald p < 0,05 gehen sie davon aus, dass Burgerladen 1 besser (oder schlechter) ist als Burgerladen 2. Aber, Ladies and Gentlemen, genau hier liegt der Fehler. Gut aufgepasst, denn hier kommt der springende Punkt an der ganzen Sache, der auch erfahrene Statistiker aus den Socken hauen kann: Wir berücksichtigen nicht, dass wir es hier mit sogenannten bedingten Wahrscheinlichkeiten zu tun haben. Die hat der Pfarrer Thomas Bayes damals berühmt gemacht und noch heute nutzen wir in so einem Fall den „Satz von Bayes“.

Kein Krebs trotz positivem Test

Das berühmteste und beeindruckendste Beispiel für den Satz von Bayes ist das von der Mammographie und Brustkrebs. Das im Detail zu besprechen, würde einen eigenen Blogpost brauchen. Die Kernaussage lässt sich aber leicht herunterbrechen: Sagen wir, die Wahrscheinlichkeit Brustkrebs zu haben liegt in der Bevölkerung bei 1 %. Um Krebs zu erkennen, machen wir eine Mammographie – und wie das bei allen diagnostischen Tests so ist, liegt der Test manchmal falsch. Wenn eine Frau Krebs hat, zeigt der Test das mit einer Wahrscheinlichkeit von 80 % korrekt an. Aber auch bei gesunden Frauen lautet die Diagnose mit immerhin 9,6 % Wahrscheinlichkeit: Krebs. In unserem Beispiel erhält nun eine Frau die Diagnose Krebs und wir wollen wissen, wie wahrscheinlich es ist, dass sie auch tatsächlich welchen hat. Die überraschende Antwort: 7,8 %. Das heißt: Ja, die Wahrscheinlichkeit, dass sie Krebs hat, ist nach dem Test gestiegen (von 1 % auf 7,8 %). Aber: Es ist immer noch viel wahrscheinlicher, dass sie keinen Krebs hat.

Dasselbe Schicksal kann uns bei einem Signifikanztest ereilen: Bei p < 0,05 ist es zwar wahrscheinlicher als vorher, dass es einen Unterschied zwischen den Burgerläden gibt. Es kann aber trotzdem noch so sein, dass „kein Unterschied“ wahrscheinlicher ist als „Unterschied“. Und zwar viel wahrscheinlicher. Das bedeutet auch: Der p-Wert macht keine Aussage darüber, ob es nun einen Unterschied zwischen den beiden Burgerläden gibt oder nicht – oder was davon wahrscheinlicher ist!

Wichtig hierbei ist: Das muss nicht so sein. Es kann durchaus sein, dass es nach einem positiven Test wahrscheinlicher ist Krebs zu haben als keinen Krebs zu haben. Oder dass es nach einem statistisch signifikanten p-Wert wahrscheinlicher ist, dass es einen Unterschied gibt. Dieser verwirrende Effekt im Krebsbeispiel tritt unter anderem deswegen auf, weil es von vornherein sehr unwahrscheinlich ist, überhaupt Krebs zu haben. Wir wissen in unserem Burgerladenbeispiel aber nicht, wie wahrscheinlich es ist, ob ein Unterschied existiert.

Oh Gott. Wozu machen wir das dann überhaupt?!

Genau das fragen sich aktuell einige Wissenschaftler. Über 800 von ihnen haben eine Petition unterschrieben, Signifikanztests (und damit p-Werte) in Rente zu schicken. Das ist eine beachtliche Anzahl, aber gemessen an allen Wissenschaftlern auf der Welt ein Bruchteil. Wohlgemerkt liegt ihr Problem dabei nicht so sehr in den Signifikanztests an sich, sondern in ihrem Missbrauch. Wie wir gesehen haben taugen p-Werte nicht viel, wenn man sie als Entscheidungskriterium für „Unterschied“ oder „kein Unterschied“ nutzt. Genau so werden sie aber oft interpretiert. Nichtsdestotrotz liefert der p-Wert Informationen über die Passung unserer Daten mit der Hypothese, dass es keinen Unterschied zwischen den Burgerläden gibt. Der p-Wert ist eigentlich ein ganz nützlicher Zeitgenosse. Wenn man die Welt nicht stumpf in „signifikant oder nicht“ einteilt (gerne auch in Form von Sternchen). Oder, noch schlimmer, die Wahrscheinlichkeit von Hypothesen aus dem p-Wert ableitet. Wenn aber die allermeisten Leute den Ausdruck „statistisch signifikant“ – trotz Ausbildung – falsch verstehen, dann sollte man sich aber vermutlich tatsächlich etwas Besseres einfallen lassen.

Und äh … stattdessen?

Die Initiatoren der Petition befürworten den Einsatz von Intervallen. Anstatt zum Beispiel den Unterschied in den Mittelwerten zwischen den beiden Burgerläden anzugeben, würde stattdessen berichten, in welchem Bereich ich den Unterschied vermute. Auch das kann man rechnerisch bestimmen. Aus „Burgerladen 1 hat im Mittel 1,24 Punkte mehr erhalten“ wird dann: „Burgerladen 1 hat im Mittel zwischen 0,41 Punkten weniger und 2,01 Punkten mehr erhalten.“ Das zeichnet ein ganz anderes Bild – bringt aber auch mehr Unsicherheit mit sich. Was also, wenn ich ein Sponsor bin, der entscheiden möchte, welchen der beiden Läden er unterstützt? Da brauche ich klare Aussagen – „Unterschied oder nicht“ anstatt wischi-waschi Intervallen. Die Autoren der Petition argumentieren allerdings, dass Entscheidungen auch zuvor nicht nur basierend auf p-Werten getroffen wurden, sondern unser hypothetischer Sponsor sicherlich noch eine ganze Menge mehr bedenken würde: Welchen Laden er sympathischer findet, wo er mehr Zukunftspotential sieht und so weiter. Wenn es so viel Unsicherheit gibt, dann ist eine erzwungene Ja-oder-Nein-Entscheidung womöglich sowieso fehl am Platze. Keine Entscheidung ist schließlich besser als die falsche – oder? Am Ende bleibt das eine philosophische Frage, die sich darum dreht, wie viel Risiko oder Fehler wir bereit sind, in unseren Entscheidungen zu tolerieren – und wie dringend wir in der Situation eine Ja-oder-Nein-Entscheidung brauchen.

Andere Ansätze bieten neue statistische Verfahren, die erst möglich geworden sind, seit wir entsprechende Rechenpower zur Verfügung haben. Viele davon nutzen zum Beispiel Simulationen, wie wir das gerade getan haben. Auch der Satz von Bayes, den wir vorhin kennengelernt haben, spielt aktuell eine prominente Rolle. Mit dem ist es durchaus möglich, zwei Hypothesen miteinander zu vergleichen. Natürlich gibt es auch bei diesen Ansätzen Probleme, wenn man sie falsch interpretiert. Das ist nicht bloß eine Schwäche des p-Wertes.

Eigentlich lässt sich die ganze Situation also auf ein einziges Fazit herunterbrechen: Es ist selten einfach oder schwarz-weiß. Wenn wir Daten anfassen, dann müssen wir uns auf Unsicherheit und manchmal überraschend schwammige Ergebnisse gefasst machen. Das bedeutet nicht, dass Statistik beliebig wäre und wir sowieso keine verlässlichen Schlussfolgerungen mehr treffen können. Es heißt nur, dass der Weg dorthin eventuell ein bisschen länger und anstrengender ist.

Update: Wer sich – wie Stefan Rensing auf Twitter – die Frage stellt, ob ich nicht einen nicht-parametrischen Test hätte rechnen müssen, weil die Daten ordinalskaliert sind: Ich habe das hier mal ausprobiert. Auf meinem englischen Twitter-Account ist die Sache dann viral gegangen und es kamen weitere Anmerkungen und Einwände. Unter diesem Link findet ihr den aktuellen Stand aller Analysen und in diesem GitHub Repo auch den R-Code dahinter.


  1. Statistische Tests werden nicht nur für Unterschiede zwischen Gruppen verwendet, aber das ist der häufigste Fall – und der, der euch vermutlich meistens interessiert.
  2. Ich nutze hier die „vertrautere“ Schreibweise 0,05, aber in wissenschaftlichen Papers werdet ihr .05 lesen – heißt dasselbe. Diese Grenze ist eine Konvention, auf die man sich geeinigt hat, aber manchmal gibt es gute Gründe, eine andere Grenze für statistisch Signifikanz zu setzen.
  3. Damit sind nicht unbedingt „alle Menschen auf der Welt“ gemeint. Für ein Medikament gegen Lungenkrebs sind es vielleicht „alle Menschen mit Lungenkrebs“.
  4. Das ist nicht wichtig für dieses Beispiel, aber wer es genau wissen will: Ich gehe davon aus, dass jede Person nur je einen der beiden Läden bewertet hat. Niemals beide.

Quellen und Links in erwähnter Reihenfolge, Stand 03.06.2019

[1] Gigerenzer, G. (2018). Statistical Rituals: The Replication Delusion and How We Got There. Advances in Methods and Practices in Psychological Science 1(2), 198 – 218.
Eine Publikation, mit der ich in ihrem Tonfall nicht übereinstimme, aber siehe S. 207 für eine Tabelle dazu, wie viel Prozent der befragten Forscher und Studierenden Fehlannahmen über den p-Wert zeigten
[2] Hopewell, S., Loudon, K., Clarke, M.J., Oxman A.D. & Dickersin, K. (2009). Publication bias in clinical trials due to statistical significance or direction of trial results. Cochrane Database of Systematic Reviews 1, Art. No.: MR000006. DOI: 10.1002/14651858.MR000006.pub3.
[3] Head, M.L., Holman, L., Lanfear, R., Kahn, A.T. & Jennions, M.D. (2015). The Extent and Consequences of P-Hacking in Science. PLOS Biology 13(3): e1002106. https://doi.org/10.1371/journal.pbio.1002106
[4] Krauss, S., Bruckmaier, G. & Schmeisser, C. (2011). Fortbildungsveranstaltung für MathematiklehrerInnen zum Teilgebiet Stochastik. Uni Regensburg.
[5] Amrhein, V., Greenland, S. & McShane, B. Scientists rise up against statistical significance. Nature 567, 305-307. doi: 10.1038/d41586-019-00857-9

1 Kommentar

  1. Moin Moin aus Hamburg ! ich bin gerade auf der Suche nach P-Wert Interpretationshilfen auf Ihre Seite gstossen ! Super Betrachtung 🙂 Vielen Dank.
    Hier aber meine Knobelfrage (ein Kunde stellte sie mir) – wieso kann ein p-Wert (Wilcoxon, Vergleich abhängiger Messungen) einen Wert von z.B 0,00076 (also sehr sehr klein) annehmen? Vorstellbar sin 0,01 oder so, aber sooooooo kleine Werte?
    Haben Sie da eine Antwortidee? Ich meine, dass das formel- und antwortbedingt bedingt ist und einfach alle Werte zwischen 0 -0,5 signifikant sind“.
    Grusss C.Perleberg (perleberg@aol.com)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

© 2019 Ein Glas Rotwein

Theme von Anders NorénHoch ↑