Statistische Tests sind wie Mikrowellen – sie funktionieren nur dann, wenn man die richtigen Dinge reinsteckt. Einige sind aber zum Glück auch sehr gnädig und arbeiten auch dann noch korrekt, wenn man sie ein bisschen ärgert. Bei meinen letzten Simulationen war ich überrascht, wie viel „Ärgern“ so ein Test vertragen kann – und habe mich auf die heilige Mission begeben, den Wilcoxon-Test in die Knie zu zwingen. Es ist ein wenig eskaliert. Seht es euch an!
TL;DR
– Ich versuche gezielt durch Verletzungen von Voraussetzungen (schiefe Daten, unterschiedliche Streuung) einen t-Test und eines Wilcoxon-Test kaputt zu kriegen.
– Ergebnis: Der Wilcoxon-Test versagt bei steigender Stichprobengröße und unterschiedlicher Streuung, vor allem bei schiefen Daten.
– Das ist insofern dramatisch, weil der Wilcoxon-Tet eigentlich empfohlen wird, wenn die Annahmen für den t-Test verletzt sind.
Whoop, whoop!
Wisst ihr was? So viel Spaß wie in den letzten zwei Tagen hatte ich ewig nicht mehr. Und damit meine ich nicht, dass es vorher trostlos gewesen wäre. Aber es ist eine ganz besondere Art diebischer Freude die man empfindet, wenn man gegen statistische Tests antritt. Alles hat damit angefangen, dass ich p-Werte erklärt habe und dafür simulierte Vergleiche zwischen zwei Burgerläden als Beispiel verwendet habe. Dann kam die Rückfrage auf Twitter, ob ich den statistischen Test, den ich verwendet habe, in meinem Beispiel überhaupt rechnen darf. Weil die Voraussetzungen für den Test (einen t-Test) verletzt waren. Ich habe also in weiteren Simulationen gezeigt, dass der t-Test sich durch die verletzten Annahmen nicht beeindrucken lässt. Allerdings habe ich dabei festgestellt, dass auch die Alternative, ein Wilcoxon-Test, sich genau so gut geschlagen hätte. Das hat mich überrascht, denn ich hatte dieses Paper von Fagerland im Kopf, der in Simulationen zeigt, dass der Wilcoxon-Test (der immer als Alternative empfohlen wird, wenn die Annahmen für den t-Test nicht erfüllt sind!) vor allem mit steigender Stichprobengröße desaströs versagt. Offensichtlich hatte ich die Achillesferse des Wilcoxon-Tests (und des t-Tests) nicht getroffen. Aber ich wollte nicht eher ruhen, bis ich das geschafft habe!
Im letzten Beitrag haben wir t-Test und Wilcoxon-Test in zwei Szenarien antreten lassen:
- Zwei identische Normalverteilungen als Ausgangslage für unsere Stichprobenziehungen.
- Zwei identische (aber ordinalskalierte) und ziemlich schiefe Verteilungen.
Wir machen hier weiter mit Versuchen 3 – 7. Die Details der Simulation findet ihr im vorherigen Beitrag. „Stichprobengröße“ bezieht sich allerdings auf die Anzahl an Bewertungen für einen Burgerladen. Bei einer Stichprobengröße von 10 wurden also 10 Bewertungen für Burgerladen 1 und 10 Bewertungen für Burgerladen 2 gezogen – also insgesamt 20 Bewertungen.
Noch schiefer
Im Fagerland-Paper wurden sehr schiefe Verteilungen verwendet, um den Wilcoxon-Test klein zu kriegen. Vielleicht war meine Verteilung nicht schief genug? Ich habe also mal eine extrem schiefe sogenannte Lognormalverteilung als Ausgangslage generiert. Wieder werden beide Gruppen an Burgerbewertungen aus derselben Verteilung gezogen.


Hier zeigt sich der Wilcoxon-Test bei (sehr) kleinen Stichproben tatsächlich verlässlicher und findet artig 5 % p-Werte unter 0,05. Der t-Test findet mit 3 % zwar zu wenige p-Werte unter 0,05, aber das ist in unserem speziellen Szenario gar nicht so übel. Jemand, der stumpf das Kriterium „Ab p < 0,05 behaupte ich, dass die Burgerläden unterschiedlich sind“ anwendet, würde in unserem Beispiel weniger häufig falsch liegen, wenn er den t-Test verwendet. Aber Achtung. Diese Logik gilt nicht grundsätzlich!
Same same, but different
Ich bin noch nicht zufrieden, denn die krassen Ergebnisse von Fagerland finde ich nicht. Dort wurden allerdings auch zwei verschiedene Verteilungen für die beiden Stichproben gewählt. Der Mittelwert war exakt derselbe, aber die Streuung war anders. Ich habe so ein Szenario für meine Burgerbewertungen mal dargestellt:

Im Mittel sind die beiden Burgerläden gleich. Aber während Burgerladen 1 fast nur Bewertungen von 5 und 6 erhalten hat, hat Burgerladen 2 auch einige 1er- und 10er-Bewertungen erhalten. Wenn wir nun wieder Vergleiche rechnen, passiert das hier:

HA! Wir haben es geschafft. Der Wilcoxon-Test gibt systematisch zu häufig p < 0,05 aus! Selbst bei kleinen Stichproben ist er nun schlechter als der t-Test. Der wiederum zeigt sich absolut unbeeindruckt von unserem Versuch, ihn in die Knie zu zwingen.
Ungefähr Fagerland
Das ist aber noch nicht das Muster, das Fagerland findet. Ich habe in Beispiel 4 allerdings auch eine Normalverteilung verwendet. Fagerland hat zwar dieselbe Logik angewandt wie ich (selber Mittelwert, unterschiedliche Streuung), aber er hat einmal zwei Lognormalverteilungen und einmal zwei Gammaverteilungen verglichen – also sehr schiefe Verteilungen. Wir kombinieren nun also a) schiefe Daten und b) unterschiedliche Streuung. Probieren wir das einmal aus.1






Aha! Das ist genau das Muster, das Fagerland gefunden hat. Schockierend, denn obwohl es überhaupt keinen Unterschied im Mittelwert der Burgerladenbewertungen gibt, spuckt der Wilcoxon-Test am Ende jedes Mal ein signifikantes Ergebnis aus. Der t-Test zeigt sich weiterhin unbeeundruckt.
Das große Finale
Eigentlich reicht das schon. Aber zum krönenden Abschluss kombiniere ich Szenario 5 und 6 und vergleiche nun eine Lognormalverteilung und eine Gammaverteilung miteinander. Das sieht so aus:



Fazit
Was bedeutet das nun? Wir sehen, dass der t-Test extrem robust ist und obwohl wir seine „Spielregeln“ verletzen weiterhin gute Arbeit leistet. Der Wilcoxon-Test dagegen versagt bei unterschiedlichen Streuungen, insbesondere bei schiefen Verteilungen, auf ganzer Linie. Das ist besonders beunruhigend, weil der Wilcoxon-Test genau dann als Alternative empfohlen wird, wenn die Voraussetzungen für den t-Test nicht erfüllt sind. In Statistik-Vorlesungen lernt man üblicherweise, dass man im Fall von schiefen Daten den Wilcoxon-Test verwenden muss! Wir sehen, dass das in unseren Beispielen fatal wäre.
Einige Anmerkungen bleiben aber noch. Erstens, wie ich schon im vorherigen Beitrag gesagt habe: Wir haben hier nur die Fähigkeit unserer beiden Tests untersucht, keinen Unterschied korrekt zu erkennen. Um herauszufinden, ob ein statistischer Test fehlerfrei meldet, dass es einen Unterschied gibt, müssen wir die Sache etwas anders angehen. Aber allein die hohe Fehlerrate wenn es gar keinen Unterschied gibt reicht aus, um gegen die Verwendung des Wilcoxon-Tests zu argumentieren.
Zweitens würden die meisten Leute sich wohl hüten zu sagen, dass die Burgerläden in den Beispielen 4 – 7 „gleich“ sind. Klar, der Mittelwert ist derselbe. Aber die unterschiedliche Streuung spricht dafür, dass Leute sie vermutlich sehr unterschiedlich wahrnehmen. In Beispiel 4 würde Burgerladen 1 z.B. konstant sehr mittelmäßige Burger servieren, während Burgerladen 2 mal auf Sternekochniveau, mal unterirdisch performen würde. Man könnte also sagen, dass der Wilcoxon-Test unser intuitives Empfinden von „unterschiedlich“ hier besser abbildet. Das ist aber nicht, was wir den Test gefragt haben. Wir wollten wissen, ob die Mittelwerte sich unterscheiden. Diese Frage hat der Wilcoxon-Test hier nicht angemessen beantwortet.
Auf meinem englischen Twitter-Account ist die Sache dann viral gegangen und es kamen weitere Anmerkungen und Einwände. Unter diesem Link findet ihr den aktuellen Stand aller Analysen und in diesem GitHub Repo auch den R-Code dahinter.
- Ich sollte erwähnen, dass Fagerland im Gegensatz zu mir je zwei Stichproben mit demselben Mittelwert, derselben Schiefe und unterschiedlicher Streuung verwendet hat. Ich nehme welche mit demselben Mittelwert, aber unterschiedlicher Schiefe und Streuung.
Quellen und Links in erwähnter Reihenfolge, Stand 08.06.2019
[1] Ein Glas Rotwein – Was der p-Wert (nicht) kann – 03.06.2019
[2] Ein Glas Rotwein – Mehr Burger und p-Werte – 08.06.2019
[3] Fagerland, M. W. (2012). T-tests, non-parametric tests, and large studies – a paradox of statistical practice? BMC Medical Research Methodology, 12 (1), 78. doi:10.1186/1471-2288-12-78
Schreibe einen Kommentar