Zu meinem letzten Beitrag über den p-Wert wurde auf Twitter gefragt: „Hätte man da nicht einen nicht-parametrischen Test anstatt eines t-Tests rechnen müssen? Die Daten sind doch ordinalskaliert.“
Wer jetzt denkt, dass das viele komische Wörter in der Frage sind und der Post vermutlich zu kompliziert ist, ich formuliere das mal um: Habe ich Quatsch gerechnet? Wir überprüfen das. Wieder mit Burgerrestaurants.
TL;DR
– Rückfrage auf Twitter: Durfte ich im letzten Post überhaupt t-Tests verwenden? Die Voraussetzungen dafür waren doch verletzt.
– Ich lasse einen t-Test und die „korrekte“ Alternative (ein Wilcoxon-Test) gegeneinander antreten und komme zu dem Schluss: Es ist für mein Beispiel völlig egal, welchen der beiden man verwendet.
Der Einwand
Ich setze für diesen Post das Wissen voraus, dass ihr aus dem vorherigen Beitrag zu p-Werten habt. Dort hatte ich die Bewertungen von Burgerrestaurants mit einem statistischen Test, dem t-Test verglichen. Nun ist es aber so, dass bei jedem statistischen Test bestimmte Voraussetzungen erfüllt sein müssen, damit er (vernünftig) funktioniert. Das ist ein bisschen wie mit Metalltöpfen: Super, wenn man sie auf dem Herd verwendet. Keine Garantie mehr, wenn man sie in die Mikrowelle steckt. Beim t-Test ist es unter anderem so, dass er gerne intervallskalierte Daten hätte. Meine Burgerbewertungen sind aber – theoretisch – nur ordinalskaliert. Der Unterschied ist schnell erklärt: Bei intervallskalierten Daten ist der Abstand zwischen den Datenpunkten gleich. Bei ordinalskalierten Daten nicht.
„Verstehe ich nicht“, werdet ihr vielleicht sagen. „Es wurden Punkte von 1 – 10 für die Burgerläden vergeben, in 1er-Schritten. Das sind doch gleiche Abstände!“ Jaein. Nur, weil man irgendwas nummeriert hat, heißt das nicht, dass die Abstände zwischen den Zahlen gleich sind. Das beliebteste Beispiel sind hier immer Schulnoten: Jemand, der eine 1 bekommen hat, ist besser als jemand, der eine 2 bekommen hat.1 Aber ist 1 genau so viel besser als 2 wie eine 4 besser als 5 ist? Die Noten für eine Klausur zeigen, was ich meine. Nehmen wir folgendes Punkteschema an:

Jemand, der 100 Punkte bekommen hat, ist eine Note besser als jemand, der 81 Punkte bekommen hat. Hier beträgt der Abstand von einer 1 zu einer 2 also 19 Punkte. Jemand, der 91 Punkte bekommen hat ist aber ebenfalls eine Note besser als jemand, der 90 Punkte bekommen hat – hier beträgt der Abstand von einer 1 zu einer 2 aber nur einen Punkt. Sehen wir uns die anderen Noten an, wird es noch wilder. Obwohl es so aussieht, als gäbe es gleiche Abstände zwischen den Noten (1, 2, 3 …), ist das überhaupt nicht der Fall.
Dasselbe soll nach Ansicht einiger Leute für Bewertungsskalen gelten, wie ich sie für die Burgerrestaurants verwendet habe. Ist der Abstand zwischen einem 10-Punkte-Restaurant und einem 9-Punkte-Restaurant gleichwertig mit dem Abstand zwischen einem 5-Punkte-Restaurant und einem 4-Punkte-Restaurant? Darüber kann man streiten. Intervallskaliert oder ordinalskaliert – beides könnte richtig sein.
Warum das für unseren Fall egal ist
Erstens: Meine Daten sind nicht echt; ich habe sie selbst generiert. Dabei kann ich ruhigen Gewissens so tun, als hätten meine computersimulierten „Restaurantkritiker“ die Qualität der Burgerläden exakt auf einer Skala von 1 – 10 abgebildet, mit perfekt gleichen Abständen. Sie sind sogar normalverteilt – das heißt, sie zeigen diesen charakteristischen „Berg“ in der Mitte – was eine weitere Voraussetzung für den t-Test ist. Mit anderen Worten: Bessere Daten kann sich unser t-Test kaum wünschen! Ich habe hier noch mal 10 Millionen frische Burgerladenbewertungen simuliert2, denn wir wollen ein paar Daten schubsen:

Das Schöne ist nämlich: Ihr müsst mir nicht glauben, dass der t-Test die richtige Wahl für den Vergleich der Burgerläden war. Ich kann es beweisen. Dafür müssen wir zunächst wissen, welche Wahl ich überhaupt hatte: Was hätte ich denn statt des t-Tests tun müssen? Wenn man keinen t-Test rechnen darf, muss man seinen nicht-parametrischen Cousin anwenden: Den Wilcoxon Rank Sum Test, auch bekannt als Mann Whitney U Test. Sogenannte nicht-parametrische Tests haben weniger „Spielregeln“ für unsere Daten, mit anderen Worten: Da ist der Topf mikrowellenfest. Sie kommen zum Einsatz, wenn die Annahmen für die „pingeligeren“ parametrischen Tests verletzt sind. Aber nutzen wir doch die Macht der Simulation und lassen die beiden Tests gegeneinander antreten!
t-Test vs. Wilcoxon
Meine Damen und Herren, begrüßen sie unsere beiden Kontrahenten! In der linken Ecke der t-Test, bekannt für seine pingeligen Spielregeln. Gerüchteweise soll er aber privat ein ganz lockerer Typ sein und auf diese Regeln pfeifen. In der rechten Ecke der Wilcoxon-Test mit dem vielleicht schönsten Namen in der Statistikwelt. Ordinalskalierte Daten sollen sein Spezialgebiet sein und er ist angetreten, um den t-Test vom Thron zu stoßen. Wer wird das Rennen machen?
Große Schlachten erfordern einen epischen Rahmen, deswegen gehen wir diesmal einen Schritt weiter: Beim letzten Mal habe ich 10.000 Mal je 100 Bewertungen pro Burgerladen gezogen und verglichen. Wir wollen jetzt aber wissen was passiert, wenn unsere Stichprobe immer größer wird. Deswegen spielen wir je 10.000 Ziehungen für verschiedene Anzahlen an Bewertung pro Burgerladen durch: 10, 50, 100, 200, 500, 1000, 2000, 3000 und 4000. Das heißt: 10.000 Mal je 10 Bewertungen pro Burgerladen, 10.000 Mal je 50 Bewertungen pro Burgerladen und so weiter.
Wir erinnern uns: Da wir wissen, dass es keinen Unterschied zwischen unseren Burgerläden gibt, erwarten wir, dass 5 % der aus unseren Tests resultierenden p-Werte kleiner sind als 0,05. Eine Abweichung deutet darauf hin, dass der Test verzerrt ist und wir die Plausibilität unserer Daten über- oder unterschätzen. Schauen wir uns also an, wie gut t-Test und Wilcoxon-Test sich in dieser Hinsicht schlagen.

Was wir sehen ist:
a) Der Anteil an signifikanten Ergebnissen, aufgeteilt nach Stichprobengröße (x-Achse) und Test (verschiedenfarbige Punkte). Dazu das sogenannte 95 %-ige Konfidenzintervall: Wir würden erwarten, dass der Anteil an signifikanten Ergebnissen leicht schwankt, wenn wir die Simulation häufiger wiederholen würden. Wir würden aber auch erwarten, dass der Anteil bei 95 % dieser Simulationen im durch die Balken gezeigten Bereich liegt.3
b) Furchtbar langweilig.
Es zeigt sich nämlich, dass t-Test und Wilcoxon-Test jedes Mal denselben Anteil an signifikanten Ergebnissen ausspucken, und zwar immer brav um die 5 % herum. Die Schwankungen sehen sehr groß aus, aber bedenkt hierbei, dass die y-Achse gerade mal 2 Prozentpunkte umfasst – ich musste sie so aufpusten, damit man in der Grafik überhaupt etwas erkennen kann. Einzig in der winzigen Stichprobe von 10 Bewertungen pro Burgerrestaurant schätzt der Wilcoxon-Test den Anteil signifikanter Ergebnisse deutlich vorsichtiger ein. Dafür ist er auch gemacht: Der t-Test fordert (eine weitere Spielregel!) eine gewisse Stichprobengröße. Daher verwendet man den Wilcoxon-Test vor allem dann, wenn man sehr wenige Daten hat. Aber: Auch der t-Test liegt hier noch ordnungsgemäß bei 5 %. Es gäbe hier also trotzdem keinen Grund, den Wilcoxon-Test gegenüber dem t-Test zu bevorzugen.
Erschwerte Bedingungen
Halten wir fest: Gleichstand. Und außerdem: Für meine Burgersimulation war der t-Test scheinbar völlig in Ordnung. Was aber, wenn wir wirklich ordinalskalierte Daten gehabt hätten? Ihr ahnt es – wir simulieren das einfach mal! Hierfür teile ich die Bewertungen der Burgerrestaurants in drei schreiend ungleiche Kategorien ein: Unterdurchschnittlich, gut und exzellent. Dabei vergebe ich als neue Punktzahlen nun frech die Zahlen 1, 2 und 3. Ein Burgerladen mit zuvor einem Punkt erhält nun also wie zuvor eine 1 als Wertung. Einer mit zuvor vier Punkten hat aber nun auch die Wertung 1.


Das sieht schon unordentlicher aus. Jetzt lassen wir wieder 10.000 Mal pro Stichprobengröße einen Vergleich der mittleren Punktzahlen der Burgerrestaurants laufen. Jeweils mit einem Wilcoxon-Test und einem t-Test. Schauen wir mal, wie die beiden Kontrahenten mit diesen erschwerten Bedingungen klar kommen.

Verrückt. Wieder performen t-Test und Wilcoxon-Test vollkommen gleich. Und auch hier beide wieder artig um die 5 % herum. Selbst mit tatsächlich ordinalskalierten Daten wäre es also immer noch egal gewesen, ob ich einen t-Test oder einen Wilcoxon-Test verwende. Ehrlich gesagt überrascht mich das. Die Verteilung der Bewertungen war schief – es gab deutlich mehr niedrige als hohe Bewertungen. Auch diese verletzte „Spielregel“ wird normalerweise als Problem genannt.
Die Frage dieses Beitrags ist beantwortet: Es ist egal, ob ich einen t-Test oder einen Wilcoxon-Test verwendet hätte. Aber das reicht mir nicht. Einmal in Fahrt wollte ich den Wilcoxon-Test (oder meinetwegen auch den t-Test) mit Gewalt in die Knie zwingen. Wer sich den Spaß anschauen will, kann das in diesem Beitrag tun. Auf meinem englischen Twitter-Account ist die Sache dann viral gegangen und es kamen weitere Anmerkungen und Einwände. Unter diesem Link findet ihr den aktuellen Stand aller Analysen und in diesem GitHub Repo auch den R-Code dahinter.
Eine abschließende Bemerkung bleibt noch: Wir haben hier nur die Fähigkeit unserer beiden Tests untersucht, keinen Unterschied korrekt zu erkennen. Um herauszufinden, ob ein statistischer Test fehlerfrei meldet, dass es einen Unterschied gibt, müssen wir die Sache etwas anders angehen. Aber das ist eine Frage für einen anderen Blogpost.
- Ich nehme bewusst Abstand von der Diskussion darüber, ob Schulnoten wirklich bedeuten, dass jemand „besser“ ist, und was „besser“ eigentlich heißt.
- Wer sich über die Nummerierung der Plots wundert: Insgesamt habe ich sieben Durchläufe unter verschiedenen Bedingungen getestet. In diesem Post gibt es #1 und #2. Hier geht es mit #3 – #7 weiter.
- Das ist es, was im ersten Beitrag damit gemeint war, als von der Forderung nach mehr Intervallen die Rede war.
Quellen und Links in erwähnter Reihenfolge, Stand 08.06.2019
[1] Ein Glas Rotwein – Was der p-Wert (nicht) kann – 03.06.2019
[2] Ein Glas Rotwein – Wie man statistische Tests kaputt macht – 08.06.2019
Schreibe einen Kommentar