Finale, ohoooo! Heute spielt zwar Deutschland gegen Mexiko, aber vom Finale der WM sind wir noch ein gutes Stück entfernt. Nicht so im Reisexperiment. Die Auswertung ist komplett. Dabei habe ich mich auf die einfachsten und nachvollziehbarsten Tests beschränkt und das Fazit ist auch sehr eindeutig. In diesem Post spielt also Team „danke“ gegen Team „Trottel“. Und die Statistik ist Schiedsrichter.

Reli- was?

Wir erinnern uns: Es gab noch eine wichtige offene Frage. Ist meine subjektive Bewertung des Schimmels brauchbar? Eine Grundvoraussetzung dafür ist, dass sie reliabel (schickes Wort für „verlässlich“) ist. Ich muss bei einer erneuten Messung zu demselben Schluss kommen. Völlig vergessen könnte man zum Beispiel einen Zollstock, der bei der Messung der Körpergröße einmal 1,60 und beim nächsten Mal 1,70 ausgibt.
Das Problem: Wir können noch nicht sagen, ob ein Maß dann auch valide ist – mit anderen Worten, ob es das misst, was es messen soll. Klingt merkwürdig, aber wir können uns hier wieder den Zollstock vorstellen. Diesmal einen reliablen Zollstock, der jedes Mal, wenn ich ihn bei mir anliege, brav seine 1,69 ausspuckt. Diesmal nutze ich den Zollstock aber, um meine Intelligenz zu messen. In diesem Fall erhalte ich mit präziser Genauigkeit jedes Mal den Wert 1,69, wie oft ich auch messe. Aber ich mache trotzdem einen großen Fehler, wenn ich daraus Rückschlüsse auf meine Intelligenz ziehe.

Ob ein Maß valide ist oder nicht, zeigt sich oft nur in Vergleichen mit bestehenden Maßen oder anderen Indikatoren, die zumindest etwas Ähnliches messen. Wenn ich einen neuen Intelligenztest entwickelt habe, kann ich ihn zum Beispiel mit bestehenden Tests vergleichen. Die Krux hierbei: Wenn die alten Tests alle Schrott sind und Intelligenz gar nicht vernünftig messen, mein neuer Test aber schon, dann kommt mein Test zu ganz anderen Ergebnissen. Und wird dann als nicht valide eingestuft; mangels Übereinstimmung mit den Vorgängern.
Ich würde mir also auch ansehen, wie gut mein Test Dinge wie Schulerfolg oder Können in Problemlöse-Aufgaben vorhersagt. Die Schwierigkeit hierbei: Wenn Schulerfolg überhaupt nicht mit Intelligenz zusammenhängt, dann ist das auch kein guter Vergleich für meinen Intelligenztest. Wie aber finde ich heraus, ob Schulerfolg mit Intelligenz zusammenhängt?
Oh, Mist. Richtig. Mit einem Intelligenztest.
Die Katze beißt sich hier in den Schwanz.

Eine gute Validierung erfolgt also über mehrere Maße und verschiedene Wege. Und wie ihr euch vorstellen könnt, kann ich die Validität meiner Schimmel-Skala von 0 (kein Schimmel) bis 5 (krasser Schimmel) hier nicht vernünftig bewerten. Die Sache mit der Reliabilität kann ich mir allerdings sehr gut ansehen.

Kann ich mir selbst trauen?

Letztendlich habe ich mich entschieden, die Frage über eine Korrelation zwischen den zwei Bewertungen pro Tag zu beantworten. Es gibt zwar Maße für Übereinstimmung zwischen Bewertern, aber die gehen üblicherweise von zwei (oder mehr) verschiedenen Personen aus, die ihr Urteil abgeben. In meinem Fall kann man meine Wertung der Reis-Gläser als eine Art erneute Testung verstehen. Als würde man mir zwei Mal denselben Intelligenztest vorlegen und schauen, ob ich dieselbe Punktzahl erhalte. Der Grad, in dem eine erneute Testung zum selben Ergebnis kommt wie eine vorherige, nennt man Retest-Reliabilität.

Bei einem Intelligenztest kann man einwenden: „Aber beim zweiten Mal kennt man die Fragen ja schon und es wird einfacher!“ Ebenso könnte man bei der Reis-Bewertung sagen: „Aber vielleicht hast du dir beim zweiten Durchgang gemerkt, welchem Glas du welche Punktzahl gegeben hast!“
Technisch gesehen möglich. In der Praxis kann ich mir aber nicht für 96 Gläser merken, welche Punktzahl ich ihnen zuvor gegeben habe. Ich habe für die zweite Bewertung ein neues Blatt zum Notieren genommen, konnte die vorherige Wertung also nicht sehen. Und habe die Reagenzglasständer in einer anderen Reihenfolge bewertet als zuvor.

Was kam nun raus? Da ich davon ausgehe, dass meine Daten ordinalskaliert sind (siehe hier), habe ich eine Spearman-Korrelation gerechnet, die das berücksichtigt. Wie schon für die Grafiken zuvor habe ich hier die Programmiersprache R verwendet.

Korrelationen (Spearman)
Wertung 1 & 2 an Tag 1:
rho = 0.9030827
p < 2.2e-16

Wertung 1 & 2 an Tag 2:
rho = 0.9064937
p < 2.2e-16

Wertung 1 & 2 an Tag 3:
rho = 0.9222533
p < 2.2e-16

Was bedeutet das nun? Erstens beträgt der Zusammenhang zwischen den beiden Messungen für jeden Tag immer über 90%. Das sagt uns das rho – einfach das Komma um zwei Stellen nach rechts verschieben und zack – Prozentwert. Der p-Wert gibt an, ob dieser Zusammenhang signifikant ist oder nicht. Normalerweise liegt die Schwelle bei 0,05. Alles, was darunter liegt, gilt als signifikant. Einfach gesagt ist das die Aussage darüber, wie sicher wir uns sein können, etwas gefunden zu haben, wenn man bedenkt, dass das Ergebnis auch zufällig zu Stande gekommen sein könnte.
2.2e-16 sieht nun etwas komisch aus. Das ist einfach die kleinste Zahl, die R mir darstellen kann. Es ist die Kurzschreibweise für 0,00000000000000022 – also ganz sicher sehr weit unter jeglicher Schwelle.

Ich wollte auch wissen, ob sich diese Zusammenhänge zwischen den Tagen unterscheiden. Werde ich zum Beispiel von Tag zu Tag konsistenter in meiner Bewertung? Auch das hätte ich in R berechnen können, aber das Online-Tool Cocor nimmt mir hier Einiges an Arbeit ab. Der Vergleich aller Tage zeigt: Es gibt keinen Unterschied.

Daraus schließe ich, dass meine Bewertung gar nicht so übel war und meine Performance zumindest sehr verlässlich und konstant. Für die folgenden Berechnungen verwende ich also den Median aus den beiden Bewertungen pro Tag, wie schon im vorherigen Post beschrieben.

Danke vs. Trottel

Wegen der ordinalskalierten Daten darf ich nicht jeden Test rechnen, den ich gerne rechnen würde. Ich muss auf sogenannte nicht parametrische Verfahren zurückgreifen. Die einfachste und verständlichste Variante war es meiner Ansicht nach, „danke“ und „Trottel“ pro Tag zu vergleichen. Das mache ich mithilfe eines statistischen Tests, der auf den klangvollen Namen Mann-Whitney-U-Test hört. Der sagt mir, ob die beiden Gruppen sich in ihrer Bewertung unterscheiden. Das mache ich wieder anhand des p-Wertes fest.
Weil bei mehreren abhängigen Tests die Wahrscheinlichkeit steigt, zufällig einen Effekt zu finden, wo keiner ist, korrigiert man üblicherweise das Alpha-Niveau. Also die Schwelle für den p-Wert, die wir vorhin schon kennengelernt haben. Der Test „danke“ vs. „Trottel“ an Tag 1 ist nicht völlig unabhängig von dem für Tag 2, weil der Reis von Tag 1 natürlich derselbe war wie der an Tag 2. Wir würden die 0,05 also durch drei teilen (drei abhängige Tests) und landen  gerundet bei 0,017. Hier spielt das aber sowieso keine Rolle, denn wie ihr gleich sehen werdet, kann keiner der Tests auch nur die 0,05-Grenze annähernd knacken.

Danke vs. Trottel
Tag 1:
W = 1057, p-value = 0.485

Tag 2:
W = 1113.5, p-value = 0.7784

Tag 3:
W = 1136, p-value = 0.9047

Fazit

Zusammenfassung? Es gibt keinen signifikanten Unterschied zwischen den „danke“- und „Trottel“-Gläsern. Überhaupt keinen. Beide Gruppen zeigen dasselbe Schimmelverhalten. Zur besseren Visualisierung noch mal der Boxplot, der den Schimmelverlauf „danke“ vs. „Trottel“ über die drei Tage zeigt und den ich im vorherigen Post ausführlicher erklärt habe.

Eine Diskussion möglicher Probleme in der Methodik folgt – und eine Neuauflage ist ebenfalls geplant. Fürs Erste schließen wir diese Runde ohne Hinweis darauf, dass Emoto Recht hatte.


Quellen und erwähnte Links in Reihenfolge des Erscheinens, Stand 17.06.2018

[1] Ein Glas Rotwein – 04 Die Wertung und ein erster Überblick – 13.06.2018
[2] [Website] [Paper] Diedenhofen, B. & Musch, J. (2015). cocor: A Comprehensive Solution for the Statistical Comparison of Correlations. PLoS ONE10(4): e0121945. doi:10.1371/journal.pone.0121945