Auch die zweite Runde des Reisexperiments hat Daten hervorgebracht. Und die werde ich euch jetzt präsentieren. Aber ihr kennt das Spiel: Kein Spoiler im Vorschautext!
Dateninspektion
Zunächst müssen die Rohdaten aufgeräumt werden. Ich lade die Daten in R und schaue mir an, ob alles in Ordnung ist. Fehler passieren immer und den ersten finde ich auch sofort: Es gibt 51 Trottel-Gläser und 49 Danke-Gläser. Mist.
Nach einer Überprüfung jedes (!) Glases hinsichtlich Beschriftung und Etikett steht fest: Glück im Unglück. Zwar habe ich Trottel (He he, versteht ihr?) ein Glas versehntlich als „Trottel“ anstatt als „danke“ beschriftet, aber das hat keine großartigen Auswirkungen. Denn nun ist die Anzahl an Trottel- und Danke-Gläsern zwar nicht exakt gleich, aber jedes Glas hat die Behandlung erhalten, die auch drauf stand. Beschriftung, Etikett und Behandlung waren konsistent. Also halb so wild.
Als nächstes suche ich nach Inkonsistenzen in den Daten. Wie in der letzten Runde habe ich meine subjektive Einschätzung des Schimmels von 0 bis 5 verwendet. Das ist als Maß natürlich nicht ideal, aber immer noch die beste Möglichkeit der Umsetzung, wenn man nur begrenztes Personal zur Bewertung zur Verfügung hat. Also, nur mich. Im ersten Durchlauf habe ich eine gute Übereinstimmung mit mir selbst gezeigt, wenn ich jedes Glas zu jedem Messzeitpunkt zwei Mal bewertet habe. Daher habe ich dieses Mal nur ein Mal pro Messzeitpunkt bewertet.
Worauf ich letztes Mal nicht gekommen bin: Ich könnte doch mal nachsehen, ob die Bewertung pro Glas von Tag zu Tag Sinn ergibt. Das bedeutet: Die Schimmelstufe muss beim nächsten Bewertungszeitpunkt mindestens denselben Wert haben wie tags zuvor. Stufe 3 an Tag 1 und Stufe 4 an Tag 2 funktioniert. Stufe 4 an Tag 1 und Stufe 3 an Tag 2 nicht. Der Reis kann ja nicht von einem Tag zum anderen weniger schimmeln.
Weil menschliche Bewertungen nicht perfekt sind, sind genau solche inkonsistenten Fälle natürlich eingetreten. Zwei Fälle lassen sich hier unterscheiden:
a) Die genaue Schimmelstufe des Reisglases ist unklar, aber dass es verschimmelt ist, steht außer Frage. Zum Beispiel erhält der Reis an einem Tag die Bewertung 3, am nächsten Tag nur noch eine 2.
Dieser Fall betraf 10 Gläser. 5 „Trottel“ und 5 „danke“.
b) Es ist nicht klar, ob der Reis verschimmelt ist oder nicht. Zum Beispiel erhält das Glas an einem Tag die Bewertung 1, am nächsten aber eine 0. Das kann dann passieren, wenn man eine kleine Stelle Schimmel an einem Tag entdeckt, am nächsten aber übersieht.
Dieser Fall betraf 8 Gläser. 6 „Trottel“ und „2 danke“.
Fall a) ist gerade bei der Menge an Gläsern noch verhältnismäßig unproblematisch. Fall b) geht für die Datenauswertung gar nicht klar. Die Gläser aus b) habe ich also allesamt aus den Berechnungen ausgeschlossen. Die aus Fall a) nur da, wo die genaue Schimmelstufe relevant war. Für die Frage, wie viele der Gläser Schimmel zeigen, durften diese Kandidaten beispielsweise drin bleiben.
Das Datenset ohne die Gläser, wo unklar ist, ob sie überhaupt verschimmelt sind, nenne ich „Reis clean“ (weil bereinigt). Das Datenset, in dem zusätzlich noch die Gläser ausgeschlossen wurden, wo die genaue Schimmelstufe unklar ist, nenne ich „Reis sehr clean“ (weil noch stärker bereinigt).
Variablenbenennung ist ein Spaß.
Reis clean beinhaltet: 45 „Trottel“ und 47 „danke“ Gläser.
Reis sehr clean beinhaltet: 40 „Trottel“ und 42 „danke“ Gläser.
Ich werde bei den Berechnungen dazu schreiben, mit welchem der Sets ich gerechnet habe.
Wer schimmelt?
Zunächst habe ich mir angesehen, wie viel Prozent der Gläser überhaupt Schimmel zeigen. Über die 7 Tage habe ich die Gläser an 8 Messzeitpunkten bewertet. Ein Logbuch über die Zeitpunkte der Reis-Bewertung (und auch wann mit dem Reis gesprochen wurde) findet ihr unten. Hier seht ihr also, wie viel Prozent der Gläser pro Tag Schimmel zeigen. Aufgeteilt nach „danke“ und „Trottel“. Verwendet habe ich hier das Datenset Reis clean.
Es sieht so aus, als wären zunächst mehr Danke-Gläser verschimmelt, bis die Trottel dann aufholen. Aber wir wissen: Nur weil etwas so aussieht, als wäre es mehr, ist es das nicht unbedingt. Niemand würde bei einer Münze, die 51 Mal auf Kopf und 49 Mal auf Zahl landet behaupten, dass sie gezinkt ist. Sie zeigt zwar technisch gesehen häufiger Kopf, aber uns ist allen klar, dass es bei den nächsten 100 Würfen andersrum aussehen könnte. Fisher’s exact test sagt mir in diesem Fall, ob sich „danke“ und „Trottel“ im Anteil verschimmelter Gläser signifikant unterscheiden. Dabei betrachte ich Messzeitpunkt 8 als finalen Endstand und Fisher sagt: Nö. Kein Unterschied (p-value = 0.8319, odds ratio: 1.175256 ).
Ab einem p < 0.05 würden wir einen Unterschied annehmen. Davon sind wir meilenweit entfernt.
Wie ist es mit den anderen Tagen? Da sieht der Unterschied doch größer aus? Keiner dieser Tage knackt die magische Grenze von 0.05. Und eigentlich müsste ich wenn ich streng bin diese Grenze noch weiter herabsetzen, weil ich mehrere sogenannte abhängige Vergleiche durchführe. Aber selbst, wenn ich mir das schenke, also so großzügig gegenüber Emotos Hypothese bin, wie ich es nur sein kann: „Trottel“ und „danke“ unterscheiden sich nicht hinsichtlich des Anteils verschimmelter Gläser. Keine Chance.
Und selbst wenn, dann ginge das Ergebnis in die Richtung, dass mehr Danke-Gläser als „Trottel“ verschimmelt sind. Aber vielleicht geht es gar nicht um die Quantität, sondern die Qualität?
Wie sehr wird geschimmelt?
Die Schimmelstufe mag das bedenklichste Maß des Experiments sein, aber vielleicht kann Emoto hier punkten. Wie ich in der ersten Runde erklärt habe, stelle ich die Daten als Boxplot dar. Dieser beschreibt die Verteilung der Schimmelstufe. Der dicke Strich in der Mitte der Kästen (manchmal ist er zugleich auch der Rand) zeigt hierbei den Median, also die mittlere Schimmelstufe. Das ist nicht dasselbe wie der Mittelwert, aber macht ebenfalls eine Aussage darüber, welcher Wert typisch für eine Verteilung ist. In diesem Fall sagt er uns, welche Bewertung sich in der Mitte tummelt, wenn wir die Gläser der Schimmelstufe nach ordnen würden.
Da für diese Darstellung die exakte Schimmelbewertung relevant ist, habe ich das Datenset Reis sehr clean verwendet. Die Schimmelstufe 5 habe ich in dieser Runde gar nicht vergeben. So weit war der Reis nach den 7 Tagen noch nicht.
Wie wir sehen, sieht das alles verdammt ähnlich aus. Das sehe nicht nur ich so, sondern auch der Wilcoxon-Test, den ich für den finalen Messzeitpunkt 8 berechnet habe (W = 883, p-value = 0.6737).
Wann schimmelt es?
Der Trumpf, den wir diesmal im Ärmel hatten, war aber das Maß „Tage bis Schimmel“. Vielleicht verschimmeln in beiden Gruppen gleich viele Gläser gleich stark, aber in einer von beiden Bedingungen schneller? Ich habe mir angeschaut, wann sich der erste Schimmel pro Glas zeigt, also wann die Schimmelstufe das erste Mal größer als 0 ist. Gerechnet habe ich hierbei mit dem Datenset Reis clean.
Wenn das nicht Kopf an Kopf ist, weiß ich auch nicht. In beiden Gruppen schimmelt es im Mittel erstmalig nach 4 Tagen. Darin unterscheiden sie sich nicht (W = 360, p-value = 0.7521).
Fazit
Mit „danke“ oder „Trottel“ beschriftete Gläser, die gemäß ihrer Beschriftung behandelt wurden (tägliches Bedanken vs. Beschimpfen), unterscheiden sich weder in der Wahrscheinlichkeit, mit der sie Schimmeln. Noch in dem Maß, in dem sie schimmeln. Noch in der Geschwindigkeit, in der sie das tun. Das Sprechen mit dem Reis und die Bewertung wurde von zwei verschiedenen Personen durchgeführt, wobei ich als Bewerterin nicht wusste, ob es sich um ein Trottel- oder Danke-Glas handelt. Jedes Glas war mit einem Etikett überklebt, das Nico, der mit dem Reis geredet hat, durch eine vierstellige ID verraten hat, um welche Bedingung es sich handelt. Die Bedeutung dieses Codes war mir nicht bekannt. Und ist es übrigens auch jetzt noch nicht – in den nächsten Tagen werde ich versuchen, ob ich das Rätsel lösen kann.
Zwei Hauptkritikpunkte bleiben: Erstens mag das Maß der Schimmelstufe nicht ideal gewesen sein. Aber sämtliche Ideen, wie man Schimmel objektiver bewerten kann, hätten entweder den Rahmen der Möglichkeiten gesprengt und/oder wären nicht an mehreren Tagen wiederholbar gewesen (die Gläser ins Labor einschicken, zum Beispiel). Zudem sollte das Ergebnis laut Emoto ja mit bloßem Auge sichtbar sein und wir haben auch unbestechlichere Maße wie den Anteil an verschimmelten Gläsern sowie die Tage bis zu den ersten Schimmelstellen verwendet.
Den Vorwurf, dass die Sache nur funktioniert, wenn jemand mit dem Reis spricht, der hundert prozentig an Emoto glaubt, können wir nicht vollkommen entkräften. Zwar waren Nico und ich beide offen für ein Ergebnis in die andere Richtung (immerhin hätten wir sicher auch durch den Wow-Effekt davon profitiert), aber keiner von uns beiden hat wirklich damit gerechnet. Was man aber sagen kann ist: Sollte man wirklich von ganzem Herzen an Emoto glauben müssen, damit das Experiment funktioniert, dann bringen die ganzen Wasserflaschen mit Symbolen darauf oder eine lieblos in den Kühlschrank gestellte Dose Reis mit der Beschriftung „danke“ rein gar nichts. Bei einem Menschen, der mal von Emoto gehört hat und das einfach mal ausprobieren möchte, aber nicht vollends überzeugt ist, dürfte das nicht funktionieren. Das bedeutet, dass eine ganze Menge Marketing und Gadgets für die Katz ist.
So oder so war dieser Lauf noch mal sauberer als der erste und bleibt unseres Wissens nach wie vor einzigartig in der Menge an verwendeten Gläsern. Er stützt zudem unsere vorherigen Ergebnisse und auch die, zu denen Lars gekommen ist. Damit ist der Fall für uns so lange abgeschlossen, bis es saubere Evidenz in eine andere Richtung gibt.
Daten für alle
Wie immer gibt’s für euch wieder alle gesammelten Daten zum Nachrechnen und die Logs, zu welcher Zeit mit dem Reis gesprochen und wann er bewertet wurde. Die Datensets Reis (unbereinigt), Reis clean (Gläser entfernt, bei denen der Zeitpunkt des ersten Schimmels unklar war) und Reis sehr clean (zusätzlich die Gläser entfernt, bei denen die genaue Schimmelstufe unklar war) stelle ich euch im long format zur Verfügung. Wem das zu ungriffig ist, der kann sie auch in klassischer Form bekommen, in der eine Spalte einen Messzeitpunkt darstellt.
Reis
reis_clean.txt
reis_sehr_clean.txt
Hier auch der Log. Gelegentlich fehlt die Endzeit. Wo es Überschneidungen zwischen Sprechen und Bewertung gibt, hat Nico begonnen, mit den Gläsern zu reden und mir die einzelnen Glasständer dann weitergereicht, wenn er mit einem durch war.
Viel Spaß mit den Daten. Wir können sie nicht mehr sehen 🙂