Das Reisexperiment, zu dem Lars aufgerufen hat, war von Anfang an für einen Zweck gedacht: am Ende ein Video mit dem Ergebnis auf YouTube hochzuladen. Dem komme ich nun endlich nach. Den begleitenden Post zum Video nutze ich dabei, um den Ablauf und die gesammelten Ergebnisse übersichtlich zusammenzufassen.

TL;DR
Lars‘ Aufruf folgend haben wir Emotos-Reisexperiment repliziert. Zwei Mal mit jeweils 96 bzw. 100 Reagenzgläsern mit Reis.
– Ergebnis: Reis schimmelt nicht unterschiedlich, wenn man ihn beleidigt oder beschimpft.
– In diesem Beitrag gibt’s die Zusammenfassung über beide Experimente und die neu aufgearbeitete Analyse der Daten. Primär aber das YouTube-Video, das ja das eigentliche Ziel der Unternehmung war.
– Die Roh-Daten, das Analyse-Skript in R und eine Präsentation über die Reis-Daten im Kontext von bayesscher Statistik findet ihr im dazugehörigen Google-Drive-Ordner.

Masuru – wer?

Masuru Emoto ist in Esoteriker-Kreisen und darüber hinaus bekannt für seine Experimente mit Wasserkristallen. Er hat Wasser unterschiedlich behandelt – also ihm zum Beispiel verschiedene Musik vorgespielt, liebevoll mit ihm gesprochen oder es beleidigt – und es danach eingefroren. Das angebliche Ergebnis: Das liebevoll behandelte Wasser hat hübschere Kristalle beim Einfrieren gebildet. Außerdem steht das Wasser scheinbar mehr auf Klassik als auf Heavy Metal. Die Grundidee lässt sich auf alles übertragen, das auch nur ansatzweise Wasser enthält. So soll auch Reis darauf reagieren, wie man mit ihm umgeht. Emoto hat drei Gläser mit gekochtem Reis gefüllt und hat dann mit einem dieser Gläser liebevoll gesprochen, das andere hat er beleidigt und das dritte hat er eiskalt ignoriert.Entsprechend waren die Gläser auch beschriftet.
Was nun raus gekommen sein soll: Das beschimpfte Glas ist verschimmelt. Wie Reis das nach einer Weile so tut. Das ignorierte Glas hat es allerdings noch schlimmer getroffen, weil gar keine Zuwendung schlimmer sein soll als negative Zuwendung. Das liebevoll behandelte Glas aber soll nicht verschimmelt sein, sondern ist angeblich sogar honigsüß fermentiert.

Je nachdem, welchen Menschen man diese Geschichte erzählt, erhält man unterschiedliche Reaktionen. Einer Menge Leuten kommt das Getränk vor Lachen die Nase wieder hoch. Aber andere sind von Emotos Ergebnissen überzeugt; es gibt sogar Wasserflaschen mit entsprechenden Symbolen, die eine positive Wirkung auf den Inhalt haben sollen. Wissenschaftserklärer Lars hat daher auch Gegenwind erhalten, als er ein YouTube-Video hochgeladen hat, in dem er sich darüber ausließ, dass Emotos Wasserkristall-Experimente Bullshit sind. In einem der Kommentare hieß es, er möge doch das Reis-Experiment von Emoto selbst ausprobieren – dann werde er schon sehen, dass das funktioniert.

Lars hat angefangen

Und weil Lars Wissenschaftler ist, war er natürlich bereit, Daten zu sammeln und zu schauen,was passiert. Einen solchen Effekt wie von Emoto postuliert wasserdicht nachweisen zu können, hätte ihn vermutlich sowieso zum heißen Anwärter für den Nobelpreis gemacht. Aber Wissenschaft heißt auch saubere Methodik, und Lars hatte zwei Hauptkritikpunkte an Emotos Reis-Experiment.
Es gibt nämlich ein paar Videos und Blogbeiträge von Menschen, die den Versuch durchgeführt haben. Lars vermutete aber eine Art „publication bias“: Vor allem Menschen, bei denen das Experiment klappt, laden ihre Ergebnisse anschließend auch hoch. Diejenigen, die keinen Effekt finden, veröffentlichen das Resultat nicht. Ist ja auch langweilig.
Das Problem ist auch bei wissenschaftlichen Studien bekannt und hier lautet die Lösung: Vorregistrierung. Das heißt, man meldet eine wissenschaftliche Arbeit an, bevor man sie durchgeführt hat. Und verpflichtet sich, die Resultate zu veröffentlichen, egal ob man etwas findet oder nicht. Lars hat dasselbe Prinzip angewendet und jeden dazu aufgerufen, das Reis-Experiment bei sich zu Hause durchzuführen. Egal, ob die Ergebnisse Emotos Behauptungen unterstützen oder nicht: Wir alle sollten unsere Ergebnisse auf YouTube hochladen. So sollte ein unverzerrtes Bild entstehen, ob es einen Unterschied macht, wie man Reis behandelt.
Damit löste sich auch das zweite Problem, das es bei Emotos Experiment gibt: In der Ursprungsversion werden drei Gläser Reis verwendet; jedes für eine Bedingung. Das ist aber viel zu wenig. Selbst wenn Emoto falsch liegt und es keinen Unterschied macht, wie man mit dem Reis spricht, kann es allein schon durch Zufall passieren, dass ausgerechnet das beschimpfte Glas oder das ignorierte Glas zuerst schimmeln. Aber je mehr Leute mitmachen, desto mehr Gläser sind im Rennen. Lars selbst hat natürlich auch mit mehreren Gläsern teilgenommen – 34 hat er insgesamt befüllt. Wie er das alles genau angestellt hat und was bei ihm am Ende herausgekommen ist, könnt ihr hier sehr anschaulich erklärt nachlesen.

Nicht kleckern, klotzen

Team Rotwein hat sich natürlich auch nicht lumpen lassen. Wir haben uns gedacht: Mehr ist immer besser. Also haben wir in der ersten Runde des Experiments mit 96 Gläsern teilgenommen. Kein Witz. Das ist nämlich ungefähr die Größenordnung, die man benötigt, um einen Effekt des Reis-Bequatschens zu finden – sollte dieser Effekt doch nicht so groß sein, wie von Emoto beschrieben. In der Blog-Kategorie heiß auf Reis könnt ihr die ausführlichen Posts zu jedem einzelnen Schritt im Experiment nachlesen. Ich sage übrigens„erste Runde“, weil es auch noch eine zweite gegeben hat. Aber dazu später mehr.
Genau wie Lars haben wir die Gläser zufällig in zwei Gruppen aufgeteilt, nicht in drei. Die eine Hälfte wurde beschimpft, mit der anderen Hälfte wurde freundlich gesprochen. Wieso kein Glas ignoriert wurde? Weil dann die Gläser,mit denen gesprochen wurde, täglich angefasst und bewegt worden wären – die ignorierten jedoch nicht. Dann hätte man nicht ausschließen können, dass Unterschiede im Verschimmeln nicht vielleicht auf Bewegung oder Handwärme zurückzuführen sind. Außerdem hatten wir bei zwei anstatt drei Experimentalbedingungen mehr Gläser pro Gruppe. Und wir erinnern uns: Je mehr Gläser, desto leichter findet man auch einen Effekt, sofern er vorhanden ist. Schließlich sollte das Experiment Emoto alle Chance lassen, seine Behauptung zu beweisen.
Lars hatte sich außerdem überlegt: Bei der freundlich behandelten Gruppe wollte er sich bedanken. In der Hinsicht gibt es nämlich verschiedene Varianten: Dank oder Liebe. Weil aber auch die Aufrichtigkeit der Gefühle eine Rolle spielen soll, dachte sich Lars, er könne Dank gegenüber dem Reis durchaus vertreten. Aber „Ich liebe dich“ an ein Reis-Glas hätte er nicht überzeugend rüber bringen können. Verständlich irgendwo. Wenn man den Reis erst seit ein paar Tagen kennt. Die beleidigte Gruppe wurde durchgängig als „Trottel“ beschimpft.
Wir haben dasselbe Setup gewählt.

Was messen wir – und wie?

Die meisten Rechnungen und Ergebnisse habe ich schon auf dem Blog präsentiert. In diesem Post hangele ich mich aber an den im dazugehörigen Video beschriebenen Analysen entlang. Die habe ich nämlich kürzlich noch mal in einem Gesamtpaket aufgearbeitet, denn der Reis hat es sogar bis in einen Vortrag vor Fachpublikum bei uns am Institut geschafft. Die statistischen Berechnungen, die man in dem Zusammenhang anstellen kann, sind nämlich sogar für waschechte Wissenschaftler noch interessant. Auch, wenn wir es hier „nur“ mit einem kleinen„Haushaltsexperiment“ zu tun hatten. Mein Kollege Martin und ich haben hierfür also noch mal viel diskutiert und ganz genau hingesehen und nachgerechnet. Wundert euch also nicht, wenn ein paar neue oder abgewandelte Dinge vorkommen. Die Ergebnisse, von denen ich euch zuvor berichtet habe, sagen aber dasselbe aus. Wen das Thema in der Tiefe interessiert (es ging in dem Vortrag um bayessche Statistik und Evidenz für die Nullhypothese), für den habe ich die Folien des Vortrags in verschiedenen Formaten am Ende dieses Posts angehängt.

Über 8 Tage hinweg haben wir den Reis schimmeln lassen und an den letzten 3 Tagen die Schimmelstufe bewertet. Von 0 (gar kein Schimmel) bis 5 (starker Schimmel). Das ist natürlich eine subjektive Einschätzung, aber um die Konsistenz meiner Bewertung zu überprüfen, habe ich jedes Glas Reis mit etwas zeitlichem Abstand im ersten Experiment zwei Mal bewertet. Die Übereinstimmung mit mir selbst drückt sich dabei in Cohens Kappa aus. Das Ergebnis: Wenn wir die genaue Schimmelstufe betrachten, komme ich auf ein Cohens Kappa zwischen 0.56 und 0.69 (je nach Bewertungstag). Das ist schon gar nicht übel. Richtig krass wird es, wenn wir uns anschauen, ob ich „Schimmel“ (Bewertung größer als 0) oder „kein Schimmel“ (Bewertung 0)  konsistent bewertet habe. Dann landen wir bei einer exzellenten Urteilsübereinstimmung zwischen 0.91 und 0.95. Und das ist etwas, was wir bei mehrfacher Beurteilung sehr selten erleben. Meine Schimmelbewertung scheint also ein verlässliches Messinstrument zu sein.

Ein wichtiges Detail gab es dann noch zu beachten. Wir waren meines Wissens die einzigen, die das Experiment „blind“ durchgeführt haben. Das bedeutet, ich als diejenige, die die Schimmelstufe der Gläser bewertet hat, wusste nicht, ob ich ein Danke- oder ein Trottel-Glas vor mir habe. Das ist wichtig, denn sonst hätte ich das Experiment (bewusst oder unbewusst) beeinflussen können; ich hätte beispielsweise die Danke-Gläser immer als etwas verschimmelter bewerten können, um Emoto zu widerlegen. So aber war die Beschriftung der Gläser verdeckt und ich habe den Schimmel bewertet ohne zu wissen, um welche Gruppe es sich handelt.
Aber wie ist das möglich? Nico als derjenige, der mit dem Reis gesprochen hat, musste doch noch wissen, ob er die Gläser beschimpfen muss oder sich bei ihnen bedanken soll. Hierfür trug jedes Glas einen vierstelligen Code. Anhand dessen konnte Nico sekundenschnell erkennen, ob es sich um ein Danke- oder Trottel-Glas handelt. Ich dagegen wusste nicht, was die vier Zahlen aussagen. Wie die Logik des Codes funktioniert hat – den ich mit Denkarbeit und Systematik nach Abschluss des Experiments dann knacken durfte – könnt ihr hier nachlesen.

Daten muss man putzen

Klingt jetzt nach Manipulation. Aber wenn man Daten sammelt, muss man diese vor einer Analyse fast immer zunächst aufarbeiten und ins gewünschte Format strukturieren. Ein Teil davon beinhaltet, die Zahlen auf Inkonsistenzen und Fehler zu überprüfen. Meine subjektive Schimmelbewertung war ein sehr gutes Maß. Dennoch ist es selbstverständlich nicht perfekt und so war es nötig, einige Gläser aus dem Experiment auszuschließen. Zumindest, wenn man so konservativ und pedantisch an die Daten heran geht, wie ich das getan habe. Wichtig ist es hierbei, nicht selektiv zum Beispiel mehr Danke- als Trottel-Gläser auszuschließen. Für den Ausschluss von Daten braucht man nachvollziehbare, eindeutige Kriterien.
In meinem Fall habe ich alle Gläser ausgeschlossen, bei denen die Schimmelbewertung über die Zeit hinweg inkonsistent war. Die Logik: Der Schimmel kann von Tag zu Tag nur gleich bleiben oder stärker werden. Nicht sinken. Sobald also ein Glas von beispielsweise Stufe 4 an Tag 2 auf Stufe 3 an Tag 3 gewechselt hat, musste ich von einem Fehler meinerseits ausgehen und habe das Glas wegen der Unsicherheit bezüglich der genauen Schimmelstufe ausgeschlossen. Damit bleiben noch 87 Gläser für die Analyse übrig. Es gibt zu dieser Vorgehensweise unterschiedliche Ansichten, aber das Wichtigste ist hierbei: Wir haben alle Analysen auch noch einmal mit allen Gläsern gerechnet. Und die Ergebnisse waren dieselben.

Hilft es was, mit Reis zu reden?

Hier seht ihr die Schimmelstufe, jeweils für Trottel- und Danke-Gläser für die letzten 3 Tage des Experiments. Man sieht: „Danke“ und „Trottel“ sehen sich verdammt ähnlich.

Die Verteilung der Schimmelstufe an den letzten drei Tagen des ersten Experiments für Danke- und Trottel-Gläser. Skala: 0 (gar kein Schimmel) bis 5 (starker Schimmel).


Das reicht uns natürlich nicht. Manchmal sind Unterschiede mit dem bloßen Auge nicht erkennbar, deswegen rechnen wir einen sogenannten Signifikanztest. Dieser sagt uns, wie wahrscheinlich unsere Daten sind, wenn wir davon ausgehen, dass es keinen Unterschied zwischen „danke“ und „Trottel“ gibt. Nicht etwa, weil der Signifikanztest voreingenommen ist. Das ist einfach nur die mathematische Annahme, gegen die getestet wird. Wir können uns den Signifikanztest trotzdem als Person vorstellen, die wir davon überzeugen müssen, dass es einen Unterschied macht, mit dem Reis zu sprechen. Wir zeigen dem Signifikanztest also unsere Daten und er sagt uns, wie „überrascht“ er von ihnen ist. Wenn sich ein Unterschied zwischen „Danke“ und „Trottel“ zeigt, wird unser Signifikanztest sagen: „Oh. Sollte es tatsächlich keinen Unterschied machen, ob man mit Reis redet, dann sind eure Daten aber ganz schön unwahrscheinlich.“
Wie krass überrascht unser Signifikanztest ist, sagt uns der p-Wert. Per Konvention nimmt man hier an: Wenn p kleiner ist als .05 (also 0,05), dann bezeichnen wir unsere Daten als unwahrscheinlich unter der Annahme, dass es keinen Unterschied gibt. Vielmehr kann und darf man mathematisch eigentlich gar nicht sagen. Es ist auch immer ein kleiner Seiltanz, das alles formal korrekt zu formulieren und selbst unter Wissenschaftlern wird das gerne falsch gemacht. Eigentlich ist es jedenfalls nicht richtig zu sagen: „Wenn p kleiner ist als .05, gibt es einen Effekt (mit Reis zu reden).“ Trotzdem entspricht das der umgangssprachlichen Interpretation und wir können uns zumindest der Verständlichkeit halber darauf einigen zu sagen: Wenn p < .05, spricht das eher für Emoto. Wenn nicht, sieht es nicht gut aus für das Sprechen mit dem Reis.

Was sagt unser Signifikanztest also zu den Daten aus dem ersten Experiment? Er geht davon aus, dass sich Danke- und Trottel-Gläser nicht unterscheiden – und unsere Daten hauen ihn da auch alles andere als vom Hocker. Es gibt keinen Hinweis darauf,dass es irgendetwas geändert hätte, wie man den Reis behandelt.
Formal drücken wir das so aus: t(85) = 0.40, p = .689, d = 0.09

Oops – we did it again

Die Sache könnte hier zu Ende sein. Wenn wir es nicht ein bisschen verbockt hätten. Hier wird klar, wieso man sich über jedes verdammte Detail eines Experiments von vornherein Gedanken machen muss und alles möglichst genau festlegen muss. Zum Beispiel, wann man mit dem Reis redet und ihn bewertet. In der ersten Runde waren wir nämlich zwei Tage zu Beginn des Experiments unterwegs. Kein Problem, dachten wir. Denn der Reis war bei den anderen Teilnehmern des Experiments quälend langsam verschimmelt. Unser Reis stand aber nicht im kühlen Keller und es waren zufällig mit die heißesten Wochen des Jahres. Als wir zurück kamen, war der Reis schon größtenteils geschimmelt. Wir konnten also nur noch die Stärke des Schimmels bewerten, aber wussten nicht, wann die einzelnen Gläser begonnen hatten zu schimmeln.
Schlimmer noch: Was, wenn sich der Danke-Reis vernachlässigt gefühlt hatte und deswegen verschimmelt war? Immerhin sollte ja angeblich Ignorieren das Schlimmste sein, was man Reis antun kann. Was, wenn der Trottel-Reis von seinen Beschimpfungen aufatmen konnte und daher weniger verschimmelt ist? So hätten sich die beiden Gruppen natürlich einander angeglichen. Wir sahen nur eine Möglichkeit: Das Experiment noch mal durchführen.

Diesmal hatten wir glatte 100 Gläser. Und einen genauen Plan: Beschimpfung und Bewertung fanden mit minimal 12 Stunden Abstand und maximal 24 Stunden Abstand statt. Also etwas häufiger als einmal am Tag. Wir legten auch die Dauer des Experiments genau fest: Basierend auf der Geschwindigkeit des Schimmelns im vorherigen Durchlauf setzten wir eine Woche an. Aber da man wie wir gerade gesehen haben jedes Detail im Voraus bedenken muss, legten wir auch fest, was passieren sollte,wenn nach einer Woche nicht genug Gläser verschimmelt sein sollten. Zusätzlich setzten wir also fest: Wenn nach einer Woche nicht mindestens 25 % der Gläser verschimmelt sind, muss es in die Verlängerung gehen, bis dieses Kriterium erreicht ist. Denn wenn nicht ausreichend Gläser Schimmel zeigen, kann ja auch nichts zwischen den Gruppen verglichen werden.
Diesmal hatten wir also 24-Stunden-Reis-Betreuung. Wir hatten einen Plan. Und wir haben nicht nur die Schimmelstufe protokolliert, sondern auch den genauen Verlauf jeden Glases über die Zeit hinweg. Nach einer Woche war unser Kriterium mehr als erfüllt (rund 60 % der Gläser waren verschimmelt) und so konnte es wie geplant an die Analyse der Daten gehen.

Neue Runde – neue Chance?

Sah das Ergebnis in der zweiten Runde des Experiments anders aus? Auch hier wurden zunächst wieder die Daten aufgeräumt. Diesmal hatten wir zwei Maße, die wir analysieren konnten. Das eine war der Zeitpunkt des Schimmelbeginns. Das andere wie zuvor die Schimmelstufe. Für die Analysen, bei denen nicht die genaue Schimmelstufe relevant war, sondern nur der Zeitpunkt des Schimmelbeginns, habe ich nur die Gläser ausgeschlossen, bei denen genau dieser Zeitpunkt unklar war. Das heißt, alle Gläser, die beispielsweise von der Bewertung 0 zur Bewertung 1 und dann wieder zurück zu 0 gewechselt sind. Denn nach meiner Logik kann der Schimmel nicht wieder verschwinden. Nach diesem Kriterium bleiben noch 92 Gläser übrig.
Für alle Analysen, bei denen die exakte Schimmelstufe relevant war, galt dasselbe Ausschlusskriterium wie im ersten Experiment: Alle Gläser, bei denen die Schimmelstufe von einem Tag zum anderen gesunken ist, sind rausgeflogen. Mit diesem Kriterium sind es noch 82 Gläser.
Auch hier gilt jedoch wieder: Ausnahmslos alle Rechnungen kommen inhaltlich zum selben Ergebnis, wenn alle Gläser miteinbezogen wurden.

Durch die engmaschige Beobachtung des Reises konnten wir auch eine ziemlich coole Analyse rechnen, von der ich im Blog bisher nicht berichtet habe: eine Survival-Analyse. Wie der Name schon sagt, geht es hier ums nackte Überleben. Üblicherweise rechnet man so etwas tatsächlich dann, wenn Menschen sterben. Zum Beispiel, wenn man die Sterberate zwischen zwei Krebsmedikamenten vergleicht. Sterben mit Medikament A mehr Menschen schneller als mit Medikament B? Etwas zynisch, aber in unserem Fall: Verschimmeln Trottel-Gläser über die Zeit anders als Danke-Gläser? Hier seht ihr die beiden „Überlebenskurven“ für „danke“ und „Trottel“. Daran kann man ablesen, wann wie viele Gläser pro Gruppe sich wegen Schimmels„verabschieden“. Sieht auch wieder alles sehr ähnlich aus. Aber auch hier rechnen wir einen Signifikanztest, um sicher zu sein.

Überlebenskurven der Trottel- und Danke-Gläser über den Verlauf des Experiments. Man sieht, wie über die Zeit immer mehr Gläser wegen Schimmels „rausfallen“.


Selbe Logik wie zuvor: Der p-Wert gibt an, wie überrascht wir von unseren Daten sind, wenn wir davon ausgehen, dass es keinen Unterschied gibt. Den könnt ihr diesmal direkt in der Grafik ablesen. Wieder knacken wir die magische .05-Grenze nicht. Wir sind also erneut geneigt zu sagen: kein Unterschied zwischen „danke“ und „Trottel“.
Als nächstes rechnen wir einen weiteren Signifikanztest. Diesmal betrachten wir nur den finalen Endstand am letzten Bewertungszeitpunkt 8. Wir rechnen nach, ob sich die beiden Reis-Gruppen hinsichtlich des Anteils verschimmelter Gläser unterscheiden. Auch hier gibt es keinen Hinweis darauf, dass es irgendeinen Unterschied gemacht hätte, mit dem Reis zu sprechen. „Danke“ und „Trottel“zeigen beide einen vergleichbaren Anteil an verschimmelten Gläsern.
Das können wir auch mit ein paar hübschen mathematischen Symbolen sagen:
Χ²(1, N = 92) = 0.15, p = .701, Φ = .04

Eine Rechnung ist noch übrig. Nämlich dieselbe wie im ersten Durchlauf: Gibt es einen Unterschied hinsichtlich der Schimmelstärke? Vielleicht sind „danke“ und „Trottel“ ja gleich schnell über die Zeit verschimmelt, aber eine der beiden Gruppen mit vielmehr Schimmel? Dieser Boxplot – so nennt man diese Art Grafik, die ihr unten seht – mag auf den ersten Blick nach einem Unterschied an den letzten beiden Bewertungszeitpunkten aussehen. Aber natürlich rechnen wir wieder, ob da was dran ist. Wir vergleichen die Schimmelstärke der beiden Gruppen am letzten Bewertungstag.

Die Verteilung der Schimmelstufe in Experiment 2 für Danke- und Trottel-Gläser. Skala: 0 (gar kein Schimmel) bis 5 (starker Schimmel).


Alles wie gehabt: Unser Signifikanztest könnte von unseren Daten nicht weniger überrascht sein. Kein Unterschied zwischen „danke“ und „Trottel“ hinsichtlich der Schimmelstärke.
Ihr kennt das – wir sagen das noch einmal formal: t(80) = 0.24, p = .815, d = 0.05
Übrigens, wer sich jetzt sagt: „Aber der Trottel sieht doch schlimmer verschimmelt aus!“ – Der Mittelwert der Schimmelstufe liegt tatsächlich bei den Danke-Gläsern (M = 0.93) etwas höher als bei den Trottel-Gläsern (M = 0.88).

Bayes, Bayes, Baby!

Diese Signifikanztests sind euch irgendwie zu ungriffig? Verständlich. Man gewöhnt sich dran. Aber es gibt auch noch eine anschaulichere Möglichkeit, die aktuell in der Wissenschaft sehr fancy ist, obwohl die Logik an sich schon vor Jahrhunderten von einem Pfarrer erarbeitet wurde: bayessche Statistik. Ihr erinnert euch: Darüber haben Martin und ich einen Vortrag in unserem Institut gehalten. Am Beispiel der Reis-Daten. Genau genommen habe ich alle Analysen bis hierhin vorgestellt und Martin hat sich die Sache mit dem Bayes-Kram vorgeknöpft. Zumindest eine der Rechnungen möchte ich euch an dieser Stelle zeigen, weil ich denke, dass es die Ergebnisse deutlich verständlicher macht. Martin hat die Logik der sogenannten Bayes-Faktoren im Vortrag detailliert erklärt, weswegen ich die Folien am Ende des Beitrags auch mit euch teile. Weil die Folien aber für ein Fachpublikum gedacht waren und deswegen trotz Martins sehr guter Darstellung nicht unbedingt selbsterklärend sind, hier einmal die generelle Logik:
Was Bayes-Faktoren so praktisch macht ist, dass man zwei Hypothesen mit ihnen vergleichen kann. Und das kann man quantifizieren. Völlig anders als beim Signifikanztest zuvor klingt das nicht: Auch hier sprechen wir wieder von der Wahrscheinlichkeit unserer Daten. In unserem Fall fragen wir uns: Wie viel wahrscheinlicher sind die Daten unter der Annahme, dass es keinen Unterschied gibt – im Vergleich zur Wahrscheinlichkeit der Daten unter der Annahme, dass es einen Unterschied gibt? Wie wahrscheinlich sind die Daten also unter der Annahme, dass Emoto Unrecht hat – im Vergleich zu der Annahme, dass er Recht hat? Grafisch dargestellt sieht das so aus; die bunten Kurven stellen Wahrscheinlichkeitsdichten dar. Die gestrichelte Linie kennzeichnet den tatsächlich beobachteten Wert in unserem Experiment.

Bayes-Faktor für den Vergleich der Nullhypothese (es gibt keinen Effekt des Redens mit Reis) und der Alternativhypothese (Cauchy-Prior; es gibt einen Effekt des Redens mit Reis). Bezogen auf die aggregierten Daten aus Experiment 1 und 2 für die Schimmelstärke.


In der Rechnung, die ich euch hier zeige, hat Martin die Daten zur Schimmelstärke aus beiden Experimenten zusammengeworfen – so kommen wir insgesamt auf 169 Gläser! Betrachtet man die Experimente einzeln, zeigt sich übrigens wiederum kein großartig anderes Bild.

Nun müssen wir uns nur noch anschauen, um wie viel die eine Kurve höher liegt als die andere – und zwar an der Stelle der von uns beobachteten Daten. Wir sehen: Der Bayes-Faktor liegt bei 5.61 (die eine Kurve ist 5.61Mal so hoch wie die andere) und das bedeutet: Unsere Daten sind etwa fünfeinhalb mal so wahrscheinlich unter der Annahme,dass es keinen Unterschied macht, mit Reis zureden, wie unter der Annahme, dass es einen Unterschied macht.
Um das mal einzuordnen: Das ist schon ziemlich krass. Auf viel höhere Werte kann man mit „nur“ 169 Gläsern kaum kommen. Klar: Mit je mehr Gläsern wir keinen Unterschied finden, desto sicherer können wir sein, dass es auch wirklich keinen Unterschied gibt. Mit mehr gesammelten Daten werden wir uns auch immer sicherer. Dass wir mit beachtlichen beinahe 200 Gläsern noch so überraschend „unsicher“ formulieren muss, regt zum Nachdenken an. Was kann Emoto mit seinen schlappen 3 Gläsern dann erst sagen?

Das war’s für Emoto

Bedenkt aber: Meine Zurückhaltung bezüglich der Ergebnisinterpretation basiert hier nur auf dem Anliegen, möglichst mathematisch korrekt zu formulieren. Jeder Wissenschaftler würde anhand dieser Befundlage sagen: absolut nix dran an Emoto. Genau genommen sind die beiden Gruppen sich so ähnlich, wie sie es nur sein können: Bei einigen Analysen haben wir auf zwei Nachkommastellen identische Mittelwerte gefunden. Daher an dieser Stelle, ganz privat und unstatistisch: Es steckt kein Reiskorn Wahrheit in Emotos Behauptungen. Niemand, der an Lars‘ Aufruf teilgenommen hat, hat einen Effekt des Redens mit Reis finden können.
Ein Kritikpunkt bleibt: Vielleicht muss man an Emotos Worte glauben, damit es klappt? Dazu zwei Dinge: Erstens sind dann zumindest all die Emoto-Gadgets und auf Wasserflaschen gedruckte Symbole Quatsch. Denn für einen Käufer, der skeptisch ist, funktionieren sie dann ja alle nicht. Und zweitens: Selbst, wenn mir der Wirkmechanismus dahinter gänzlich unplausibel erscheint, steht das Angebot. Sollte sich ein Emoto-Anhänger finden, der bereit ist, einmal am Tag bei uns im Labor mit dem Reis zu sprechen (und zwar mit 100 Reagenzgläsern), führen wir das Experiment gerne auch noch ein weiteres Mal durch.

Es sollte also Schluss damit sein, Zauber-Gadgets für besseres Wasser zu verkaufen. Oder wie IKEA Werbung damit zu machen, dass man mit Pflanzen reden sollte. Die Idee dahinter unterstütze ich zutiefst: Seid nett zueinander. Mobbing ist scheiße. Aber: Brauchen wir wirklich Pseudowissenschaften und – ausgerechnet! – Betrüger, um diese Botschaft zu vermitteln? Was, wenn jemand das Reis-Experiment durchführt, um zu zeigen, dass Umgangsformen eine Rolle spielen – und dann verschimmeln zufällig die Danke-Gläser stärker? Schlussfolgern wir dann daraus, dass wir unsere Mitmenschen zukünftig doch lieber beleidigen sollten?

Wie wäre es, wenn wir nett zueinander sind, weil das eine gute Sache ist? Nicht, weil irgendwelcher Reis schimmelt. Denn den Reis interessiert es absolut nicht, wie man mit ihm spricht. Im Gegensatz zu unseren Mitmenschen.

Danke, ihr Trottel!

Und genau deswegen ist noch ein letztes Wort des Danks angebracht. Das Reis-Experiment in der Form, in der wir es angegangen sind, war alleine nicht zu schaffen. Viele Menschen haben den Prozess begleitet, entweder aktiv und „hands on“ oder in beratender Form. Chronologisch finden sie hier einen Ehrenplatz.

Lars von Lars und die Welt, der zu diesem Wahnsinnsprojekt aufgerufen hat und bereit war, sich von den Daten überzeugen zu lassen – hätten sie seine Ansichten denn widerlegt. Noch heute kämpft er mit seinem Blutdruck, wenn schon wieder ein cleverer Hersteller denkt, er könne mit Emotos liebevoller, aber betrügerischer Botschaft Werbung machen. Lasst ihm also etwas Liebe da – auf seinem Blog, auf seiner Facebookseite oder seinem Twitter-Account!

Nico, der nicht nur über zwei Experimente hinweg mit insgesamt beinahe 200 Reis-Gläsern täglich vollkommen ernst gesprochen hat. Er war auch an der Planung und Organisation des Experiments beteiligt, hat mit gekocht, geklebt und die Reagenzglasständer selbst gebaut. Nicht zuletzt hat er sich auch den großartigen Reis-Code ausgedacht, der die Verblindung erst möglich gemacht. Auch ihm könnt ihr auf Twitter mal auf die Schulter klopfen.

Adam, der mir nach der ersten Runde des Experiments, als ich noch nicht so fit im Programmieren war, mit der Aufbereitung der Daten (long format!) und der visuellen Darstellung geholfen hat (seitdem folge ich dem Weg des ggplot). Noch nicht genug Liebe verteilt? Lasst ihm welche auf Twitter da!

Und, last but not least: Martin. Der ist, nachdem er mit mir den Vortrag im Institut gehalten hat, nun vermutlich vertrauter mit den Reis-Daten als ich selbst. Er hat sich die Daten angesehen, meine Rechnerei nachvollzogen, mitgedacht und diskutiert. Und dann hat er noch viel mehr Kram gerechnet und mit seinen Bayes-Faktoren vielleicht auch euch die Ergebnisse des Experiments ein bisschen näher gebracht.
Hier mal sein GitHub-Account, wo er unter anderem ein tolles Skript zur Verfügung stellt, mit dem auch Anfänger R lernen können – die Programmiersprache, die wir zur Datenanalyse verwendet haben. Wenn ihr jetzt noch Dank und beeindruckte Anerkennung übrig habt, dann spamt seinen Twitter-Account damit zu!

Nicht zu vergessen natürlich all die Menschen, die den Blog und das Experiment verfolgt haben – und sogar selbst bei Lars oder bei Nico in der Küche standen, um sich mit eigenen Augen zu überzeugen – und zu beweisen – dass alles mit rechten Dingen zugeht und zum Beispiel die 100 Gläser wirklich existieren. Besonders hervorzuheben ist hier Lars Karmann – danke für deinen Besuch zu Experiment 2!

Ein letzter Credit: Für alle Analysen und die Präsentation, die ich euch angehängt habe, wurde R verwendet. Insbesondere Rmarkdown – alle verwendeten Pakete könnt ihr in der .Rmd-Datei nachvollziehen, die ihr ebenfalls im verlinkten Ordner findet.

Daten und Folien für alle

Wenn es etwas gibt, das mindestens genau so wichtig ist wie Liebe und Respekt gegenüber seinen Mitmenschen, dann ist das Offenheit und Transparenz in der Forschung. Deswegen hier der Link zum Google-Drive-Ordner des Reis-Experiments, der die Rohdaten beinhaltet. Die sind noch so benannt, dass alle Analysen aus unserem R-Skript damit funktionieren. Daher ein Wort der Erklärung: Alles, wo Runde 1 dran steht, stammt aus Runde 1. Die Dateien, die nur „reis“ heißen, gehören zu Runde 2. Ihr findet sowohl die rohen Datensätze als auch die Versionen, die nach unseren Kriterien bereinigt wurden. Meldet euch gerne bei Rückfragen.
Außerdem findet ihr die Folien zu dem Vortrag, den Martin und ich über bayessche Statistik gehalten haben. Als PDF und als .Rmd-Datei, mit der ihr auch alle unsere Analysen reproduzieren könnt.


Quellen und Links in der Reihenfolge ihrer Erwähnung, Stand 14.12.2018

[1] Psiram – Masaru Emoto
[2] Alles ist Energie – Erstaunlicher Beweis | Gedanken verändern Materie | Das erstaunliche Reis-Experiment – 23.05.2017
[3] YouTube – Dr. Emoto inspired these bottles after being told to WRITE positive words glass water bottle – My Positive Water Cheryl Myers Glass water bottles – 27.05.2017
[4] YouTube – Beweis: Emotos Wasserkristalle sind Bullshit – Lars Und Die Welt – 12.06.2017
[5] YouTube – Hat Emoto recht oder nicht – das Experiment! Lars und der Reis – Lars Und Die Welt – 13.05.2018
[6] Lars und die Welt – Das Reis-Experiment nach Emoto – 26.06.2018
[7] Ein Glas Rotwein – heiß auf Reis Archiv
[8] Ein Glas Rotwein – Des Reis-Rätsels Lösung – 26.10.2018
[9] Wikipedia – Thomas Bayes
[10] YouTube – Bully A Plant: Say No To Bullying – IKEA UAE – 30.04.2018