Die Daten für den Reis sind gesammelt und wollen analysiert werden. Ich habe lange überlegt, ob ich euch erst den ersten Überblick über die Ergebnisse zeige und dann einen separaten Post zur statistischen Auswertung mache. Oder ob ich beides zusammen packe, denn „der eine Balken ist höher als der andere“ führt ohne statistische Tests manchmal zu falschen Interpretationen. Weil ich mich entschieden habe, beides dennoch zu stückeln, weil ich euch genug Disziplin zutraue, keine voreiligen Schlüsse zu ziehen, gibt es hier – Heureka! – tatsächlich erste Einblicke. Seht selbst!

Erst die schlechte Nachricht

Wie wir alle wissen, ist es wichtig, die Bedingungen eines Experiments vor Beginn festzusetzen und sich daran zu halten. Das ist auch sehr gut möglich, wenn es ein vorhandenes Protokoll gibt, das sich an vorherigen Durchführungen orientiert. Das ist weniger gut möglich, wenn es gar keine genaue Beschreibung der Methodik gibt oder man etwas Neues probiert. Ersteres war bei Emotos Experiment der Fall: Die Hinweise, was man zu tun und zu lassen hat, sind spärlich und nicht immer konsistent. Entsprechend kam es bei uns zu etwas Wirrwarr, was wir 1) zum Abschluss des Experiments noch einmal diskutieren werden und 2) in einer zweiten Runde des Experiments verbessern werden. Da aber die Auswertung nun leicht anders aussieht als besprochen, hier eine Erklärung dazu:

Der ursprüngliche Plan war gewesen, die Tage bis zu den ersten Schimmelanzeichen zu zählen. In der Diskussion mit Lars entstand auch die Idee, eine subjektive Bewertung über mehrere Tage durchzuführen und zu vergleichen. Eine Kombination beider Maßnahmen schien ideal.
Durch unsere Wohnsituation an derzeit noch getrennten Orten und die sich ergebenden logistischen Einschränkungen bezüglich Uni, Arbeit und Co. mussten wir den Reis für zwei Tage alleine lassen. Das schien in Ordnung, weil wir eine Experimentaldauer von 30 Tagen annahmen und sich bei vielen anderen Teilnehmern von „Lars und der Reis“ überhaupt kein Schimmel zeigen wollte. Außerdem gibt es diverse Emoto-Produkte, siehe hier, die lediglich ein Label nutzen, um zum Beispiel die Wasserqualität zu verbessern. Das bedeutet, dass aktive dauerhafte Anwesenheit nicht nötig sein sollte, um den Effekt hervorzurufen – die Beschriftung blieb ja schließlich auch in unserer Abwesenheit auf dem Reis.
Am 27. Mai hatten wir unseren Reis gekocht und in Gläser gepackt. Danach wurde er natürlich beschimpft und beobachtet und als wir ihn am Abend des 29. zurück ließen, war noch alles in Ordnung. Am Morgen des 01.06. jedoch war der Schimmel bereits voran geschritten. Das kam unerwartet und war vermutlich der Hitzewelle zu verdanken (unsere Gläser standen in der Wohnung, nicht im kalten Keller).

Wir beschlossen also, die „Tage bis Schimmel“ bei einer weiteren Durchführung des Experiments zu erheben und die Dauer und Überwachung gemäß unserer ersten Ergebnisse anzupassen. Klare Kriterien werden nötig sein, wenn wir das Projekt noch einmal angehen. Denkbar wäre ein Zeitraum über 1 bis 2 Wochen und eine Bewertung des Schimmelstatus jeden Tag. In dieser Zeit darf sich dann niemand von seinem Posten bewegen – das geht nur, wenn Uni, Labor und Co. gerade nicht stattfinden.
Für diese Runde beschränkten wir uns auf eine Bewertung der Schimmelstufe von 0 bis 5, in ganzen Zahlen. Ich habe den Reis dann drei Tage lang entsprechend eingestuft. Denn nach drei Tagen waren so viele Gläser so sehr verschimmelt, dass gar kein weiterer Schimmel mehr rein gepasst hätte. Da es ja nun schnell gehen musste, waren keine weiteren Bewerter zur Hand – jemanden auf der Straße spontan zu bitten, 96 Reagenzgläser zu begutachten, wäre auch etwas viel verlangt. Jede Bewertungssession hat etwa eine halbe Stunde gedauert! Das lag daran, dass ich jedes Mal zwei Durchgänge gemacht habe, um zu überprüfen, wie gut meine Bewertung ist. In unterschiedlicher Reihenfolge der vier Reagenzglasständer bin ich die Gläser erneut durchgegangen – unmöglich, sich bei 96 Gläsern zu merken, wie man das Glas, nur unterscheidbar durch seinen vierstelligen Code, zuvor bewertet hat. Ich war also nicht beeinflusst durch meine vorherige Einschätzung.
Die statistische Analyse wird mir später sagen, wie gut ich mit mir selbst „übereingestimmt“ habe. Passen meine Einschätzungen zusammen, ist das ein mögliches Kriterium dafür, dass meine Bewertung durchaus vernünftig ist. Ist das nicht der Fall, kann ich sie als Messinstrument getrost wegwerfen.

Niveau ist keine Handcreme

Für einen ersten Blick auf die Daten verwende ich jedoch meine Bewertungen. Ich muss euch also darauf hinweisen, dass wir jetzt alle schon mal gucken dürfen – und beim nächsten Mal mit der statistischen Analyse dann erfahren, was wir schlussfolgern dürfen und was nicht. Es ist durchaus gängig, die Daten erst einmal zu visualisieren, also grafisch darzustellen, bevor man weiter rechnet. Man macht sich mit der Verteilung vertraut und kann sich dann leichter eindenken, was man überhaupt rechnen möchte und muss. Ohne die Struktur der Daten vernünftig zu kennen, kann man schon mal irgendwelchen Bockmist an Tests laufen lassen, weil man sich in lauter Zeilen und Spalten von Zahlen verrannt hat.

Meine beiden Bewertungen pro Tag habe ich zusammengefasst, indem ich den Median gebildet habe. Den Median? Was ist das schon wieder? Wieso nicht den Mittelwert?
Den Mittelwert kennt man ganz sicher aus der Schule. Den Median vielleicht auch, aber spätestens danach spielt er keine Rolle mehr in unserem Leben. Sollte er aber. Denn es gibt Situationen, da hat der Mittelwert nichts zu suchen. Es gibt nämlich verschiedene „Niveaus“ von Daten. Je nachdem, welches sogenannte Skalenniveau vorliegt, sind unterschiedliche Berechnungen zulässig. Klingt kompliziert, ist aber ganz einfach:
Die Skala beginnt ganz unten mit der Nominalskala. Das sind einfach Daten in Form von Kategorien. Ein Beispiel wäre Augenfarbe oder das Geschlecht. Mit solchen Daten kann ich nicht besonders viel tun. Ich kann zwar zählen, wie viele Leute die Augenfarben „blau“ und „grün“ haben. Aber ein Mittelwert aus „blau“ und „grün“? Das ist weder möglich noch sinnvoll. Ich kann auch nicht sagen, dass „blau“ vor „grün“ liegt oder umgekehrt.
Dann gibt es die Ordinalskala. Ein klassisches Beispiel sind Ranglisten, zum Beispiel in der Bundesliga. Hier werden Daten der Reihe nach geordnet. Ich kann klar sagen, dass Platz 1 der Tabelle besser gespielt hat als Platz 5. Ich darf also Vergleiche wie „ist größer als“ oder „ist kleiner als“ anstellen, aber immer noch keine Mittelwerte berechnen. Auch Schulnoten sind ordinalskaliert.
Moment mal. Wird gerade da nicht ständig der Mittelwert berechnet? Ja, und genau das ist statistisch gesehen falsch. Der Grund dafür ist, dass wir die Schulnoten zwar von 1 bis 6 absteigend ordnen können, aber keine gleichen Abstände annehmen können. Ist eine 1 genau so viel besser als eine 2, wie eine 2 besser ist als eine 3? Ist der Unterschied zwischen einer 5 und einer 6 derselbe wie zwischen einer 3 und einer 4? Nein.

Darf ich vorstellen? Der Median.

Deswegen ist die Berechnung des Mittelwerts, der gleiche Abstände zwischen den Daten erlaubt, erst ab höheren Skalenniveaus zulässig. Wir können aber für unsere Reis-Daten, die ordinalskaliert sind, zumindest etwas Ähnliches tun: den Median berechnen. Ähnlich wie der Mittelwert macht er eine Aussage über die generelle Tendenz der Daten. Hierfür ordnen wir unsere Daten der Reihe nach. Sagen wir, wir hätten fünf Trottel-Gläser, die folgende Bewertungen erhalten hätten: 0, 5, 4, 2, 4. Dann sieht das sortiert so aus: 0, 2, 4, 4, 5.
Der Median ist jetzt die Zahl in der Mitte: 0, 2, [4], 4, 5.
Was aber, wenn die Anzahl der Bewertungen gerade ist und es keine mittlere Zahl gibt? Zum Beispiel bei sechs Gläsern: 0, 2, [3], [4], 4, 5. Jetzt liegen drei und vier in der Mitte. In dem Fall berechnen wir ausnahmsweise den Mittelwert aus den beiden, also 3,5.

Einige Informationen gehen dabei natürlich verloren. Betrachten wir diese Daten: 0, 0, 0, 5, 5. Der Median hier wäre 0 – und wir übersehen dadurch vielleicht die beiden Fünfen am Ende, die schließlich auch etwas zu sagen haben. Abhilfe kann man durch ein paar zusätzliche Informationen schaffen: die Quartile. Hierfür vierteln wir unsere Daten und folgen dann derselben Logik wie zuvor. Sehen wir uns dafür mal 14 hypothetische Gläser an: 0, 0, 1,  3, 3 , 3, 4, — 4, 4, 4, 4, 4, 4, 5.
Ich habe schon mal zwei Teile gebildet. Bei — liegt der Median, den wir bereits kennen. Er liegt hier zwischen 4 und 4 – beträgt also 4. Nun teilen wir die beiden Hälften erneut und finden wiederum deren Median: 0, 0, 1,  [3], 3 , 3, 4, — 4, 4, 4, [4], 4, 4, 5.
Der Median der ersten Hälfte, der also das erste und zweite Viertel trennt, ist 3. Wir nennen das das erste Quartil. Das dritte und vierte Viertel werden durch die 4 getrennt – das bezeichnen wir als das dritte Quartil. Entsprechend darf man den Median auch „das zweite Quartil“ nennen. Seine prominente Sonderrolle bringt ihm aber einen eigenen Namen ein.

Schauen wir noch mal auf unseren problematischen Datensatz von vorhin: 0, 0, 0, 5, 5. Wir erhalten nun folgende Informationen:
1. Quartil: 0
Median: 0
3. Quartil: 5
Das sagt uns viel mehr als die bloße Info „Median = 0“. Jetzt sehen wir auch, dass einige höhere Bewertungen eine Rolle zu spielen scheinen. Weiter unten kommen wir zur grafischen Darstellung dieser Informationen.

Schimmel pro Tag

Wer jetzt gut aufgepasst hat, sieht: Für meine beiden Bewertungen pro Tag spielt das überhaupt keine Rolle. Denn wenn wir nur zwei Zahlen haben, liegt der Median ja dazwischen und wir müssen den Mittelwert aus beiden bilden. Bei nur zwei Zahlen sind Mittelwert und Median also identisch.

Seid ihr bereit für die ersten Daten? Sowohl die Analyse der Daten als auch deren grafische Darstellung mache ich in R. Das ist eine freie Programmiersprache. Das heißt: Anders als bei einigen Statistik-Programmen kann ich auf keinen Button klicken, um eine bestimme Berechnung auszuführen oder ein Diagramm zu erhalten. Ich muss die Befehle selbständig eintippen. Das macht es ein wenig schwieriger, gibt mir aber die Freiheit, genau das zu rechnen, was ich möchte und wie ich es möchte. Und auch die Grafiken kann ich in ihrem Äußeren beliebig anpassen.
Dass R frei ist bedeutet: Auch ihr könnt es euch jederzeit herunterladen und damit arbeiten. Für verschiedene Fragestellungen und je nach Bedarf eines Faches werden online unzählige zusätzliche Pakete angeboten, die von anderen Usern zur Verfügung gestellt werden.

Hier also die Grafiken für die Schimmelbewertung pro Tag. Wie man an den Kommazahlen auf der horizontalen x-Achse sehen kann, war ich mir nicht immer 100%ig einig mit mir selbst. Ob das dramatisch ist oder nicht, werden wir später in der statistischen Auswertung sehen.
Auf der vertikalen y-Achse sehr ihr, wie viele Gläser jeweils die entsprechende Bewertung erhalten haben. Die Farben vergleichen zwischen den Trottel- und danke-Gläsern.

Es sieht ähnlich aus für Trottel und danke. In der 5er-Wertung hat der Trottel immer die Nase vorn – aber reichen maximal fünf Gläser mehr, um bei 96 Gläsern insgesamt einen Unterschied zu machen? Immerhin würden wir von einer Münze, die bei 100 Würfen 51 Mal Kopf und 49 Mal Zahl zeigt auch nicht sagen, dass sie gezinkt ist.
In der Auswertung später werden wir mehr erfahren.

Schimmel im Wandel der Zeit

Wir sehen auch, dass der Schimmel von Tag zu Tag schlimmer wird. Das spricht zumindest ein wenig dafür, dass meine Bewertung die tatsächlichen Zustände in etwa abbildet. Aber so richtig griffig sind diese drei Grafiken noch nicht. Ich habe euch also die Wertung für jeden Tag zusammengefasst. Mit dem Median, den ich euch oben vorgestellt habe. Und mit den Quartilen, die ich euch an dieser Stelle ebenfalls beschrieben habe. Ihr könnt anhand der Grafik sehen, wie viel anschaulicher diese Quartile eine Verteilung von Daten machen.
Diese Art der Darstellung, also einen Kasten bestehend aus 1. und 3. Quartil (äußere Striche) und dem Median (mittlerer Strich) nennt man Boxplot. Er hat außerdem sogenannte „Whiskers“ (= Antennen, wörtlich „Schnurrhaare“; wer schon immer mal wissen wollte, wieso das Katzenfutter „Whiskas“ heißt). Ihre Rolle ist nicht exakt definiert. Oft zeigen sie das Maximum und das Minimum der Daten an. Manchmal beschränkt man sie auf das 1,5-Fache des Kastens und trägt alle Werte, die darüber liegen, als „Ausreißer“, also Extremwerte, ein. In meinem Fall ist das sowieso dasselbe und wir sehen hier am Ende der Whiskers das Maximum bzw. Minimum.
Außerdem dabei gepackt habe ich die einzelnen Datenpunkte, durch die der Boxplot zu Stande gekommen ist. Sie geben wieder die Anzahl der Gläser pro Schimmelstufe wieder. Die Informationen von allen drei Grafiken von oben sind also hier ablesbar.

Zwei Dinge kann man hier erneut erkennen: Erstens wird der Schimmel über die drei Tage schlimmer. Und zweitens sind sich die Verteilungen der Gruppen „danke“ und „Trottel“ verdammt ähnlich. An Tag 2 und Tag 3 sind die Mediane identisch, an Tag 3 sogar der gesamte Boxplot.
Beim nächsten Mal werden wir uns ansehen, ob der kleine Unterschied am ersten Tag ausreicht, um sagen zu können, dass tatsächlich einer vorliegt.