Lars und die Welt hat zur Replikation von Emotos Reis-Experiment aufgerufen. Ich halte das für eine tolle Gelegenheit, Schritt für Schritt die Planung, den Ablauf und die Auswertung eines Experiments zu erklären. Dieser erste Post zu dem Thema dreht sich um die allerersten Schritte der Versuchsplanung und speziell um die Frage: Wie viele Proben mit Reis brauche ich eigentlich, um meine Frage zu beantworten? Wir steigen ein in ein ganz winziges Bisschen Statistik mit dem Tool G*Power. Und ihr könnt es alle nachmachen!

Alles lief nach Plan – bloß der Plan war scheiße

Genau das sollte nicht passieren. Bevor man wild loslegt mit seiner Forschung, sollte man sich ein paar Minuten lang hinsetzen und sich überlegen, was man eigentlich vor hat und wie man das am besten anstellt. Oft setzt man sich dafür mit Kollegen zusammen und diskutiert, denn ein Außenstehender findet leichter Denkfehler im Design des Experiments, die man selbst gar nicht mehr wahrnimmt. Das ist der Kern der Wissenschaft und so etwas in der Art ist auch unter meinem Facebook-Post passiert, als Lars mir beschrieben hat, was er anders machen würde und warum.
Das wirkt erst mal komisch: Sollte es nicht in der Forschung den einen richtigen Weg geben? Ist Methodik am Ende bloß „Meinung“?

Jein. Es gibt Vorgehensweisen, die sind sauberer als andere. Ein doppelblinder Versuch ist immer einem nicht-verblindeten vorzuziehen. Aber erstens ist es immer möglich, einen Experimentalplan durch Ratschläge von anderen noch zu verbessern. Und zweitens muss man manchmal abwägen, welche Methoden ideal wären und welche dagegen möglich sind. Es wäre zum Beispiel viel besser, 2.000 Proben Reis zu testen. Das ist aber mit meinen Ressourcen nicht realistisch. Wo man welche Zugeständnisse macht, steht zur Debatte.
Ich war positiv überrascht, wie viele Leute Interesse an den Überlegungen von Lars und mir zu dem Thema hatten. Daher traue ich mich auch, euch begleitend zu dem Versuch, der in einem Video enden wird, Statistik um die Ohren zu hauen. Das ist gar nicht so gruselig, wie man immer denkt.

Die Gedanken zum bestmöglichen Versuchsaufbau (Label, Verblindung, Behandlung …) werde ich euch ein anderes Mal darstellen. Hier und heute soll es „nur“ um die Berechnung gehen, wie viele Proben ich überhaupt brauche, um zu einem aussagekräftigen Ergebnis zu kommen.

Warum?

Wir wissen alle intuitiv, dass eine größere Stichprobe besser ist. Aber wieso eigentlich? Ganz allgemein geht es darum, Irrtümer aufgrund von Zufall zu vermeiden. Gut denkbar, dass ich eine Münze fünf Mal werfe und jedes Mal Zahl dabei herum kommt. Dann denke ich womöglich, dass die Münze gezinkt war. Dabei war das Ergebnis bloß Zufall und die Münze ist völlig in Ordnung. Wenn ich die Münze dagegen 1.000 Mal werfe, wird mir ein solcher Fehler sehr wahrscheinlich nicht passieren.

Die Überlegung geht aber noch weiter. Ich möchte wissen: Unterscheidet sich eine Gruppe von Reis-Proben mit positiver Beschriftung (und positiver Behandlung) in ihrem Schimmelverhalten von einer Gruppe von Reis-Proben mit negativer Beschriftung (und negativer Behandlung)? Zwei Fehler können mir passieren, wenn der Zufall mir ins Handwerk pfuscht:

Alpha-Fehler =  Ich finde einen Unterschied zwischen den beiden Gruppen, obwohl es eigentlich keinen gibt.
Bete-Fehler = Ich finde keinen Unterschied zwischen den Gruppen, obwohl es eigentlich einen gibt.

Beide Fehler möchte ich vermeiden, aber je nach Fragestellung kann einer von beiden der wichtigere sein. Wenn ich untersuche, ob ein Medikament Nebenwirkungen verursacht, dann möchte ich einen Unterschied zwischen Medikament und Placebo auf jeden Fall finden, sofern er existiert. Fälschlicherweise davon auszugehen, dass das Medikament Nebenwirkungen verursacht, obwohl es sicher ist, ist viel weniger gefährlich als Nebenwirkungen zu übersehen. Umgekehrt wäre es bitter, die heilende Wirkung eines neuen Krebsmedikaments zu übersehen, obwohl sie vorhanden ist und Leben retten könnte.
Die jeweilige Fehlerwahrscheinlichkeit wird von verschiedenen (statistischen) Aspekten beeinflusst. Zum Beispiel wird leider die Wahrscheinlichkeit eines Alpha-Fehlers größer, wenn die Wahrscheinlichkeit für den Beta-Fehler sinkt und umgekehrt: Die beiden Fehlerarten beeinflussen sich gegenseitig. Eine größere Stichprobe reduziert aber die Wahrscheinlichkeit, dass ich mich irre. Aber wie groß muss die Stichprobe nun sein?

Achtung, Kurve!

Beantworten kann mir diese Frage das Programm G*Power. Das Programm ist vollkommen kostenlos und steht jedem zur freien Verfügung. Wer mag, findet Informationen und den Download hier. Ich erkläre euch, was für Parameter ich eingegeben habe und warum. Zunächst einmal: So könnte das Resultat einer Berechnung aussehen (das ist noch nicht das, was ich für den Reis benötige):

Kleiner Exkurs zum Verständnis – eigentlich interessiert uns hauptsächlich der Wert, der am Ende raus kommt. Es ist keine Schande, bei der Sache mit den Kurven nicht ganz folgen zu können und auch nicht wichtig für das Ergebnis der Berechnung. Aber wer sich ein wenig einlesen möchte:

Zunächst seht ihr oben zwei Kurven. Die rote Kurve stellt die Verteilung da, wenn es keinen Unterschied zwischen den Gruppen gibt. Die blaue Kurve stellt die Verteilung dar, wenn es einen Unterschied gibt. Wir wollen wissen: Welche Kurve ist „die Wahrheit“? Das Problem: Die Verteilungen überlappen. Das bedeutet, wenn ich einen Wert messe, kann ich nicht sicher sein, ob es beispielsweise eine hohe Ausprägung der nicht-unterschiedlichen Verteilung ist oder eine niedrige Ausprägung der unterschiedlichen Verteilung. Das klingt verwirrend, wird aber so sicher klarer:

Unser statistischer Test spuckt uns (in unserem Fall) einen sogenannten t-Wert aus. Liegt dieser t-Wert über der grünen Linie in der Grafik, gehen wir davon aus, dass es einen Unterschied gibt, die Verteilung also der blauen Kurve entspricht. Liegt der t-Wert unter der grünen Linie, gehen wir davon aus, dass es keinen Unterschied gibt, die Verteilung also der roten Kurve entspricht.

Fall 1: Der Wert liegt sehr weit links, z.B. bei -2 auf der horizontalen X-Achse der Grafik. Und somit links von der grünen Linie. Dann sagen wir: Es gibt keinen Unterschied zwischen den Gruppen, es ist die rote Kurve! Wir können uns dessen ziemlich sicher sein, denn wir sind weit weg von der blauen Kurve.

Fall 2: Der Wert liegt sehr weit rechts, z.B. bei 5 auf der horizontalen X-Achse der Grafik. Und somit rechts von der grünen Linie. Dann sagen wir: Es gibt einen Unterschied zwischen den Gruppen, es ist die blaue Kurve! Wir können uns dessen ziemlich sicher sein, denn wir sind weit weg von der roten Kurve.

Spannend wird es im Grenzbereich (wo wir vermutlich landen werden):

Fall 3: Wir landen links von der grünen Linie, aber nicht so weit: Etwa bei 1 auf der horizontalen X-Achse der Grafik. Wie man sieht, überschneiden sich die Kurven hierdeutlich. Sind wir bei 1 gelandet, weil wir einen Wert aus der linken Hälfte blauen Kurve gemessen haben? Oder beobachten wir hier die rechte Hälfte der roten Kurve? Weil wir links von der grünen Linie gelandet sind, sagen wir: Es gibt keinen Unterschied! Wie wir sehen, liegt die rote Kurve hier auch höher als die blaue und die Wahrscheinlichkeit ist größer, dass die rote Kurve die richtige ist. Es besteht aber auch die Wahrscheinlichkeit, dass es eigentlich die blaue Kurve war und somit ein Unterschied besteht, obwohl wir das Gegenteil behauptet haben: Wir haben einen Beta-Fehler gemacht. Das kennzeichnet der blaue Bereich.

Fall 4: Wir landen rechts von der grünen Linie, aber nicht so weit: Etwa bei 2 auf der horizontalen X-Achse der Grafik. Wie man sieht, überschneiden sich die Kurven hier deutlich. Sind wir bei 2 gelandet, weil wir einen Wert aus der rechten Hälfte der roten Kurve gemessen haben? Oder beobachten wir die linke Hälfte der blauen Kurve? Weil wir rechts von der grünen Linie gelandet sind, sagen wir: Es gibt einen Unterschied! Wie wir sehen, liegt die blaue Kurve hier höher als die rote und die Wahrscheinlichkeit ist größer, dass die blaue Kurve die richtige ist. Es besteht aber auch die Wahrscheinlichkeit, dass es eigentlich die rote Kurve war und somit kein Unterschied besteht, obwohl wir das Gegenteil behauptet haben: Wir haben einen Alpha-Fehler gemacht. Das kennzeichnet der rote Bereich.

Womit füttere ich G*Power?

Verschiedene Dinge muss ich nun auswählen, damit G*Power die richtige Stichprobengröße für mich berechnet:

Test family = Testfamilie
Hier geht es nicht um Verwandschaftsverhältnisse. Es geht nur darum den Test auszuwählen, den ich später rechnen will. In meinem Fall ein t-Test. Zu dem kommen wir genauer, wenn es später an die Daten geht.

Statistical test = statistischer Test
Hier spezifiziere ich näher, was ich machen will. Ich möchte zwei Mittelwerte vergleichen, daher wähle ich „Means:“ (Mittelwerte). Dann wähle ich „Difference between two indepentend means (two groups)“ (Unterschied zwischen zwei unabhängigen Mittelwerten (zwei Gruppen). Denn ich werde zwei Gruppen von Reis haben, die nichts miteinander zu tun haben. Beide stammen aus demselben Sack Reis, aber sind nicht voneinander beeinflusst. Eine abhängige Testung wäre es zum Beispiel, wenn ich ein und denselben Reis erst einmal beschimpfe und danach nett behandle und nach jeder Behandlung messe, was passiert. Gut, in meinem Fall kann der Reis eh nur einmal schimmeln, zwei Mal denselben Reis zu testen macht also keinen Sinn, aber man könnte ja zum Beispiel in beiden Fällen messen, wie viel Licht der Reis nach der jeweiligen Behandlung reflektiert. Oder so.
Jedenfalls sind meine beiden Reis-Gruppen unabhängig voneinander, also wähle ich diesen Test aus.

Type of power analysis = Art der Power-Analyse
Verzeiht die fehlende Übersetzung von „Power“, aber das ist gebräuchlicher als einfach nur „Stärke“.
Hier will ich eine „a priori“-Analyse, also eine Berechnung vor meinem Experiment. G*Power bietet nämlich auch Berechnungen im Nachhinein, zum Beispiel, wie groß die Teststärke in meinem Experiment war.
Ich will aber: „compute required sample size“ = Berechne benötigte Stichprobengröße. Gegeben die genannten Parameter.

Tail(s) = „Schwänze“ = Enden der Verteilung; einseitig oder zweiseitig testen
Nun kann ich wählen, ob ich ein- oder zweiseitig testen möchte. Das heißt, mein roter Alpha-Bereich liegt wie ihr das oben in der Grafik gesehen habt auf einer Seite der Kurve oder er ist auf beide Seiten aufgeteilt, so wie hier:

Wie ihr sehen könnt, ist der rote Bereich unter der Kurve nun aufgeteilt und es gibt zwei grüne Linien als Kriterium. Ich gehe hier davon aus, dass es einen Unterschied gibt, wenn mein Testwert entweder rechts von der rechten grünen Linie oder links von der linken grünen Linie liegt. Das ist jeweils derselbe Wert, bloß einmal mit negativem und einmal mit positivem Vorzeichen. Wir müssen uns hier eine weitere blaue Kurve links von der roten vorstellen. So bleibe ich offen für beide Fälle: Einen Unterschied nach oben oder nach unten. Heißt: Der positiv behandelte Reis schimmelt entweder später oder früher.
Warum mache ich das? Ich hätte gute Gründe, nur in eine Richtung zu testen: Emotos Ergebnisse legen nahe, dass der schlecht behandelte Reis früher schimmelt. Ich bin aber skeptisch und möchte ein Ergebnis in die entgegengesetzte Richtung nicht ausschließen.
Wenn ich einseitig teste, käme mir das insofern entgegen, dass ich dann eine kleinere Stichprobe benötige. In der Statistik gibt es aber die ungeschriebene Regel, im Zweifel lieber „gegen sich“ zu testen. Das heißt, ich mache es mir so schwer wie möglich. Ich könnte nämlich „schummeln“ indem ich einfach nur in die Richtung teste, dass der negativ behandelte Reis schneller schimmelt. Schimmelt er im Gegenteil weniger schnell, übersehe ich das und behaupte auch hier, es gäbe keinen Unterschied, obwohl einer da ist. Ich möchte Emoto aber jede Chance der Welt lassen – auch in die von ihm entgegengesetzte Richtung. Daher werde ich zweiseitig testen.

Effect size d = Effektgröße d
Das hier ist die Größe des Effekts, den ich zu finden gedenke. Die kenne ich vor dem Experiment allerdings nicht. In der Regel stütze ich mich auf vorherige Publikationen und verwende die Effektgrößen, die dort gefunden wurden. Für Emoto habe ich aber keine verlässlichen Daten in dieser Hinsicht vorliegen. Da sein Effekt aber sehr beeindruckend und quasi mit dem bloßen Auge beobachtbar war, gedenke ich ihm zumindest einen mittleren Effekt von 0.5 zu. (Klein läge bei 0.2 und groß bei 0.8.)
Auch hier gilt: Wenn ich einen großen Effekt annehme (0.8), benötige ich eine kleinere Stichprobe. Ich arbeite also wieder „gegen mich“, wenn ich von einem mittleren Effekt ausgehe.
[In meinem Facebook-Post bin ich zunächst von einem solch großen Effekt ausgegangen. Ich habe mich aber im Verlauf dieses Blogposts entschieden, aus genannten Gründen den mittleren Effekt als Ausgangslage zu verwenden.]

α err prob = α error pobability = α-Fehler-Wahrscheinlichkeit
Diesen Fehler kennen wir von oben. Hier handelt es sich um die Wahrscheinlichkeit für den Fehler, einen Unterschied zwischen den Gruppen zu finden, obwohl gar keiner da ist. Das ist ein Wert, den ich frei wählen kann, je nachdem, wie hoch meine Ansprüche sind. Je kleiner, desto härter das Kriterium, desto geringer die Wahrscheinlichkeit, einen Fehler zu machen. Aber es steigt eben auch die Wahrscheinlichkeit, echte Unterschiede zu übersehen. Normalerweise wählt man hier 0.05, also 5%. Das tue auch ich hier.

Power (1 – β err prob) = Teststärke
Die Teststärke ist sozusagen das Gegenteil des Beta-Fehlers. Sie drückt aus, wie sehr wir in der Lage sind, einen Unterschied zu finden, wenn es auch tatsächlich einen gibt. Sozusagen die korrekte Zurückweisung der Aussage „Es gibt keinen Unterschied“. Die Teststärke ergibt sich aus 1 minus der Beta-Fehler-Wahrscheinlichkeit.
Wenn ich zugunsten von Emoto rechne, dann möchte ich den Beta Fehler natürlich vermeiden und brauche eine hohe Teststärke. Ein sehr guter Wert wäre schon 0.8.

Allocation Ratio N2/N1 = Zuweisungsverhältnis N2/N1
Hier geht es um das Verhältnis der Größe der beiden Gruppen zueinander. Ich möchte in beiden Reis-Gruppen dieselbe Anzahl an Proben, also wähle ich hier 1.

Das Ergebnis

Unter diesen Annahmen sieht mein Ergebnis wie folgt aus:

Rechts interessieren mich vor allem die Parameter Sample size group 1 und 2 (Stichprobengröße Gruppe 1 und 2). Und die Total sample size (Gesamtstichprobengröße), die sich aber lediglich aus der Größe der beiden Gruppen ergibt. Mit den oben gemachten Annahmen komme ich auf 64 Reis-Proben pro Gruppe, also 128 Proben insgesamt.

Ein wenig Spielraum

Das ist nicht in Stein gemeißelt. Es hängt wie gesagt davon ab, was ich möchte. In meinem Fall erfahre ich viele Dinge wie zum Beispiel die Effektstärke erst nach dem Experiment. Hätte ich auf verlässliche Literatur zurückgreifen können, wäre das anders. So kann ich zum Beispiel von einem großen Effekt (0.8) ausgehen (nach Emotos Behauptungen alles andere als unrealistisch) und komme auf nur noch 26 Proben pro Gruppe, insgesamt 52.

Stelle ich höhere Anforderungen an die Teststärke (0.95) bei einem großen Effekt (0.8), brauche ich 42 Proben pro Gruppe, insgesamt 84. Dieselben Ansprüche bei einem mittleren Effekt (0.5) würden mir 105 Proben pro Gruppe, also insgesamt 210 (!) Proben abverlangen.

Hier wird das erste Problem mit Emotos ursprünglichem Versuch und auch den „Replikationen“ auf YouTube deutlich: So viele Gläser mit Reis hatten die meisten gar nicht. Wie man aber sieht, sind selbst mit lascheren statistischen Kriterien immer noch sehr große Stichproben erforderlich, um falsche Schlüsse zu vermeiden.

Zweitens kommen jetzt die äußeren Limitationen ins Spiel. Sehr kleine Stichproben finden wir zum Beispiel in Studien mit Leuten mit Hirnschädigungen, wo es in der Regel wenige Probanden gibt, die überhaupt die Verletzungen zeigen, die wir untersuchen wollen. Oder in Studien, wo die Methoden sehr teuer und/oder sind und wir daher nicht viele Leute untersuchen können. In meinem Fall sind die Ressourcen ebenfalls begrenzt und ich habe „nur“ 106 Reagenzgläser. Ich werde nicht extra für das Experiment 200 Stück einkaufen, denn es gibt keinen Sponsor für mein Experiment und ich bin eine arme Studentin. Meine Berechnungen zeigen aber, dass ich mit 106 Proben insgesamt ziemlich gut aufgestellt bin, im Falle eines großen Effekts sogar mehr als ausreichend. Gegebenenfalls muss ich Abstriche bei der Teststärke machen, aber all das werde ich hinterher berechnen können.

Jetzt kann es weiter gehen mit der Detailplanung des Ablaufs.


Quellen und erwähnte Links in Reihenfolge des Erscheinens, Stand 18.05.2018

[1] Facebook – Lars und die Welt
[2] YouTube – Hat Emoto recht oder nicht – das Experiment! Lars und der Reis – Lars Und Die Welt – 13.05.2018
[3] Facebook – Ein Glas Rotwein – Beitrag zum Start des Reisexperiments – 18.05.2018
[4] Universität Düsseldorf: G*Power – Faul, F., Erdfelder, E., Lang, A.-G., & Buchner, A. (2007). G*Power 3: A flexible statistical power analysis program for the social, behavioral, and biomedical sciences. Behavior Research Methods39, 175-191.