Heute gibt’s bewegte Bilder anstatt Textwall. Die Inhalte des Videos habe ich aber trotzdem noch mal in schriftlicher Form in diesem Blogpost aufgearbeitet. Es geht um Würfel und Magie – und es gibt Daten und Rechnerei zum Mitnehmen.

TL;DR
– Ich „verzaubere“ einen Würfel, sodass er sich bei den Würfen mit Magie signifikant verbessert – und ohne Magie sogar verschlechtert!
– Ich kann aber gar nicht zaubern. Die Würfe sind nach wie vor gleichverteilt. Sowohl insgesamt als auch mit und ohne Magie für sich betrachtet. Es gibt auch keinen Unterschied in den Mittelwerten zwischen den beiden Bedingungen.
– Das liegt daran, dass ich immer dann gezaubert habe, wenn der Würfel besonders schlecht war (immer, wenn eine 1 oder 2 gefallen ist). Es konnte danach also nur besser werden. Wenn eine 6 gefallen ist, habe ich nicht gezaubert – dann jedoch konnte es nur schlechter werden.
– Der Schein, dass der Würfel sich nach meiner Magie verbessert, trügt also. Meine Magie war jedenfalls nicht die Ursache – sondern ein statistisches Schnippchen. Dasselbe kann dann passieren, wenn man immer dann etwas tut, wenn es gerade besonders gut oder schlecht läuft. Zum Beispiel dann, wenn man einem Patienten Globuli gibt, wenn er besonders große Schmerzen hat.

Du bist eine Hexe, Juli!

Schluss mit Wissenschaft. Ich kann zaubern. Mit meinem magischen Schaschlick-Sp- ähh, Zauberstab kann ich nämlich einen Würfel dazu bringen, sich von einem Wurf um nächsten zu verbessern. Legt euch nicht bei Mensch-ärgere-dich-nicht mit mir an!

Ich würfele also 200 Mal mit einem herkömmlichen Würfel. Immer dann, wenn eine 1 oder 2 fällt, verzaubere ich den Würfel mit meiner Magie, damit er beim nächsten Wurf besser wird. In einer Excel-Tabelle trage ich also ein, welche Zahl gefallen ist und ob ich vor diesem Wurf gezaubert habe oder nicht. Den Datensatz könnt ihr euch hier herunterladen: wuerfel_magic

Alle Rechnerei, die ich in R anstelle (und den ein oder anderen zusätzlichen Plot) gibt es in diesem R-Skript, das ihr herunterladen und ausführen könnt.* In der schriftlichen Beschreibung hangele ich mich daran entlang.

Zunächst lade ich die Daten ein. Achtet darauf, dass die Datei entweder in eurem Projektordner liegt oder ihr den korrekten Dateipfad angebt. Ich habe auch einen alternativen Code-Teil eingefügt, bei dem ihr einen vollkommen zufälligen Würfel-Datensatz generieren könnt. Dieser ist aber auskommentiert – wenn ihr ihn anstatt der echten Daten nutzen wollt, müsst ihr das ändern. Das soll uns aber zunächst nicht interessieren – im Video rechne ich ausschließlich mit dem echten Datensatz. Für den habe ich übrigens wirklich 200 Mal gewürfelt und gezaubert. Weil das sehr lange dauert, sieht man das nicht im Video. Aber wer Beweise möchte – auch das habe ich gefilmt und schicke euch auf Anfrage gerne das Material 😉

Wird der Würfel durch Magie besser?

Als nächstes berechne ich die Differenz von einem Wurf zum nächsten. Wenn ich zum Beispiel erst eine 2 gewürfelt habe und danach eine 5, ist die Differenz 3. Der Würfel hat sich um 3 Zahlen „verbessert“ (ich gehe davon aus, dass hohe Würfe besser sind). Habe ich erst eine 3 und danach eine 1 gewürfelt, ist die Differenz -2. Der Würfel hat sich um 2 Zahlen „verschlechtert“.

Nun vergleiche ich die beiden Gruppen miteinander. Unterscheidet sich die Differenz mit vs. ohne Magie? Das tut sie in der Tat! Mit Magie wird der Würfel besser, ohne sogar schlechter!

Und ein t-Test sagt mir: Dieser Unterschied ist signifikant, t(124.66) = −10.16, p < .001, d = −1.48. Meine Magie hat also gewirkt!
… oder?

Gleiche Würfe für alle

Wenn ich mir die Verteilung der Würfe ansehe, stelle ich fest: Die Zahlen von 1 bis 6 sind gleich verteilt, χ2(5, N = 200) = 3.64, a = 1, b = 6, p = .242.**

Wie kann das sein? Durch meine Magie hätten doch eigentlich mehr höhere Zahlen fallen müssen. Vielleicht ist es ja so, dass die häufigeren Sechsen mit Magie in den Durchgängen ohne Magie untergehen. Immerhin würden wir für die Würfe ohne Magie eine Gleichverteilung erwarten. Nur in den Würfen mit Magie würden wir mehr höhere Zahlen erwarten. Deswegen sehen wir uns die Wurfverteilung nun getrennt nach Gruppen an.
Die Verteilung, die ihr hier seht, zeigt den relativen Anteil der Zahlen pro Gruppe in Prozent. Im Skript findet ihr auch einen Plot für die absolute Verteilung.

Auch hier zeigt sich: Beide Gruppen sind gleichverteilt. Ohne Magie, χ2(4, N = 141) = 0.50, a = 1, b = 6, p = .974. Aber auch mit Magie, χ2(2 ,N = 59) = 1.51, a = 1, b = 6, p = .469.
Mehr noch: Ein Two-sample Kolmogorov-Smirnov test zeigt, dass die Daten aus derselben Verteilung stammen, D = 0.08, p = .925. Es gibt auch keinen Unterschied in der mittleren geworfenen Zahl ohne Magie (M = 3.67, SD = 1.78) und mit Magie (M=3.58M=3.58, SD=1.69), t(114.08) = 0.37, p = .715, d = 0.06.

Wie kann das sein? Meine Magie hat doch den Würfel verbessert?

Der Würfel hatte keine Wahl

An dieser Stelle muss man die Frage stellen: Wann habe ich denn immer gezaubert? Immer dann, wenn eine 1 oder 2 gefallen ist. Wenn ich aber eine 1 gewürfelt habe, dann kann danach eine 1 fallen – in diesem Fall wäre der Würfel weder besser noch schlechter geworden. Oder es fällt eine 2 bis 6 – dann hätte der Würfel sich verbessert. Und auch wenn eine 2 gefallen ist, kann der Würfel danach fast nur besser werden. Nur wenn danach eine 1 fiele, hätte er sich verschlechtert. Ich zaubere aber immer nur bei einer 1 oder 2 und das bedeutet: Nach meiner Magie kann der Würfel eigentlich nur besser werden.
Umgekehrt ist es zum Beispiel nach einer 6 (nach der ich niemals zaubern werden): Der Würfel kann nur schlechter werden. So wird der Würfel nach dem Zaubern also grundsätzlich besser und ohne Zaubern schlechter. Das liegt aber nicht an der Magie, sondern daran, dass ich nur zu sehr selektiven Zeitpunkten zaubere.

Dasselbe Prinzip wirkt bei esoterischem Schnickschnack oder Alternativmedizin. Ich gebe einem Patienten dann magische Heilsteine oder Globuli, wenn es ihm besonders schlecht geht. So zynisch es klingt, kann es ihm danach dann nur besser gehen (oder zumindest nicht mehr schlechter). Die Verbesserung lag dann nicht an den Globuli – aber es sieht so aus. Man bezeichnet das auch als Regression zur Mitte – immer wenn zumindest ein kleines bisschen Zufall involviert ist, tendieren Extremwerte dazu, bei einer erneuten Messung/Testung zum mittleren Wert der Verteilung zu driften.
Selbstverständlich gilt das auch für „schulmedizinische“ Medikamente. Auch dort gebe ich ein Medikament in der Regel dann, wenn es dem Patienten gerade schlecht geht. Ich kann nicht unterscheiden, ob eine nachfolgende Verbesserung auf die Behandlung zurückzuführen ist. Deswegen müssen Medikamente immer gegen ein Placebo getestet werden. Wenn ich sowohl das Placebo als auch das Medikament dann gebe, wenn es dem Patienten gerade schlecht (oder besonders gut) geht, dann kann ich am Ende vergleichen, ob der Zustand der Patienten sich hinterher zwischen Placebo und echtem Medikament unterscheidet.

Immer dann, wenn man also den Eindruck hat, dass etwas geschadet hat oder hilfreich war, lohnt es sich darüber nachzudenken, ob man vielleicht immer dann interveniert hat, wenn es gerade besonders gut oder besonders schlecht lief. Und ein scheinbarer Effekt womöglich auf ganz ähnliche Mechanismen zurückzuführen ist wie bei meiner Würfel-Magie.


*Erstellt mit RStudio. Verwendete Pakete im Skript: ggplot2, effsize, spgs
Und im Video zusätzlich: prmisc

**Streng genommen darf ich natürlich nicht sagen, dass die Würfe gleich verteilt sind. Ich müsste sagen, dass ich die Annahme einer Gleichverteilung nicht verwerfen kann.