Killerspiele und Co. – Die Fahrt mit dem Datenferrari

Führen Videospiele zu Gewalt? Die Frage ist nicht so einfach zu beantworten, denn wir können das nicht einfach experimentell untersuchen. Zum Glück haben wir große Datensets zur Verfügung, denn je größer das Datenset, desto einfacher kann man Aussagen darüber treffen … oder etwa nicht? Lest hier, was man bei der Fahrt mit dem Ferrari unter den Datensets beachten muss.

TL;DR
– Es ist verdammt schwierig, Einflüsse wie den von Videospielen auf Aggressivität oder Mediennutzung auf Gesundheit zu untersuchen
– Oft arbeitet man hier mit riesigen Datensets und unzähligen gemessenen Variablen. Wir haben uns daran gewöhnt, dass große Datensets Qualität bedeuten.
– Das stimmt auch – aber nur, wenn man mit diesem „Datenferrari“ umgehen kann. Denn große Datensets sind auch anfällig für Scheinzusammenhänge und sehr sensibel für winzige Effekte.
– Oft wird an dieser Stelle empfohlen, sich von vornherein auf eine bestimmte Art der Analyse festzulegen und dabei zu bleiben.
– Amy Orben und Andrew Przybylski haben stattdessen einfach tausende verschiedene Modelle berechnet – und geschaut, wie das Gesamtbild aussieht.

Guckt das.

Dass ihr maiLab dringend regelmäßig schauen solltet, wisst ihr eh. Bei diesem Video ist es aber besonders wichtig. Denn die meisten wissenschaftlich interessierten Menschen sind sattelfest, was „alternative Medizin“ und Schwurbelei jeglicher Art angeht. Beim Einfluss von Videospielen oder digitalen Medien auf Kinder wird es plötzlich viel schwieriger. Hier scheint die Datenlage tatsächlich widersprüchlich und auf beiden Seiten gibt es vehemente Befürworter und Gegner.

Es ist kompliziert

Aus Mais Video könnt ihr vor allem eins mitnehmen: Herauszufinden, welchen Einfluss Videospiele auf aggressives Verhalten haben, ist verdammt, verdammt schwierig. Deswegen folge ich auf Twitter am liebsten den Wissenschaftlern, die genau solche Fragen untersuchen. Warum? Weil. Die’s. Drauf haben.
Diese Leute müssen statistische Berechnungen unter schwierigsten Bedingungen durchführen. Es ist so, als hätte man ihnen die Hände auf den Rücken gebunden. Und eine Augenbinde aufgesetzt. Und dann gesagt: „Passt auf, Leute. Ihr dürft Kinder nicht randomisiert gewalttätige Videospiele spielen lassen und schauen, was passiert. Wenn das wirklich Amokläufe auslöst, können wir das nicht verantworten. Ihr dürft Aggressionen nicht messen, indem ihr tatsächliches aggressives Verhalten erlaubt – wir können nicht riskieren, dass jemand verletzt wird. Ach ja, und wir sind uns ziemlich sicher, dass es hunderte von Einflussfaktoren gibt, die sowohl das Videospielverhalten als auch die Gewaltbereitschaft von Kindern verursachen, zum Beispiel die soziale Umgebung. Aber wir wissen nicht, welche Faktoren da genau wichtig sind und außerdem ist ein Großteil von denen auch irgendwie nicht so richtig messbar. Alles klar so weit? Gut. Dann hätten wir übermorgen gerne eure Einschätzung auf dem Tisch, ob Videospiele aggressiv machen, ja?“

Die meisten würden an dieser Stelle mit erhobenem Mittelfinger hinschmeißen. Es gibt aber auch Menschen, die sich der Aufgabe trotzdem annehmen. Diejenigen, die experimentell im Labor arbeiten, versuchen clevere Aufgaben zu entwickeln, die Aggression messbar machen oder besonders gute Kontrollgruppen für gewalttätige Videospiele zu finden. Worum es mir hier aber hauptsächlich geht sind die Wissenschaftler, die vor den verstrickten Daten aus der „echten Welt“ stehen und versuchen müssen, den Einfluss von Videospielen zu isolieren. Üblicherweise werden in Studien zu solchen komplexen Zusammenhängen eine Menge Variablen erhoben: Schulbildung, Elternhaus, Videospielgewohnheiten, Wohnort … dann werden ausgefeilte statistische Modelle angewandt, die die Zusammenhänge zwischen diesen Faktoren aufdecken sollen. Zum Beispiel wird der Einfluss einiger Variablen „herausgerechnet“, um den alleinigen Beitrag von Videospielen auf Gewalttaten zu bestimmen. Einige Menschen werden hier misstrauisch: Woher weiß ich denn, was ich rausrechnen muss und was nicht? Woher weiß ich, was das richtige statistische Modell ist? Wenn man die Zahlen nur genug dreht und wendet, kann man da doch alles Mögliche herausbekommen!

Der statistische Ferrari

Wisst ihr was? Ihr habt Recht. Je komplexer die Daten, desto mehr Quatsch kann man damit veranstalten. Wenn die Möglichkeiten steigen, in den Daten zu graben – und das geht natürlich immer besser, je mehr Daten und je mehr Variablen man hat – steigen auch die Möglichkeiten, Effekte zu finden, die gar nicht da sind und sich die herauszupicken, die einem gut in den Kram passen. Ihr kennt das z.B. von lustigen Scheinzusammenhängen, wo man meinen könnte, die Anzahl an Filmen, in denen Nicolas Cage mitspielt, sei die Ursache für Todesfälle durch Verheddern in Bettlaken. Gerade in sehr großen Datensets mit sehr vielen Teilnehmern ist das ironischerweise ein Problem. Mai beschreibt in ihrem Video große Teilnehmerzahlen zwar völlig richtig als Qualitätsmerkmal von Studien, aber das gilt nur dann, wenn man mit diesen großen Datensets auch umgehen kann. Man kann das mit einem Ferrari vergleichen: Das ist ein viel viel besseres Rennauto als ein alter klappriger Golf. Aber wenn man nicht gelernt hat, ihn zu fahren, kann man damit bloß umso schneller und heftiger gegen die Wand rasen. Aber wie fährt man nun den Datenferrari?

Amy Orben und Andrew Przybylski forschen zum Einfluss digitaler Technologie auf die psychische Gesundheit von Teenagern, von den Medien gerne heruntergebrochen auf die Frage: „Machen Smartphones depressiv?“. Die beiden stehen vor dem beschriebenen Problem: Tausende Teilnehmer. Tausende Variablen. Tausende Möglichkeiten, die Daten anzupacken. Das beginnt bei der Frage, wie man Wohlbefinden oder psychische Gesundheit definiert – hier gibt es keinen einzigen Messwert. Womöglich findet man einen Einfluss auf, sagen wir, selbstberichtete Zufriedenheit. Aber nicht auf den Punktwert in einem Depressionsfragebogen. Man könnte jetzt sagen: „Gut. Dann werfen wir eben viele Kriterien zusammen und bilden eine Art Gesamtscore!“ Aber welches Maß soll wie stark in die Berechnung mit eingehen? Was ist relevant und was nicht?
Das zweite Problem betrifft die oben genannten Scheinzusammenhänge: In solchen großen Datenstets sind immer welche enthalten. Durch die große Stichprobe kann man auch winzigste Effekte entdecken, die zwar da sind, aber so verschwindend geringen Einfluss haben, dass man sie getrost vernachlässigen kann. Ich weiß noch, dass ich bei meiner ersten Erfahrung mit „Big Data“ zunächst an einen Fehler glaubte: Alle meine Analysen wurden signifikant! Als ich meinen Dozenten damals fragte, was ich falsch gemacht habe, musste er lachen. Ab einer gewissen Größe des Datensets, erklärte er, werde so ziemlich alles signifikant. Dann komme es vor allem auf die Größe des Zusammenhangs an. Wenn man „statistisch signifikant“ aber mit „bedeutsam“ verwechselt, wird in der entsprechenden Zeitungsmeldung dann eine völlig irrelevante Kuh durchs Dorf getrieben. Besonders große Datensets folgen ihren eigenen Gesetzen, könnte man meinen.

Immer, wenn die Datensets groß und die Fragestellungen komplex sind, gibt es tausende, vielleicht sogar Millionen von Wegen, die Daten zu analysieren. Viele davon sind absolut vernünftig und lassen sich gut rechtfertigen. Das gibt viel Spielraum, zu völlig unterschiedlichen Ergebnissen zu kommen – entweder durch böswilliges, bewusstes Graben in den Daten, bis man gefunden hat, was man sucht. Oder aber unbewusst, weil man als Mensch einfach immer ein bisschen voreingenommen ist und durch seine Erwartungen die Daten beeinflusst wird. In der Wissenschaft ist man sich dieser Gefahren bewusst. So ein „Rumstochern“ in den Daten wird daher üblicherweise mit einer Art „statistischem Handicap“ belegt – je mehr Analysen man rechnet, desto höher setzt man die Schwelle, ab der man von einem Effekt spricht. Das funktioniert aber nur dann, wenn man sich der Rumrechnerei bewusst ist, denn so ein Handicap berücksichtigt nur die tatsächlich gerechneten Tests – nicht alle hypothetisch möglichen Analysen. Das würde auch gar nicht funktionieren, denn die Schwelle würde dadurch so weit hochgedrückt werden, dass es gar nicht mehr möglich wäre, überhaupt etwas in den Daten zu finden. Es wäre, als würde man sagen: „Dieser Ferrari ist so verdammt schnell und das ist gefährlich – wir lassen ihn besser in der Garage stehen!“ Das kann aber nicht die Lösung sein. Wir wollen zwar vermeiden, vor die Mauer zu fahren – aber nicht, indem wir gar nicht erst am Rennen teilnehmen!

Dann rechnen wir halt ALLES

Was also tun? Eine häufige Forderung ist es, sich in der Analyse der Daten vorher festzulegen. Wenn ich vorher bestimme, wie ich Aggressivität oder Wohlbefinden quantifizieren möchte oder welche Korrelation ich rechnen will, dann verhindere ich damit, dass ich im Nachhinein mein Maß oder meine Analyse ändere, bloß weil das zu einem „besseren“ Ergebnis führt. Das klingt erst mal gut und verhindert vor allem, dass man sich als Forscher selbst hinters Licht führt. Aber es löst das eigentliche Problem nicht so wirklich: Sagen wir, drei verschiedene Forscherteams legen sich auf eine bestimmte Analyse fest und bleiben auch artig dabei. Nun kommen sie aber mit ihren drei verschiedenen Analysen – jede für sich genommen absolut vernünftig – zu unterschiedlichen Ergebnissen. Wer hat Recht? Können wir nicht irgendwie berücksichtigen, dass viele verschiedene Analysen möglich gewesen wären? Was wäre, wenn wir einfach jede mögliche Analyse rechnen könnten?

Genau das haben Amy Orben und Andrew Przybylski getan. Sie haben sich drei große Datensets der vergangenen Jahre geschnappt und kamen somit auf eine Gesamtstichprobe von 355.358 Teilnehmern. Für jede der drei Datensets haben sie die gemessenen Variablen und deren Zusammenhänge auf alle möglichen Weisen kombiniert – inklusive der Entscheidung, ob bestimmte Einflüsse herausgerechnet werden oder nicht. Also so was wie die Nutzung sozialer Medien auf das selbstberichtete Wohlbefinden, mit oder ohne Kontrollvariablen. Oder die Nutzung sozialer Medien plus das Fernsehverhalten und welchen Einfluss das auf das von den Eltern berichtete Wohlergehen hat. Exerziert man alle möglichen Variablenkombinationen dieser Art durch, führt das allein bei einem der drei verwendeten Datensetzs schon zu 2,5 Trillionen Möglichkeiten der Analyse. Natürlich waren nicht alle Kombinationen davon sinnvoll, aber letztendlich haben Orben und Przybylski eine Auswahl getroffen. Diese basierte darauf, welche Kombinationen a) plausibel waren, b) in der bisherigen Literatur verwendet wurden und außerdem c) einige zufällige Kombinationen. Hier wurde also nicht wirklich alles gerechnet, was nur denkbar ist. Aber wir landen am Ende immer noch bei 61.342 gerechneten Modellen für ein und dieselbe Fragestellung. Das steht in keinem Verhältnis zu dem, was in einer einzelnen Studie üblicherweise abgedeckt wird.

Es bringt natürlich nichts, sich von diesen Ergebnissen wieder einzelne Resultate herauszupicken. Stattdessen haben Orben und Przybylski alle Berechnungen in ihrer Gesamtheit dargestellt und sich angesehen, wie der Median aller Effekte aussah. Das ist der Wert, der in der Mitte steht, wenn man alle Ergebnisse der Größe nach ordnet. Das ist zwar mathematisch etwas anderes als ein Mittelwert, funktioniert inhaltlich aber ähnlich: Der Median stellt eine Art „typischen Wert“ aus einer Gruppe von Werten dar. All ihre Analysen zusammengenommen kommen Orben und Przybylski so zu dem Schluss, dass es einen negativen Zusammenhang von digitalen Technologien auf das Wohlbefinden von Teenagern gibt. Der ist allerdings winziger als winzig: Nur 0,4 % der Schwankung im Wohlbefinden werden durch die Nutzung digitaler Technologien verursacht. Höchstens. Das rechtfertigt natürlich keinesfalls groß angelegte politische Maßnahmen. Dieser Zusammenhang schrumpft deutlich bzw. verschwindet, sobald Kontrollvariablen hinzugenommen werden. Der negative Einfluss der digitalen Technik lässt sich also meistens durch andere Faktoren erklären, die mit der Mediennutzung wie auch mit dem Wohlergeben zusammenhängen.

So schlimm wie Kartoffeln?

Trotzdem könnte man ja argumentieren, dass ja immerhin ein negativer Zusammenhang besteht, so winzig er auch sein mag. Wie relevant sind die Auswirkungen wirklich? Ist ein Anteil von 0,4 % an den Schwankungen des Wohlbefindens viel oder wenig? Das klingt erst mal sehr abstrakt – uns fehlt der Referenzpunkt. Von möglichen Vergleichspunkten gibt es in solchen großen Datensets zum Glück genügend, und natürlich haben Orben und Przybylski sich auch das angeschaut und ermittelt, was noch so alles einen Einfluss auf das Wohlbefinden hat. Einen viel größeren negativen Zusammenhang mit dem Wohlbefinden hatten zum Beispiel Marihuanakonsum oder Mobbing. Ebenfalls ein größere Auswirkungen – wenn auch in die positive Richtung – zeigten sich für regelmäßiges Frühstück und ausreichend Schlaf. Besonders spannend aber: Kartoffeln essen oder eine Brille zu tragen hing stärker negativ mit dem Wohlbefinden zusammen als die Nutzung digitaler Technologien! Trotzdem würde wohl niemand dafür argumentieren, Kartoffeln zu verbannen.

Manche Leute mögen sich an dieser Stelle an den Kopf fassen. Wie viel Aussagekraft haben statistische Analysen, wenn wir nach Belieben positive und negative Zusammenhänge in den Daten finden können? Wenn wir, nachdem wir alles durchgerechnet haben, immer noch keine punktgenaue Antwort haben, sondern bloß sagen können: „Der Effekt ist so winzig, dass er nicht der Rede wert ist – und es ist wohl ein kompliziertes Geflecht verschiedenster Einflussfaktoren, sodass eine einzelne Maßnahme für sich genommen auch nur wenig bis gar keine Verbesserung bringen kann.“ Das klingt doch verdächtig nach: „Keine Ahnung. Es ist kompliziert. Da kann man eh nix machen.“ Und überhaupt: Was soll der Quatsch mit den Kartoffeln? Das ist doch wohl ein Scherz, oder? Das spricht doch wohl erst Recht dafür, dass die sich da Quatsch zusammengerechnet haben?

Herzlich willkommen in der Welt der Wissenschaft. Sie ist frustrierend und uneindeutig – wie das echte Leben, das sie untersucht. Schwarz-weiße Antworten wird man, zumindest wenn man so etwas verflucht Schwammiges wie menschliches Verhalten untersucht, nur selten finden. Das klingt erst mal wenig hilfreich, aber es ist das beste Werkzeug, das wir haben und auf jeden Fall besser, als blind zu raten. Außerdem ist die Antwort, dass es keine eindeutige Antwort geben kann, für sich genommen extrem wichtig: Es bedeutet, dass es keine simple Lösung geben kann, die an nur einer einzelnen Stellschraube dreht – wie an Videospielen oder an der Social-Media-Nutzung.

Die Kartoffeln sind übrigens ein großartiger Referenzpunkt, der sehr gut zeigt: Wenn etwas (so gut wie) gar keinen Effekt auf unser Wohlbefinden hat, dann ist es sehr plausibel, bei jeder neuen Erhebung mal einen Effekt in die eine, mal in die andere Richtung zu finden. Wenn ich bei einem Glücksspiel mal ein paar Euro gewinne und mal ein paar verliere bedeutet das nicht, dass Glücksspiel widersprüchlich ist und ich nicht sagen kann, ob es insgesamt nun zu Gewinnen oder zu Verlusten führt. Auf lange Sicht kann ich mir in meiner Aussage aber immer sicherer werden. Keinen Zusammenhang nachzuweisen ist viel schwieriger und braucht viel mehr Daten als zu zeigen, dass es einen Effekt gibt. Je größer der Effekt, umso einfacher wird es.

Es gibt nur eine Möglichkeit, richtig mit dem Datenferrari umzugehen: Man muss ihn über lange Zeit sehr oft fahren. Achtung: Damit meine ich nicht, dass man so lange fahren soll, bis man es mit Bestzeit ins Ziel geschafft hat, um dann nur das Zielfoto zu veröffentlichen. Wichtig ist, dass man darüber berichtet, wie oft man vor die Wand gefahren ist und wie häufig man ins Ziel gekommen ist. Und mit welcher Rundenzeit.
Wir müssen uns daran gewöhnen, dass wir keine einzelnen Zahlen herausbekommen und kein klares „Ja“ oder „Nein“. Wir müssen uns daran gewöhnen, mit Zahlenspannen zu arbeiten und viel häufiger sagen: „Es kommt darauf an …“. Das ist nicht besonders zufriedenstellend und manchmal müssen trotzdem schwarz-weiße Entscheidungen getroffen werden , ob die Daten es nun hergeben oder nicht. Mit realistischen Einschätzungen der Daten gelingt das aber besser als mit überzogenen Aussagen, die uns in falscher Sicherheit wiegen.


Quellen und Links in erwähnter Reihenfolge, Stand 13.08.2019

[1] YouTube – maiLab – Verursachen Videospiele Amokläufe? – 10.08.2019
[2] Spurious Correlations
[3] Orben, A. and Przybylski, A.K. (2019). The association between adolescent well-being and digital technology use. Nature Human Behaviour 3, 173–182.

2 Kommentare

  1. Thank you for the good writeup. It actually was a enjoyment account it.
    Glance complex to more brought agreeable from you!
    However, how could we communicate?

  2. WeLoveMoney

    22/11/2019 at 0:23

    Einfache Moglichkeiten, schnell Geld zu verdienen – https://is.gd/WVyPXz

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

© 2019 Ein Glas Rotwein

Theme von Anders NorénHoch ↑