Ich weiß, ich weiß. Es ist fast schon langweilig. Die Journalisten sagen, die Wissenschaftler sind sich nicht einig und erzählen den ganzen Tag nur Quark. Und die Wissenschaftler sagen, die Journalisten verzerren (aus Imkompetenz oder Sensationsgeilheit) Forschungsergebnisse und erzählen den ganzen Tag nur Quark. Ich gehöre zum „Team Wissenschaft“ und muss gestehen, dass man auch Forscher ordentlich Bullshit von sich geben hört, aber das macht den gequirlten Unfug, den populärwissenschaftliche Magazine so von sich geben, auch nicht wertvoller. Natürlich geht es wieder darum, was Krebs erregt, was nicht und was davor schützt. Wir stehen drauf, Substanzen in diese Kategorien einzuteilen. Tim Minchin hat sogar einen Song darüber geschrieben. Die Aussage des Beitrags: Für diverse Substanzen finden sich in der Literatur völlig unterschiedliche Ergebnisse, ob dieser Stoff nun Krebs verursacht oder nicht. Deswegen wird die Wissenschaft wird als uneindeutig und unseriös dargestellt. Online gestellt hat das ausgerechnet das populärwissenschaftliche Magazin Quarks und Co. in diesem Beitrag. Ein Magazin der Öffentlich-Rechtlichen, das eigentlich eine recht hohe Qualität aufweist. Aber dieses Mal mit großem Bockmist glänzt. Hier ein Screenshot des Beitrags, sollte er wieder von der Seite verschwinden, was ich eigentlich hoffe.

Facebook – Quarks
Link zum Post

Als erstes Frage ich mich, wieso zur Hölle ausgerechnet ein wissenschaftliches Format die Wissenschaft als unseriös darstellen will. Trifft das dann nicht auch für Quarks selbst zu? Oder geht es darum, sich als vertrauenswürdige Quelle gegen die korrupte Forschung abzugrenzen? Ich stehe jedenfalls vor dem Problem, dass ich gar nicht weiß, wo ich bei so vielen haarsträubenden Fehltritten anfangen soll. Ich entscheide mich grob für: Von oben nach unten. Von rechts nach links.

„Laut einer wissenschaftlichen Studie sind wissenschaftliche Studien nicht immer seriös.“

Klar soll das witzig sein. Ich verstehe den Witz auch. Das Problem ist, dass die meisten Leser das nicht tun. Die kommen ganz fix auf den Trichter, dass Forschung eher Meinung ist und überhaupt eine Menge Gemauschel. Das kann man doch nicht ernst nehmen. Ständig will sich jemand wichtig machen, indem er uns erzählt „Forscher (meistens amerikanische oder skandinavische) haben herausgefunden …“. Dabei sagt das doch nicht mehr aus als die Weisheiten, die mein Onkel Klaus nach drei Bier am Stammtisch so von sich gibt.
Ja, klar gibt es unseriöse Forschung. Aber es gibt auch Bäcker, bei denen man Darmbakterien in den Backwaren findet und trotzdem kaufe ich weiter Brötchen. Hoffentlich bei anderen Bäckern als den genannten, aber jedenfalls komme ich nicht darauf, dass Bäcker ganz allgemein und generell ihre Fäkalien im Teig verteilen. Auch nicht die meisten.
Am schlimmsten ist aber der Grund, warum den Studien überhaupt Unseriösität attestiert wird: Weil es Variabilität in den Daten gibt.
[Dramatische Pause, weil ich den Mund ein paar mal auf und zu klappen und den Kopf schütteln muss.]
Genau das macht echte Daten aus: Schwankungen. Allein schon aufgrund des Zufalls erwarten wir gewisse Unterschiede. Zwei verschiedene Forscher werfen eine Münze. Einer beobachtet Kopf als Ergebnis, der andere Zahl – das heißt nicht, dass einer von beiden Unrecht hat oder weniger glaubwürdig wäre. Okay, technisch gesehen haben beide den Fehler gemacht, die Münze nicht ausreichend häufig zu werfen. Aber das ist eine Metapher, verdammt.
Dann gibt es noch verschiedene Methoden und Fragestellungen. Beide Forscher untersuchen beispielsweise die Gefährlichkeit einer Münze. Der eine tut das, indem er Menschen das Geldstück anfassen lässt und protokolliert, wie viele hinterher gestorben sind. Er kommt zu dem Schluss, dass die Münze völlig unbedenklich ist. Der andere baut sich ein Projektil aus der Münze und schießt sie in Hochgeschwindigkeit auf ungeschützte Probanden. Die tragen einige Blessuren davon, teils lebensbedrohlich. Der Forscher schlussfolgert: Münzen sind brandgefährlich. Natürlich ist es in diesem Fall absolut einleuchtend, dass die unterschiedlichen Ergebnisse auf die Herangehensweise zurückzuführen sind. Bloß: Verpackt in zwei Zeitungsartikel ohne Kontext („Münzen sind harmlos“ vs. „Münzen – die unbeachtete Gefahr in unserem Geldbeutel!“) wird das aber nicht mehr unbedingt deutlich. Oder verwurstet in eine Grafik ohne Achsenbeschriftung, ohne Einordnung der jeweiligen Studien und ohne Sauce, dafür aber mit viel Quatsch.

„Eindeutige Wissenschaft“?

Wie bereits ausgeführt kann es viele Gründe geben, warum es in der Forschung zu uneinheitlichen Ergebnissen kommt und das ist auch gar nicht unbedingt ein Mangel an Qualität. Oft reicht eine einzelne Beobachtung auch nicht aus, um einen Sachverhalt zu klären. Dafür macht man dann Metaanalysen, in die viele – auch widersprüchliche – Ergebnisse einfließen. Es ist also an sich eine gute Vorgehensweise, all die verschiedenen Daten zusammenzufassen. Dann aber muss ich klären, welche Studien ich – je nach Qualität – wie stark gewichte und was meine Kriterien dafür sind. Eine sauber durchgeführte Studie hat natürlich mehr Aussagekraft als eine mit methodischen Mängeln. Das Ziel einer ordentlichen Metaanalyse ist aber niemals der achselzuckende Schluss: „Pff, der eine sagt das, der andere sagt das, also kann man sich nicht sicher sein.“
In der Regel und bei ausreichender Datenlage ist am Ende ein genereller Trend erkennbar. Im Beispiel oben würde die Arbeit mit den Münzen als Projektile zwar ordentlich in die Kerbe „gefährlich!“ schlagen, aber die allermeisten Studien zu diesem Thema würden wohl herausfinden, dass Geldstücke im normalen Alltagsgebrauch völlig harmlos sind. Das zeigt sich dann im Gesamtüberblick aller Ergebnisse.
Wissenschaft kann natürlich immer nur so eindeutig sein, wie die echte Welt es ist. Ich kann nicht mit Gewissheit sagen, dass ein Raucher innerhalb der nächsten vier Jahre an Lungenkrebs sterben wird. Es erkrankt nun mal nicht jeder Raucher an Krebs und nicht jeder Nichtraucher bleibt davon verschont. Das bedeutet nicht, dass mein Schluss, dass Rauchen an sich Krebs verursacht, dadurch weniger gültig ist. Was sich daraus ergibt ist aber auch, dass ich – ob absichtlich oder nicht – in einer einzelnen Untersuchung ausgerechnet die Menschen erwischen kann, denen es trotz Rauchens bis an den Rest ihres Lebens prächtig geht. Im Gesamtkontext wird dieses einzelne Ergebnis also untergehen und es sollte auch nicht genutzt werden, um die Absurdität von Forschung darzustellen. Vielmehr sind uneinheitliche Ergebnisse Teil des normalen Prozesses.

Kaffee, Wein, Rindfleisch

Was haben all diese Dinge gemeinsam? Sie sind teuflisch schwierig zu erforschen. Wenn ich den Effekt untersuchen will, den ein magisches Armband auf die Reaktionsgeschwindigkeit hat, dann geht das relativ einfach. Ich lade mir Leute ins Labor ein, verpasse ihnen zufällig ein magisches Armband und ein nicht-magisches Armband, und messe ihre Reaktionszeiten. Am besten messe ich jede Person drei Mal: Ohne Armband, mit Fake-Armband und mit magischem Armband. Und das in zufälliger Reihenfolge, damit nicht eine Bedingung von Übungseffekten profitiert. Die Probanden wissen nicht, ob sie das echte oder das falsche Armband tragen und ich kann alle Effekte, die ich möglicherweise finde, relativ sicher auf das Armband zurückführen.
Nahrungsmittel und Langzeiteffekte sind viel schwieriger zu untersuchen. Erstens ist es ethisch fragwürdig, Leuten gewisse Stoffe zuzuführen, von denen man auch noch erwartet, dass sie schädlich sind. Wenn ich den Verdacht habe, dass Kaffee das Krebsrisiko erhöht, dann kann ich nicht einfach eine Gruppe von Menschen damit über ihr Leben hinweg vollpumpen. Ich suche mir also Menschen, die von sich aus sehr viel Kaffee trinken und vergleiche sie mit Menschen, die von sich aus keinen Kaffee trinken. Diese Studie ist dann aber korrelativ. Das heißt, selbst wenn ich einen Unterschied finde, kann ich Kaffee nicht klar als Ursache ausmachen. Vielleicht unterscheiden sich die Kaffeetrinker ja noch in anderer Hinsicht von den Nicht-Kaffeetrinkern. Ein einfaches Beispiel: Vielleicht trinken die Nicht-Trinker ja keinen Kaffee, weil sie sowieso schon einen erhöhten Blutdruck haben und lieber die Finger von Koffein lassen. Aufgrund ihres erhöhten Blutdrucks erkranken oder sterben aber auch mehr von ihnen im Testzeitraum. Heißt das jetzt, dass Kaffee gesund ist und Kaffeetrinker länger und gesünder leben? Nein. Zwar hat die häufiger erkrankte Gruppe keinen Kaffee getrunken, aber der Grund für ihre schlechtere Gesundheit war ihr Blutdruck.
Es gibt auch weniger offensichtliche Drittvariablen, die einen Zusammenhang verändern können. Nicht immer ist zu erkennen, dass hier andere Ursachen als angenommen zugrunde liegen.
Alle Studien dieser Art sind also mit einer gewissen Unsicherheit behaftet.
Zweitens sind auch Langzeiteffekte sehr schwer abzubilden. Ich kann einer Gruppe von Menschen über Jahrzehnte hinweg folgen, aber einige werden aus der Studie aussteigen. Unterscheiden sich die Leute, deren Daten mir nun nicht mehr zur Verfügung stehen von denen, die in der Studie geblieben sind? Sind die Menschen, die ich jetzt noch übrig habe vielleicht generell motivierter und fällt es ihnen leichter, sich an Vorgaben zu halten (zum Beispiel auch gesunde Ernährung und Sport)? Außerdem muss ich in so einem Fall auch immer Generationseffekte berücksichtigen. Ich muss zu unterschiedlichen Zeitpunkten Menschen aus unterschiedlichen Generationen erheben und jedem von ihnen folgen. Ein Beispiel hierfür ist der Flynn-Effekt: Über die Jahre stiegen die Ergebnisse von IQ-Tests an. Ein viel diskutierter Effekt, aber ohne Zweifel bedeutet dass, dass ich vorsichtig sein muss, wenn ich die Ergebnisse einer Generation auf eine andere übertragen will.
Je eingeschränkter ich in meinen Messmethoden bin und je mehr Unsicherheit in meiner Methodik liegt, desto mehr werden meine Ergebnisse hinterher auch variieren. Ich habe behauptet, dass Variabilität an sich nicht unbedingt etwas über die Qualität von Forschung aussagt. Bei korrelativen Studien muss ich als Forscher allerdings eingestehen, dass meine Herangehensweise unsauber ist. Das ist aber aus den genannten ethischen Gründen zwingend so und es ist nun mal der einzige Weg, wie ich im Bereich „Lebensmittel“ zu Daten kommen kann. Das heißt nicht, dass wir solche Forschung grundsätzlich über Bord werfen sollten und aufhören sollten, die Effekte von Kaffee zu untersuchen. Mit steigender Datenmenge, mit guter Datenerhebung (zum Beispiel möglicher Drittvariablen) und cleveren statistischen Tests kann ich mir über die Jahre hinweg und mit viel Geduld und Aufwand ein einigermaßen akkurates Bild machen.

Wo. Ist. Die. X-Achse?

Mich hat es immer genervt, wenn Lehrer damals gemeckert haben, dass ich meine Achsen nicht beschriftet habe. Ist doch klar, was das darstellen soll!
Nee. Ist es eben nicht. Vor allem nicht in diesem Fall. Quarks stellt ein Kontinuum von „schützt vor Krebs“ und „verursacht Krebs“ dar. Wie zur Hölle man das gemessen wurde? Keine Ahnung. Die Möglichkeiten sind unendlich. Die Wahrscheinlichkeit, über die Lebensdauer hinweg an Krebs zu erkranken? Die Wahrscheinlichkeit, dass unter den Konsumenten des Nahrungsmittels jemand mit Krebs zu finden ist? Ein beliebiges Maß für Karzinogenität? Allein Letzteres kann schon ziemlich knifflig sein. Im Zuge der Glyphosat-Debatte veröffentliche die Süddeutsche beispielsweise einen Artikel, der wunderbar illustriert, dass eine Einstufung über die Gefährlichkeit eines Stoffes weder aussagekräftig noch alltagstauglich sein muss. So landen zum Beispiel Plutonium, Rauchen und Wurst nach IARC in derselben Kategorie, denn es geht um die Sicherheit, mit der ein Stoff Krebs erregt. Die Dosis ist hier nicht berücksichtigt – aber genau das ist es ja, worum es im Alltag geht. Sagen wir, Kaffee verursacht ganz sicher Krebs – ab 50 Liter am Tag. Dann besteht für mich absolut kein Grund, den Kaffee am Morgen wegzulassen.
Was auch immer die X-Achse bei Quarks darstellt: Sie könnte zusätzlich noch aufgeblasen sein. Mal willkürlich angenommen, die Achse stellt die Anzahl an Personen an, die von 100 Teilnehmern nach dem einmonatigen Genuss des Lebensmittels an Krebs erkrankt ist. Unwahrscheinlich, aber tun wir mal so. Der Nullpunkt würde durch eine Kontrollgruppe ermittelt werden, die das Lebensmittel nicht verzehrt hat. Und gehen wir weiterhin mal davon aus, dass in dieser Kontrollgruppe 50 von 100 Personen gestorben sind. Wenn durch den Kaffeekonsum also auch 50 Mann sterben, dann macht Kaffee gar nix. Weder für noch gegen Krebs. Wenn aber niemand stirbt, schützt Kaffee. Wenn 100 sterben, dann tötet Kaffee. Selbst, wenn das alles glasklar so wäre, dann könnte es bei dieser unbeschrifteten Achse immer noch sein, dass der Nullpunkt bei 50 liegt. Und die äußeren Ränder bei 48 und 52 liegen. Ein Punkt ganz rechts auf der Achse sieht dann aus wie „ach du scheiße, tödlich!“, wenn er in Wahrheit eher aussagt: „Naja. Keine wirkliche Abweichung.“
Es wird also Zeit, sich die angegebene Quelle direkt anzusehen.

Die Quellenangabe

Laut Quellenangabe beziehen sich die Daten auf eine Arbeit von 2014. Eine Arbeit von den genannten Forschern, Schoenfeld und Ioannidis, aus diesem Jahr finde ich zwar nicht. Dafür aber eine von 2013 mit dem Titel Is everything we eat associated with cancer? A systematic cookbook review. Na gut. Das wird’s wohl sein. Und Heureka – auch ohne Zugriff über Uni, Forschungsinstitute und Co ist der Artikel hier frei verfügbar!
Die Forscher haben sich – ganz im Ernst – ein Kochbuch geschnappt, zufällig Seiten aufgeschlagen und die so gefundenen Zutaten durch die Datenbank gejagt, um herauszufinden, was Studien hinsichtlich des Krebsrisikos dieser Zutaten herausfinden. Okay. Das ist witzig.
Die Intention dahinter? Schoenfeld und Ioannidis sind sich bewusst, dass es im Feld der Ernährungswissenschaften sehr schwierig ist, Zusammenhänge aufzudecken. Sie sagen, dass kontrollierte Laborstudien (wo sie möglich sind), oft keinen Effekt finden, während korrelative Studien einen starken Zusammenhang behaupten. Die Debatte ist emotional sehr aufgeladen, wenden die beiden ein – und ich kann das anhand der Diskussion, die andere User und ich derzeit mit Quarks in den Facebook-Kommentaren führen, bestätigen. Lustigerweise sorgen sich die Forscher, dass es zu Verunsicherung angesichts der widersprüchlichen Beweislage kommen kann. Ironisch, dass Quarks ausgerechnet diese Studie verwendet, um Unsicherheit angesichts widersprüchlicher Beweislagen zu streuen. Ob das die Intention war, sei mal dahingestellt.
Die Autoren benennen auch die Probleme, die Forschung an sich üblicherweise hat: Negative Ergebnisse bzw. kaum nennenswerte Effekte werden weniger wahrscheinlich veröffentlicht. Was bleibt, sind die Studien über krasse, aufgeblasene Effekte, was das Bild verzerrt. Metaanalysen schaffen da Abhilfe. Aber sie können eben auch nur mit dem arbeiten, was vorhanden ist.
Das ist das größte Problem, das die Forschung im Moment anzugehen hat. Und leider schränkt es die Aussagekraft von Studien, auch Metaanalysen, sehr ein. Auch die Tatsache, dass einige Studien ihre Ergebnisse aufblasen, ist bedenklich. Zu bedenken ist hierbei allerdings auch, dass es durchaus auch langweilige, unspektakuläre Forschung gibt, die das nicht tut – bloß wird die nicht veröffentlicht. In Zeitungsartikeln ist man gewohnt, dass verzerrt und aufgeplustert wird und ich werfe das Journalisten gerne vor. In wissenschaftlichen Journals aber darf das nicht passieren und wir müssen uns da definitiv an unsere eigene Nase fassen. Wer nicht will, dass die Presse seine Arbeit überinterpretiert, darf das selbst natürlich auch nicht tun.
Zurück zur Studie. Die Autoren haben nach der entsprechenden Zutat gesucht, zusammen mit den Schlagwörtern „Risikofaktor“ und „Krebs“. Dann wurden die jeweils zehn aktuellsten Studien ausgewählt. Man könnte hier anmerken, dass das Schlagwort „Risikofaktor“ vermutlich eher zu Ergebnissen führt, die eine schädliche Wirkung der Substanz attestieren. Aber es ist natürlich auch schwierig, einen Suchbegriff zu finden, der eine schützende sowie schädliche Wirkung gleichermaßen berücksichtigt. Dann wurde das im abstract, also dem „Klappentext“ des Artikels berichtete Risiko verwendet. Das kann man gespalten sehen, denn immerhin stellt das eine ziemlich krasse Beschneidung des Artikels dar. Andererseits muss man auch sagen: Wenn Wissenschaftler selbst eine besonders beeindruckende Zahl in die Zusammenfassung packen, der Artikel aber ein anderes Bild zeichnet, dann haben sie es so oder so verhauen.
Was hautpsächlich gemessen wurde und was auch die X-Achsen-Beschriftung der Quarks-Grafik wohl sein müsste, ist das RR, das relative Risiko. Dieses stellt das Verhältnis des Erkrankungsrisikos zweier Gruppen dar, also Kaffeetrinker vs. Nichtkaffeetrinker. Die Studien, die in dieser Metaanalyse herangezogen wurden, haben aber ganz unterschiedliche Gruppen verglichen. Nun führt aber „kein Kaffee“ vs. „20 Tassen Kaffee am Tag“ zu einem ganz anderen Risikoverhältnis als „eine Tasse Kaffee zum Frühstück“ vs. „drei Tassen Kaffee zum Frühstück“. Man kann diese Faktoren in der Summe zusammenfassen. Aber die einzelnen RRs der jeweiligen Studien sind auf diese Art unmöglich in Bezug zu setzen. Anders gesagt: Wenn ein Punkt in der Quarks-Grafik weiter rechts liegt als ein anderer, dann mag das auf unterschiedliche Vergleichsdosen zurückgehen. Nicht auf ein erhöhtes Risiko.
Das Interesse der Forscher lag auch auf dem Vergleich einzelner Studien mit Metaanalysen, zum Beispiel hinsichtlich der Frage, ob Meaanalysen moderatere Effekte finden. Das wäre ja sogar zu erwarten. Unklar bleibt, ob hier Einzelstudien mit Metaanalysen verglichen wurden, in denen die Einzelstudie sogar bereit berücksichtigt wurde. Auch wird überprüft, ob die Schlussfolgerungen der Autoren deckungsgleich sind mit der statistischen Signifikanz der Ergebnisse – ohne Korrektur für mögliche Mehrfachvergleiche, wie die Autoren angeben. Das ist problematisch, weil ohne eine solche Korrektur wiederum Effekte überschätzt werden können.
In den Ergebnissen geben die Autoren an, dass die Schlussfolgerungen der Studien nur wenig statistisch gestützt seien, da die p-Werte, die angeben, ob ein Ergebnis statistisch signifikant ist oder nicht, hoch seien. Allerdings bezeichnen die Autoren auch jedes p über 0.001 als „schwach“ und alles darunter als „stark“. Keine Zwischenkategorie. Sobald p kleiner ist als 0.05, spricht man von statistischer Signifikanz. Und ab diesem Zeitpunkt darf ich durchaus die Aussage machen, einen Effekt gefunden zu haben. Die Kategorisierung der Autoren scheint mir sehr eng gefasst. Gängig sind zum Beispiel Interpretationen wie diese hier: Eine starke Beweislage wird für p kleiner als 0.01 angenommen, eine moderate zwischen 0.01 und 0.05 und eine schwache erst darüber. Es ist ziemlich unfair, einem Autor, der nach diesen Vorgaben schlussfolgert, moderate Beweise gefunden zu haben zu unterstellen, er habe seine Ergebnisse übertrieben dargestellt – weil sie nicht mit den eigenen, viel rigoroseren Kriterien übereinstimmen.
Wir finden auch die Grafik, die Quarks reduziert übernommen hat. Das Wissenschaftsmagazin hat einige Lebensmittel herausgegriffen – und tatsächlich die Achse im Verhältnis zur Achse in der Originalstudie aufgeblasen. In der Quarks-Grafik endet die Achse etwa beim niedrigsten und höchsten Datenpunkt zu „Milch“. In der Originalstudie sehen wir, dass es links und rechts aber noch weiter geht. Die Streuung der Daten wirkt in der Quarks-Grafik also krasser.

Zusammenfassung der Originalstudie

– süße Idee mit dem Kochbuch
– Metaanalysen finden schwächere Effekte als einzelne Studien – völlig logisch und kein Grund zur Sorge
– laut den Autoren stützen sich die meisten Studien auf eine „schwache Beweislage“ – das machen sie allerdings anhand eigener, strenger p-Wert-Kriterien fest und nicht anhand von Qualitätsmerkmalen der Studien selbst
– Qualitätsmerkmale der Studien selbst wurden nicht berücksichtigt, es wurde für multiple Vergleiche nicht korrigiert
– unterschiedliche Vergleichsgruppen für den Risikofaktor wurden festgestellt, aber nicht berücksichtigt
– berechtigte Kritik an der Forschung in diesem Bereich:
— wenn nicht alles veröffentlicht wird, können selbst Metaanalysen nur ein verzerrtes Bild liefern
— unterschiedliche Methoden machen Vergleiche mitunter schwierig
— in den Zusammenfassungen der Studien werden nur die schönen, signifikanten Daten berichtet und der Rest steht dann im Artikel – das ist mies, aber irgendwie auch naheliegend. Wenn du Platz für nur ein Ergebnis hast, welches berichtest du dann … ? Genau.
— vorregistrierte Studien sind nötig (übrigens überall, nicht nur im Feld der Ernährungsforschung), damit keine Ergebnisse „vom Radar verschwinden können“
— verwendete Protokolle und deren Veränderungen im Verlauf des Experiments müssen dokumentiert werden

Die Metaanalyse selbst ist nicht gerade das gelbe vom Ei, wenn es um die Herangehensweise und „Bearbeitungstiefe“ geht. Vielmehr will sie die aktuellen Missstände in der Forschung darstellen, und das ist auch gut so – hätte man bloß eleganter machen können. Es hilft ja nichts, Metaanalysen zu kritisieren, wenn man selbst eher schludrig an die Sache rangeht.

Und Quarks?

Da könnte ich dasselbe sagen. Auf Probleme hinweisen? Gerne. In der Forschung müssen wir dringend den Missstand beheben, dass die Veröffentlichung von Daten davon abhängt, ob sie einen Effekt finden oder nicht.
Aber wenn ich eine zweifelhafte Metaanalyse ausgrabe und die Intention dahinter nicht deutlich mache, sondern auf die generelle Unverlässlichkeit von Studien hinweise und auch noch irgendwie Variabilität mit Unseriosität in einen Topf werfe – dann schüre ich eben genau das, was ich nicht schüren will: Angst vor widersprüchlichen Daten. Besser wäre der konstruktive Umgang damit – das ist nämlich verdammt schwierig, auch für Profis. In einigen Fällen muss man sich sogar damit abfinden, dass eine Sache eben ein wenig schwammig bleiben muss und es niemals schwarz oder weiß sein kann.
So aber führt die lapidare Herangehensweise bestenfalls zu Wissenschaftsmüdigkeit. Die Debatte um den Klimawandel hat das große Problem, dass Leugner der Veränderung argumentieren, es gäbe schließlich auch Forschung die besagt, dass Klimawandel nicht existiere. Bei diesem Hin und Her könne man sich nicht sicher sein und es ginge sowieso nur darum, welche Interessengruppe die Forschung bezahlt hat. Völlig unter den Tisch fällt, dass die Evidenz für und gegen Klimawandel eben nicht auf beide Lager gleichmäßig verteilt ist – und die Qualität der Beweislage schon gar nicht. Am Ende führt das dazu, dass Menschen glauben, dass Wissenschaft gar nicht geeignet ist, ein Thema wie den Klimawandel zu beurteilen.

Die Aufgabe eines populärwissenschaftlichen Magazins sehe ich darin, die breite Bevölkerung aufzuklären. Dass Messdaten schwanken. Dass Studien je nach Methodik oder manchmal durch Zufall zu unterschiedlichen Ergebnissen kommen. Dass das erst mal gar nicht schlimm ist. Und wie man mit solcher Variabilität korrekt umgehen sollte. Neben der Frage, was man als einfacher Leser einer Zeitschrift überhaupt tun kann, wenn man nicht gerade den tiefgreifenden Statistikkurs besucht hat oder Zugang zu den wissenschaftlichen Fachmagazinen hat.
Die Probleme, die die Forschung aktuell hat, müssen beleuchtet und diskutiert werden. Das geht aber am besten, wenn man sie direkt anspricht und erklärt, nicht indem man eine nicht-interpretierbare Grafik mit bissigem Kommentar vor die Füße der Userschaft wirft und freien Assoziationen („Traue keiner Statistik, die du nicht selbst gefälscht hast“) seinen Lauf lässt.
Die Anforderungen an ein Wissenschaftsmagazin für die breite Bevölkerung sind hoch und fast unmöglich zu erfüllen. Quarks ist – bei aller Liebe für das Format – heute daran gescheitert. Ich hoffe in der Zukunft auf fundiertere Beiträge – und vielleicht den ein oder anderen Input von Statistikern und Methodikern.


Quellen und erwähnte Links in Reihenfolge des Erscheinens, Stand 04.03.2018, 14:24

[1] YouTube – Tim Minchin – The Fence – 26.07.2013
[2] Facebook – Quarks – Beiträge – „Diese Lebensmittel sollen Krebs verursachen“ … 04.03.2018
[3] Wikipedia – Flynn-Effekt – letzte Bearbeitung 27.02.2018
[4] Süddeutsche – Krebs-Alarm der IARC: Kontroversen, Kritik und Chaos – 24.06.2016 – 16:10
[5] [6] Schoenfeld, J.D. & Ioannidis, J.P. (2013) Is everything we eat associated with cancer? A systematic cookbook review. Am J Clin Nutr. 97(1):127-34.
[7] Massey University New Zealand – Interpretation of a p-value
[8] Bromme, R., Scharrer, L., Stadtler, M., Hömberg, J. & Torspecken, R. (2015). Is it believable when it’s scientific? How scientific discourse style influences laypeople’s resolution of conflicts. Journal of Research in Science Teaching, 52(1), 36-57.