Manche Headlines wirken eine magische Anziehungskraft auf mich aus. Heute früh weckte mich die Süddeutsche mit einem Artikel, der besagte: „Die Erfahrungen von Müttern im Kreißsaal und auf der Wöchnerinnenstation sind umso negativer, je größer die Klinik ist.“ Gleichzeitig sitze ich auch vor meinen Lernunterlagen der anstehenden Klausurphase und was mich beim Stoff für Diagnostik – Testen und Entscheiden am meisten fasziniert, ist das sogenannte Simpson Paradoxon. Dabei geht es um scheinbar gegensätzliche Zusammenhänge in ein und demselben Datensatz – je nachdem, wie man ihn betrachtet. Das hat gar nicht unbedingt mit verdrehter Statistik zu tun und schon gar nicht mit gefälschten Daten. Die sich ergebenden Muster in den Daten sind echt und die Interpretation ist gar nicht so einfach.

Vorausgesetzt, man entdeckt das Dilemma in den Daten überhaupt, denn es kann einem ohne böse Absicht auch durch die Lappen gehen, sodass man unwissentlich zu einem Fehlschluss gelangt.

Mehr Todesfälle in großen Kliniken?

Ich unterstelle nicht, dass im Falle des Artikels zur Zufriedenheit Gebärender ein solcher Fehlschluss vorliegt. Aber in der Vorlesung wurde ausgerechnet das Beispiel behandelt, dass Stadtkrankenhäuser eine höhere Sterberate aufweisen als ländliche Kliniken. Sind große städtische Kliniken also schlechter als kleine ländliche? In diesem Beispiel hat die Carnegie Mellon University sehr schön aufgedröselt, wieso diese Schlussfolgerung ziemlich unfair sein kann. Und belegen, dass man gar nicht oft genug betonen kann, dass Korrelation nicht unbedingt Kausalität bedeutet.
Die Erklärung mag nämlich folgende sein: Schwere Fälle haben schlechtere Überlebenschancen als weniger schwere. So weit, so intuitiv. Es kann nun sein, dass eine größere Klinik bessere Chancen sowohl für weniger gravierende als auch für schwere Fälle bietet. Wenn aber gleichzeitig mehr schwere Fälle in der größeren Klinik landen, dann zieht das ihre Heilungsrate insgesamt runter – ungerechtfertigt, würde man meinen. Denn in Wahrheit interessiert mich ja nicht, wie viele Leute insgesamt in der Klinik umkommen – ich will wissen, wo ich mit meinem Beinbruch die wenigsten Komplikationen zu erwarten habe.
Sitzt noch ein wenig schwer im Magen, oder? Leichter wird es mit extremen Zahlen: Sagen wir, die Überlebenschancen mit einem abgetrennten Kopf betragen um die 0%. Nicht ganz unrealistisch. Die Überlebenschancen, wenn man sich auf die Zunge gebissen hat, betragen etwa 100%. Ich mag mich irren. Stellen wir uns jetzt Krankenhaus A und B vor. Weil in Krankenhaus A nur Strohsäcke mit Stethoskop um den Hals arbeiten, sterben dort auch 0% der Patienten mit abgetrenntem Kopf. Und irgendwie bringen die Deppen es auch fertig, dass ihnen 10% der Leute, die sich auf die Zunge gebissen haben, auch noch wegsterben. Krankenhaus B ist sehr kompetent und rettet 100% der Leute, die sich die Zähne in den eigenen Lappen gehauen haben. Nicht nur das, sie bringen es irgendwie auch noch fertig, 2% der Leute mit abgetrenntem Kopf irgendwie durch zu bringen. Hand hoch, wer würde lieber von Krankenhaus B behandelt werden? Fix durchzählen, 1, 2, 3 … alle.
Wegen seines exzellenten Rufs wird Krankenhaus B natürlich von Kopflosen überschwemmt, die Krankenhaus A wiederum eher meiden. Verständlich. Sagen wir also, Krankenhaus B hat irgendwann ausschließlich kopflose Patienten, keinen Zungenbiss mehr. Die Zungenbisse sind alle in Krankenhaus A gelandet, das noch Kapazitäten für sie frei hatte. Das Resultat? Wegen der ausschließlich kniffligen Fälle hat Krankenhaus B nun eine Überlebensrate von 5%. Und Krankenhaus A, mit den deutlich leichteren Fällen, kann eine Erfolgsstatistik von 90% Überlebenden vorweisen. Wenn ich die Patienten nicht getrennt nach dem Schweregrad ihrer Erkrankung betrachte, dann sieht es ganz so aus, als wäre Krankenhaus A kompetenter, obwohl es vermutlich besser wäre, sich vom örtlichen Klempner behandeln zu lassen.
Krankenhaus B hat die höhere Sterberate – aber nicht etwa wegen ihrer mangelnden Kompetenz, sondern weil sie die schwereren Fälle behandeln. Umgekehrt mag die Sterberate in großen Kliniken höher liegen, weil die schweren Fälle wegen besserer Ausstattung an sie verwiesen werden. Oder wie mein Professor es einprägsam ausdrückte: Natürlich sterben mehr Menschen im Krankenhaus an multiplem Organversagen, als das in einem Straßencafé der Fall ist – aber wenn man multiples Organversagen hat, ist man in der Klinik vielleicht doch besser aufgehoben als im Café.

Weitere charmante Beispiele gefällig? Es scheint so, als hänge die Studiendauer mit dem Einstiegsgehalt zusammen. Je länger man studiert, desto höher das Einstiegsgehalt. Lohnt es sich also, als Dauerstudent Zeit zu vertrödeln? Nein. Denn nach Fächern geordnet zeigt sich der umgekehrte Zusammenhang: Je länger man studiert, desto niedriger das Einstiegsgehalt. Aber: Die komplexeren Fächer mit längerer Studiendauer locken auch mit höherem Gehalt. Die Studiengänge, die sich schneller abschließen lassen, spülen auch weniger aufs Konto. Folglich kann ich mit einem Wechsel von Geschichte zu Medizin mein Gehalt womöglich verbessern – aber nicht, indem ich fünf Semester über meine Studiendauer hinaus faulenze.
Berühmtheit erlangte der Fall der Universität von Berkeley. Es schien so, als würden Frauen bei der Vergabe von Studienplätzen diskriminiert, denn es wurden weniger Studentinnen als Studenten angenommen. Hashtag Aufschrei! Es stellte sich allerdings heraus, dass sich schlichtweg mehr Frauen für die Institute bewarben, die eine höhere Ablehnungsrate hatten – für Männer wie auch für Frauen. Die Damen waren lediglich ambitionierter bei ihren Bewerbungen und das drückte sich in einer höheren Ablehnungsrate aus.

Keiner entkommt Simpson

Natürlich kann ich meine Daten absichtlich so aggregieren, also vorliegende Gruppen zusammenfassen, dass ich bei Bedarf eine Umkehrung des Musters erzeuge. Ich könnte zum Beispiel die Universität von Berkeley absichtlich ordentlich diskreditieren, indem ich verschweige, dass Frauen pro Institut häufiger akzeptiert wurden und lediglich berichte, dass insgesamt weniger Frauen als Männer angenommen werden. Oft passieren solche Fehler aber gar nicht mal absichtlich. Beim Beispiel mit der Studiendauer habe ich vielleicht nur nach der Anzahl der Semester gefragt und gar nicht erst das dazugehörige Studienfach mit erhoben. Dann weiß ich nicht mal, dass es nach Studienfach aufgeteilt einen anderen Zusammenhang gegeben hätte – und kann das auch nicht überprüfen. In diesem Beispiel kommt man vielleicht noch auf den zugrunde liegenden Zusammenhang – aber was, wenn die Erklärung weniger offensichtlich ist? Frei erfundenes Szenario: Blogger machen mehr Rechtschreibfehler, je mehr Tabs sie gleichzeitig offen haben. Aber aufgeteilt nach der Menge an Gummibärchen, die sie durchschnittlich zum Frühstück essen, kehrt sich der Zusammenhang um. Ich schätze mal, das ist völliger Quark, aber es illustriert meinen Punkt: Wenn ich den Einfluss von gefrühstückten Gummibärchen nicht vermute und daher auch nicht erfasse, dann werde ich niemals erfahren, dass meine Daten völlig falsche Schlussfolgerungen nahelegen.
Hinzu kommt, dass Menschen ziemlich schlecht darin sind, ein vorliegendes Simpson Paradox im Kopf zu entwirren. Selbst, wenn man sie mit der Nase auf alternative Erklärungen stupst. Ach, Quatsch. Sie mit Gewalt kopfüber in eine Alternativerklärung tunkt. Fiedler und Kollegen von der Universität Heidelberg zum Beispiel haben keine Mühen gescheut, Leute zu der Schlussfolgerung zu bringen, dass Frauen an zwei fiktiven Universitäten zusammen genommen zwar mit geringerer Wahrscheinlichkeit angenommen wurden als Männer, bei einzelner Betrachtung der Universitäten aber mit größerer Wahrscheinlichkeit akzeptiert wurden als männliche Mitbewerber. Sie bewarben sich lediglich häufiger an Universitäten mit höherer Ablehnungsrate per se. Modifikationen über fünf Experimente hinweg blieben unerfolgreich. Erst dann fanden Fiedler und Kollegen den richtigen Dreh: Sie mussten die Leute zunächst beurteilen lassen, wie viele Frauen bzw. Männer an Universität A angenommen wurden (und an B) und erst dann nach den Quoten für beide Universitäten gemeinsam fragen. So war es möglich, die hartnäckige Fixierung auf die Schlussfolgerungen, die sich aus den zusammengewürfelten Daten ergaben, so überwinden. Auch die Präsentation der Daten in Häufigkeiten anstatt in Wahrscheinlichkeiten war hilfreich.
Deutlich wird aber: Wir sind nicht besonders gut darin, sich fast schon aufdrängende kausale Erklärungen zurückzuschieben (dass Frauen benachteiligt sind) und stattdessen nach weiteren Variablen zu suchen, die eine mögliche Erklärung bereitstellen (dass die Ablehnungsraten an verschiedenen Universitäten unterschiedlich sind und sich Frauen häufiger an härteren Unis bewerben). Vor allem natürlich dann, wenn die leichter verfügbare Schlussfolgerung bestehenden Stereotypen entspricht (Benachteiligung von Frauen).


Zurück zu den Gebärenden

Freimütig gebe ich zu: Ich habe keine 25 € für den Picker Report 2017 ausgegeben und die Originaldaten somit nicht gesehen. Ich sage nicht, dass Daten es nicht wert sind, Geld auszugeben. Hinter jeder Erhebung stecken Kosten, sei es in Form von erhebendem/auswertenden Personal, die Bezahlung von Lizenzen für Auswertungsprogramme oder was sonst noch so anfällt. Das muss alles gedeckt werden, keine Frage. Leistung, auch in Form von Daten und deren Auswertung, soll honoriert werden.
Nun weiß ich aber im Vorfeld nicht, ob der vollständige Datensatz mir überhaupt die Informationen liefert, die ich brauche. Die Qualität von deutschen Kreißsälen interessiert mich ausreichend genug, dass ich einen Zeitungsartikel darüber lese und mir Gedanken mache. Aber nicht ausreichend genug, um meinen für morgen geplanten Besuch beim Italiener um die Ecke ausfallen zu lassen, um mir von meinem studentischen Gehalt einen Bericht dazu zu kaufen. Fraglich auch, ob ich die daraus gewonnenen Erkenntnisse dann überhaupt öffentlich in einem Blog teilen dürfte.
Ganz liberalversüfft kritisiere ich (wenn auch nicht völlig ohne Bauchschmerzen, siehe oberer Absatz unter dieser Überschrift), dass die SZ sich damit rühmt, exklusiv über die Daten zu berichten. Schön und gut, dass ihr die einzige Quelle seid, die mir die Zahlen im (gemäßigten) Detail anbieten könnt – aber das ist nicht unbedingt ein Qualitätsmerkmal. Hilfreicher wären allgemein verfügbare Daten. Zugang zu Daten und Wissen ist wichtig und steht in einer idealen Welt allen offen. Sonst scheitert das tiefere Graben in Evidenz daran, dass Menschen wie ich nicht bereit dafür sind, Geld für die Katze im Sack auszugeben.

Dennoch ergeben sich auch ohne die Lektüre der Originalzahlen diverse Fragen: Liegt die Unzufriedenheit mit den größeren Kliniken wirklich an der Größe? Mit anderen Worten: Ist die Betreuung in den größeren Kliniken wirklich schlechter – zum Beispiel weil größere Kliniken weniger Personal für mehr Patienten einsetzen und die Hebammen so weniger Zeit pro Patientin haben? Oder liegt es vielleicht daran, dass werdende Mütter, die hohe Ansprüche haben, eher größere Kliniken (wegen der gehobeneren technischen Ausstattung) aufsuchen, aber auch (wegen ihrer Ansprüche) schneller unzufrieden sind? Suchen schwangere Frauen, denen eine absehbar kompliziertere Geburt bevorsteht, zur Sicherheit lieber eine große Klinik auf – und sind eben wegen einer komplikationsreicheren Geburt gleichzeitig auch verunsicherter und erleben die Erfahrung als unangenehmer?
Im Artikel heißt es, dass die Qualität in spezialisierten Einrichtungen in der Regel höher ist, eben weil mehr Eingriffe einer speziellen Art durchgeführt werden. Aber, Zitat: „Doch was für Hüftprothesen und Schilddrüsenoperationen sogar wissenschaftlich belegt ist, ist auf Geburten nicht unbedingt übertragbar. „Eine Geburt ist ein physiologischer Prozess mit absolut positiven Aspekten, sie ist erst einmal keine Krankheit“, betont Maria Nadj-Kittler.“ Wieso sollte das ausgerechnet für Geburten nicht gelten? Eine Geburt mag keine Krankheit sein, aber nichtsdestotrotz sind für ihre Betreuung medizinische Kompetenzen notwendig. Diese sind beeinflusst von vorhandener Einrichtung (eine Spezialisierung rechtfertigt eher die Anschaffung entsprechenden Equipments – keine Klinik wird ein MRT anschaffen, wenn es nur einmal im Jahr genutzt wird) und auch von Routine. Auch wenn es sich schön anfühlt: Vielleicht ist sind die Klischees vom kalten, geschäftsmäßigen Krankenhaus mit achselzuckenden Kunstfehlern und die bemühte, liebevolle Betreuung in kleineren Einrichtungen eben genau das: lediglich Klischees.
Als Frau, rein emotional, stimme ich natürlich zu, dass es wichtig ist, dass ich mich in einer Einrichtung wohl fühle, wenn ich dort den zermürbenden Prozess einer Geburt durchzustehen habe. So schön das „Endergbnis“ auch sein mag, ist der Gedanke an Wehen, Pressen und extremen Schmerzen doch sehr einschüchternd. Wissenschaftlich betrachtet weiß ich aber, dass wahrgenommene Kompetenz nicht tatsächlicher entsprechen muss – und Korrelation eben nicht Kausalität ist. Es mag durchaus sein, dass ich aus allerlei Gründen, die mir im Moment nicht zugänglich sind, in einer großen Klinik besser aufgehoben bin, wenn ich ein Kind bekomme.
Ob große oder kleine Klinik: Wichtig ist vor allem, dass die Versorgung durch Hebammen gewährleistet ist, was nicht der Fall ist, wie das Projekt Unsere Hebammen des Deutschen Hebammen Verbandes nahelegt. Auch dieser Sternartikel beschreibt eine Unterversorgung in Deutschland, auch zurückzuführen auf die schlechten (finanziellen) Bedingungen, die Hebammen in ihrem Beruf erwarten.
Ist das Problem also nicht viel größer? Geht es nicht um etwas ganz anderes als große oder kleine Kliniken? Oder es ist tatsächlich so, dass die Klinikgröße der Verursacher ist, dass Patientinnen sich schlechter aufgehoben fühlen – dann sollte man herausfinden, warum es denn so ist, dass Hebammen zum Beispiel weniger Zeit für Aufklärung zu haben scheinen. Und wie man das verändern kann. „Einfach nur“ mehr Personal aus dem Hut zu zaubern ist schwieriger, als es klingt.
Zumindest die Sensibilisierung für komplexere Datenmuster in der Vorlesung hat bei mir gewirkt. Ich lese „Klinikgröße“ und „Zufriedenheit“ und suche sofort nach Drittvariablen. Umso wichtiger, dass statistische Bildung schon in der Schule eingeführt wird – ich plädiere für das Mantra „Korrelation ist nicht gleich Kausalität“, zehn mal gebetsartig aufgesagt bereits vor dem ersten „Guten Morgen, Kinder“.
Aber … ich schulde euch noch die Geschichte zum Foto dieses Posts, das ich unweigerlich mit Versorgung und dem Standard in verschieden großen Einrichtungen verbinde.

„Im Krankenhaus gibt’s Gips“

Freitagmittag. Ein Nagetier findet, dass mein Finger zum Anbeißen aussieht (nicht umsonst heißt es Nagetier) und probiert das auch gleich mal aus. Keine dramatische Wunde, nicht das erste Mal – keine Sorge, der Ratte geht’s gut und nein, der Biss war nicht verdient durch unsanfte Behandlung oder Ähnliches. Kein großes Ding eigentlich, aber dieses eine Mal entscheidet sich mein Finger, auf doppelte Größe anzuschwellen. Verrückt.
Ich sehe keinen allzu großen Handlungsbedarf und finde: Wenn es nachmittags keine Tendenz zur Besserung zeigt, kann ich immer noch zum Arzt. Auf Anraten meiner Kollegen (Stichwort: Arbeitsunfall. Wochenende steht an. Als mir so was mal passiert ist …) raffe ich mich doch auf und laufe die paar Meter rüber zur Uniklinik. Die haben direkt alle Formulare da. Und ich bin auf der sicheren Seite. Wenn ich schon mal hier bin …
Die beachtliche Schwellung meines Fingers fällt vor allem dann auf, wenn man nicht die anderen Finger derselben Hand, sondern das gegenüberliegende Greifwerkzeug daneben hält. Mein Spruch „Ich habe mal einen baugleiches Exemplar zum Vergleich mitgebracht“ (den intakten Zeigefinger der linken Hand) sorgt für allerlei Gelächter beim Sanitätspersonal. Ich fühle mich witzig.
Außerdem habe ich Glück und komme fix dran. Mal wieder habe ich den Eindruck, um Jahre zu altern, weil die behandelnden Ärzte mir in verlebten Sommern immer näher kommen. Bis mich der Jungspund, der meinen Finger untersucht, aus meinen Überlegungen reißt: „Wir schicken Sie jetzt erst mal zum Röntgen.“ Wieso ist mir schleierhaft. Bis auf den Knochen wird die Ratte definitiv nicht gekommen sein und nach einer halben Stunde wird sich auch noch keine Infektion gebildet haben, die man auf dem Bild erkennen könnte. Mein Punkt, dass die Versorgung vornehmlich von der Einrichtung, zweitrangig vom Krankheitsbild abhängt, wird hervorragend anekdotisch illustriert: Die röntgen, weil sie’s können. Meine Hausärztin hätte das entsprechende Equipment nicht da gehabt und wohl auf die Bildgebung verzichtet.
Wenn ich die Angemessenheit eines Röntgenbildes zwar angezweifelt, aber nicht gänzlich in Frage gestellt habe (ich bin schließlich Patient, nicht Arzt), so haut mich die nächste Maßnahme dann doch aus den Socken: „Auf jeden Fall haben Sie einen Gips gewonnen.“
Bitte, was? Für einen Biss? Und ob. Nicht nur das: Für den läppischen Finger gibt’s ein riesen Paddel. Der ganze Oberarm wird eingepackt, inklusive überstehender Verlängerung an der Hand, damit ich den Arm auch schön hoch hängen kann. Wirklich wahr: Ich habe den Arm über Nacht an der Leiter, die ebenfalls auf dem Bild zu sehen ist, aufgehängt. Die Erklärung: Die Sehne im Finger verläuft durch den gesamten Arm. Um diese ruhig zu stellen, muss man den Gips also bis hoch zur Schulter ziehen. Mir steigen derweil fast die Tränen in die Augen, weil ich meinen Gitarren-Auftritt am nächsten Tag ins Wasser fallen sehe. Da macht mir der behandelnde Arzt auch keine großen Hoffnungen. Den Auftritt könne ich knicken. Ob ich morgen am Gelände sei? – Eigentlich nicht, nein. Immerhin ist Samstag.
Egal. Morgen früh, zehn Uhr. Nüchtern.
Wie bitte?
Mein optimistischer Freund in Weiß geht nämlich davon aus, dass die Wunde am nächsten Tag chirurgisch geöffnet und gesäubert werden muss. Holla, die Waldfee. Bevor man mich aber in Gips verpackt, darf der Oberarzt noch mal drauf gucken, denn der soll sich das Spektakel morgen ansehen. Gut also, wenn er einen Vergleich hat. „Nicht erschrecken“, beruhigt mich der vorsichtige Arzt. „Das ist der Oberarzt. Aber der ist eigentlich ganz nett.“ Auf was für einen obersten Hierarchen muss ich mich denn nun gefasst machen?
Der Schreck wäre auch ohne Vorwarnung ausgeblieben. Der groß vorangekündigte Herr kommt telefonierend ins Behandlungszimmer und schließt das Gespräch auch zunächst gut gelaunt ab, bis er meinen Finger betrachtet, gestikulierend mit einem halb aufgegessenen Eis am Stil. „Was war das, ein Rattenbiss? Och, krass.“ Harmlos, winkt er ab. Das wird nur eine kleine Reaktion sein, morgen ist das wieder okay. Den Gips? Ja ja, passt schon, kann man trotzdem zur Sicherheit machen. Schadet nicht. Machen wir dann auch.
Am nächsten Tag bin ich bereits Gespräch auf der Station, aber der Oberarzt hat Recht behalten: Der Finger ist zwar unverändert dick, aber schlimmer geworden ist es nicht. Im Laufe des nächsten Tages klingt dann auch die Schwellung ab. Der Gips kommt ab und ich spiele mein Konzert.
Ein Gips bei einem kleinen Biss, davon hat noch niemand gehört, dem ich die Geschichte erzähle. Vielleicht ist das auch ganz legitim, aber ich kann den Verdacht, dass da einfach jemand gipsen üben musste oder eine Wette verloren hat nicht ganz ausschließen. Realistisch ist wohl, dass sich niemand im Falle einer Verschlimmerung vorwerfen lassen wollte, dass nicht alle notwendigen Maßnahmen ergriffen worden sind. Arbeitsunfälle haben immer ein wenig den Unterton „verklagen“.
Wäre es nicht die Uniklinik gewesen, hätte sich die Sache aber sicher anders zugetragen. Es stimmt schon, dass gut ausgestattete Kliniken die schwereren Fälle anziehen – aber auch als Lappalie kriegt man unter Umständen die volle Kanone gegen den Spatz geschossen.
„Sie sind im Krankenhaus – und im Krankenhaus gibt’s Gips!“ Die geflügelten Worte des jungen, aber sehr vorsichtigen Arztes. Bringt es wunderbar auf den Punkt.
Persönlich habe ich mich also alles andere als unterversorgt in dem großen Krankenhaus gefühlt – die Kritik zum Thema große Einrichtungen und Ressourcen ist hier eine ganz andere. Nichts für Ungut, Jungs. Ich habe einen funktionierenden Finger, eine gute Party-Story und eine nachdenkliche Anekdote für meinen Blog. Cheers.


Quellen und erwähnte Links in Reihenfolge des Erscheinens, Stand 30.01.2018, 17:28

[1] Süddeutsche
[2] Süddeutsche.de – Alleingelassen in großen Kliniken – verfasst von Christina Berndt, 30.01.2018, 8:57
[3] CMU Statistics – Simpsons’s Paradox and Lurking Variables.
[4] Walter Krämer – So lügt man mit Statistik – S. 172-173
[5] Bickel, P., Hammel, E. & O‘Connell, J. (1975). Sex Bias in Graduate Admissions: Data from Berkeley. Science, 187, 398-404.
[6] Fiedler K., Walther E., Freytag P. & Nickel S. (2003). Inductive reasoning and judgment interference: experiments on Simpson’s paradox. Pers Soc Psychol Bull. 29(1):14-27.
[7] Picker Institut Deutschland – Picker Report 2017 veröffentlicht – 27.01.2018
[8] Deutscher Hebammen Verband – Unsere Hebammen: Unterversorgung melden
[9] stern TV – Hebammenmangel in Deutschland: Schwangere werden bei der Suche nach einer Geburtshilfe alleine gelassen – 17.01.2018, 22:45