Wie misst man eigentlich Beziehungserfolg? Gar keine so einfach zu beantwortende Frage. Jeder hat da etwas andere Kriterien und diese sind wiederum nicht immer ganz lupenrein zu definieren. Geschweige denn zu messen. Gerade vor diesem schwammigen Hintergrund muss ich mir ja auch die Frage stellen: Sollte ich Beziehungserfolg überhaupt messen? Vielleicht nicht als Privatperson. Da tue ich das sowieso ganz subjektiv und automatisch. Anders sieht es jedoch aus, wenn ich Menschen Beziehungserfolg verkaufe und den Wert meines Produkts überprüfen möchte. Finde ich zumindest. Parship nicht. Genauer gesagt gehen unsere Vorstellungen von Beweisen ein wenig auseinander.

Wissenschaft nur für Universitäten?

Bei der Aufarbeitung meines Posts zum Thema Online-Dating, der nun fast schon ein Jahr zurück liegt, sind noch ein paar weitere Aspekte in meinen Fokus gefallen. Genauer gesagt dieser Artikel im Spiegel von 2012. Interessanterweise nimmt er Rückbezug auf das Finkel-Paper, das ich als Grundlage meines damaligen Posts herangezogen habe. Allerdings gibt Autor Holger Dambeck nicht lediglich die Kritik an Online-Datingplattformen wieder, sondern konfrontiert auch ganz explizit den Anbieter Parship damit. Und wisst ihr, was Parship-Sprecherin Doreen Schlicht darauf geantwortet hat? Ich zitiere mal:

Parship habe im letzten Jahr erstmalig Paare befragt und die Ergebnisse dieser Befragung auf Tagungen vorgestellt, sagte Schlicht. „Da wir keine universitäre Einrichtung sind, sind für uns wissenschaftliche Publikationen in Fachzeitschriften nicht verpflichtend.“


Uhh.
Hat sie nicht gesagt.
Oder?
Doch. Hat sie gesagt. Genau so.

Meine Kinnlade ist nun ein gutes Stück tiefer gelegt. Wenn ich also einen Service anbiete, der darauf abzielt, tiefgreifende Veränderungen im Leben meiner Kunden herbeizuführen (eine bestenfalls langjährige Partnerschaft) und außerdem mit der Wissenschaftlichkeit dieses Services werbe – dann bin ich nicht verpflichtet, meine Vorgehensweise einer wissenschaftlichen Prüfung zu unterziehen? Das heißt, durch die Veröffentlichung in einem Fachmagazin, wo meine Methodik und die Ergebnisse Kollegen aus derselben Disziplin zur Verfügung stehen und nachgeprüft sowie kritisiert werden können?
Klar. So formuliert ergibt das natürlich Sinn.
Wie unbequem, dass ich an einer universitären Einrichtung arbeite und studiere. Meine Masterarbeit würde sich bestimmt deutlich knackiger runter schreiben lassen, wenn ich nicht durch mein blödes Institut dazu verpflichtet wäre, empirische und nachprüfbare Arbeit vorzulegen. Medikamente ließen sich auch mit viel weniger Papierkram und Verzögerung auf den Markt bringen, wenn man sie einfach ungeprüft in die Apotheke werfen dürfte (oh, wait – wie zum Beispiel homöopathische Mittel?) Sollte es in der Frage, ob ein Wirksamkeitsnachweis erforderlich ist, nicht darum gehen, was für eine Methode angepriesen wird? Anstatt darum, wer sie anpreist?

Studien vs. „Studien“

Der Begriff (wissenschaftliche) Studie wird ziemlich inflationär benutzt. Bei einer Google-Suche nach einer griffigen Definition stellte ich fest: Es tauchen verdammt viele alternativmedizinische Seiten unter den ersten Ergebnissen auf. Das war nicht im Sinne des Erfinders. Schätze ich zumindest, denn einen wirklichen „Erfinder“ wissenschaftlicher Studien gibt es schließlich nicht.
In der Wissenschaft hat sich aber ein gängiger Kontrollmechanismus entwickelt. Wer seine Forschungsergebnisse an den Mann bringen will, veröffentlicht in einer Fachzeitschrift. Dort können dann Kollegen vom Fach die Vorgehensweise nachvollziehen und prüfen. Ein wichtiger Schritt, die eine „Studie“ von einer Studie unterscheidet, ist also die Transparenz. Andere Leute müssen die Möglichkeit haben zu sagen: „Hey, warte mal. Du wolltest Körpergröße messen – aber du Sofa hast statt eines Zollstocks eine Packung Butter verwendet!“ Sie müssen auch in der Lage sein, exakt das nachzumachen, was ich gemacht habe um dann rückzumelden: „Du, hör mal, ich habe genau wie du eine Packung Butter genommen, aber komme auf ganz andere Körpergrößen als du.“ Wenn die Qualitätsansprüche bereits im Vorfeld nicht erfüllt werden, wird ein Paper von vornherein abgelehnt und es kommt gar nicht erst zur Veröffentlichung. Jedenfalls nicht in einem etablierten Journal. Leider gibt es auch weniger anspruchsvolle Magazine oder man macht kurzerhand seine eigene „Fachzeitschrift“ auf. Es gibt jedoch Ranglisten über den Einfluss und den Ruf, den ein bestimmtes Journal genießt.
Nur einzelne Ergebnisse in einen Zeitungsartikel oder noch besser, nur auf die eigene Website zu stopfen, reicht jedenfalls nicht. Es muss schon das gesamte Paket sein. Okay, Parship sieht sich davon befreit, stellt aber freundlicherweise seine Forschung unter dem Link Studien auf der eigenen Website bereit. Rasch zeigt sich: Eine genaue Beschreibung der Methodik oder gar vollständige Datensätze suchen wir vergeblich. Größtenteils sehen wir die Ergebnisse von Umfragen. Fair enough: Partnerschaft und Beziehungen lassen sich nicht experimentell manipulieren. Jedenfalls nicht, ohne den Ethikrat mit Fackeln und Mistgabeln vor die eigene Haustür zu zitieren.

Das Dilemma, wen man befragen sollte

Also dann, Umfrage it is. Die aktuellste stammt von 2016 und vergleicht die Parship-Paare mit Offline-Paaren. Gibt es Unterschiede zwischen denen, die sich „auf natürlichem Wege“ gefunden haben und jenen, die online ihr Glück gesucht haben? Klingt eigentlich ganz einfach. Man nimmt ein paar Parship-Paare (ja, auf diese Alliteration bin ich ein bisschen stolz) und vergleicht sie mit Offline-Paaren. Oder?
Jein. Umfragen beruhen auf Freiwilligkeit. Das lässt sich nicht umgehen und ist auch gut so. Es kann allerdings gut sein, dass sich die Kandidaten, die einer Befragung zustimmen, sich grundsätzlich von denen unterscheiden, die das nicht tun. Also, über die Antwort „ja“ und „nein“ hinaus. Parship hat sich die Nasen geschnappt, die sich auf der Plattform gefunden haben. Dafür mussten die Leute a) zuvor eine Mailadresse angegeben haben, über die man sie später kontaktieren konnte und b) der Befragung an sich zustimmen. Was könnte da schief laufen?
Wilde Hypothese: Was, wenn nur Menschen, die besonders tolerant sind, ihre Mailadresse hinterlassen? Einfach, weil sie viel entspannter mit nervigen Spam-Mails umgehen, als Kollegen mit weniger langem Geduldsfaden für Schabernack. Wenn Toleranz jetzt auch besseren Beziehungserfolg verursacht – dann sind unsere Parshipper, die so freigiebig mit ihrer Mailadresse waren, per se schon glücklicher in ihren Beziehungen. Vielleicht haben auch diejenigen, bei denen die Beziehung am Ende doch gescheitert ist, gar keinen Bock auf Befragung. Das glückliche Paar berichtet natürlich gern. Okay, auch die Offline-Paare befanden sich schließlich in einer noch intakten Beziehung, über die sie bereitwillig berichten wollten. Wir wissen nicht, aus welchem Pool die gezogen wurden.

Mindestens aber lassen wir auf diese Art einige nicht unwichtige Dinge unter den Tisch fallen: Zum einen die Erfolgsrate von Online- vs Offline-Dating. Wie viele Menschen melden sich auf Parship an – und gehen alleine wieder heim oder versauern auf der Plattform? Wie sieht es im Vergleich offline aus? Wie viel Prozent der Menschen die suchen, finden auch? Und was ist mit denen, die gar nicht suchen, und trotzdem finden? Das merkt Parship auch überraschend selbstreflektiert von sich aus an: Die Online-Leute haben aktiv nach einer Beziehung gesucht. Die Offline-Menschen nicht unbedingt. Allein das lässt unterschiedliche Einstellungen zum Thema Partnerschaft an sich vermuten. Fairer wäre es, nur Liebes-Suchende auf beiden Seiten zu vergleichen. Erfolgreiche wie nicht erfolgreiche. Noch viel besser wäre es, Menschen die eine Beziehung suchen zufällig ein Smartphone in die Hand oder den Ratschlag „Geh und quatsch wen im echten Leben an“ an den Kopf zu drücken. Aber das ist erst mal okay so. Wir arbeiten mit den Daten, die wir haben.
Halten wir aber fest: Wen ich in welcher Konstellation befrage und wo ich diese Leute her habe, kann durchaus einen Unterschied fürs Ergebnis machen. Umso wichtiger ist es zu veröffentlichen, wen ich wieso in welchem Kontext befragt habe und wie ich auf ausgerechnet diese Menschen gekommen bin.

Fragebogen kommt nicht von Fragen biegen

Kleiner Exkurs: Gute Fragebogenerstellung ist nicht einfach. Wenn man nicht aufpasst, kann man aus Versehen bloß aufgrund der Formulierung bestimmte Antworten begünstigen. Auch für die Antworten gibt es unterschiedliche Formate. Parship hat nun je nach Frage eine sogenannte Likert-Skala vorgegeben, die zum Beispiel von „trifft überhaupt nicht zu“ bis „trifft vollkommen zu“ oder von „nie“ bis „immer“ reichte. Die Verwendung der letzten Skala (nie – selten – manchmal – häufig – immer) stellt mich unter der Überschrift „Wie sieht der allgemeine Umgang in Beziehungen aus“ vor ein paar Fragen.
Wenn ich bei der Aussage „wir streiten uns häufig“ „manchmal“ ankreuze – was heißt das dann? „Manchmal häufig“? Manchmal? Häufig, aber in Intervallen? Und was sagt mir dann „häufig häufig“? Oder lässt „nie häufig“?
Unelegant, wenn die Frage selbst bereits ein Rating beinhaltet. Was soll man da auch antworten? Oder handelt es sich hier um eine vereinfachte Darstellung zur besseren Übersicht und im Original-Fragebogen stand da: „Wir streiten uns […] – bitte entsprechendes Wort einfügen“? Scheint in diese Richtung zu gehen. Im Fließtext darunter wird nämlich die Frage, die oben noch lautet: „Mein Partner bringt mich häufig dazu, sich nach ihm zu richten“, so beschrieben: „Wie oft bringt Ihr Partner Sie dazu, dass Sie sich nach ihm richten?“

Die Originalfrage könnte jede von beiden gewesen sein oder irgendwas dazwischen. Aus diesem Grund wäre Einblick in die Originalmaterialien hilfreich – so könnte man Frage für Frage schauen, ob womöglich (ungewollt) lenkende Formulierungen dabei waren. Im wissenschaftlichen Kontext ist es sogar üblich, auf vorgegebene Fragebögen zurückzugreifen, die andere Teams mit viel Aufwand entwickelt und getestet haben. Wenn ich behaupte: „Diese drei Fragen messen Dominanz“, dann muss das nicht unbedingt stimmen. Verwende ich dagegen einen etablierten Fragebogen für Dominanz, habe ich mehr Gewissheit, mein Zielverhalten auch angemessen zu erfassen. Parship hat sich selbst Fragen überlegt und ihnen Dimensionen zugewiesen. Das muss in diesem Fall nicht zu unverwertbaren Ergebnissen führen, aber gerade ohne weitere Details fehlen mir auf diese Art umso mehr Anhaltspunkte zur Qualitätsbeurteilung der Fragen.
Auch die Reihenfolge, in der die Fragen gestellt werden, kann durchaus einen Einfluss auf deren Beantwortung haben. Hier wäre ebenfalls ein Blick in die Originalmaterialien und die detaillierte Vorgehensweise die einzige Möglichkeit, so etwas zu überprüfen.

Bleiben wir doch bei dem Abschnitt über den allgemeinen Umgang in der Beziehung. Auch die Auswertung der Antworten bereitet mir Bauchschmerzen. Die Ergebnisse sind zugegeben charmant dargestellt. Das kleine grüne WLAN-Symbol repräsentiert die Online-Paare, die Offline-Beziehungen bekommen das Icon des Schreckens: Kein WLAN verfügbar. Jeweils versehen mit Prozentzahlen, die die Zustimmung zu der jeweiligen Frage ausdrücken. Leider werden die Daten hier stark zusammengerafft. Es liest sich in der Parship-Beschreibung etwas sperrig, aber generell gilt: Wer auf der genannten Skala „häufig“ oder „immer“ angekreuzt hat, fließt mit ein unter „Zustimmung“. Mit anderen Worten: „manchmal“, „selten“ und „nie“ sind raus.
Das stellt uns jetzt vor schwierige Fragen der Interpretation. Nehmen wir mal die schockierenden Zahlen zu „Wir streiten uns häufig“. 2% der Online-Paare stimmen zu. Und 27% der Offline-Paare. Dicke Luft offline? Oder verschwinden hier Details in zusammengeworfenen Daten? Was würde es zum Beispiel aussagen, wenn 2% der Online-Paare „immer“ angekreuzt hätten – und 98% „manchmal“? Und dagegen 27% der Offline-Paare „häufig“ gewählt hätten und die restlichen 83% „nie“? Welche Beziehung wäre dann harmonischer?

In dieser Übersicht fehlen mir auch wichtige Informationen, um die wahre Dramatik der Zahlen beurteilen zu können: Die Streuung der Daten und die Berechnung, ob der Unterschied signifikant ist. Zwar sind einige der Unterschiede zwischen den Gruppen durchaus so groß, dass ich sicher bin, dass ein wenig Rechnerei sie als statistisch bedeutsam kennzeichnen würde. Diverse Verfahren sind in der Lage zu detektieren, ob die Differenz zwischen zwei Gruppen auf tatsächlichen Unterschieden zwischen diesen Gruppen beruht – oder einfach durch die natürliche Schwankung der Messerwerte innerhalb der Gruppen zurückzuführen ist. Eine ganze Menge der Prozentzahlen liegen so dicht beieinander, dass man wohl kaum von einem nennenswerten Unterschied zwischen Online- und Offline-Paaren sprechen kann.
Was oder wie hier gerechnet wurde, lässt sich nicht sagen. Am Ende nehmen die Autoren sogar das Wort „signifikant“ in den Mund, was zumindest an statistische Tests denken lässt. Und zwar, wenn es um die Zufriedenheit mit der Partnerschaft ganz im allgemeinen geht. Bewertet auf einer Skala von 1 bis 10. Die Online-Paare erreichen beinahe die volle Punktzahl: Mittelwert 9,01. Die Offline-Paare scheinen davon jetzt aber nicht allzu weit weg zu sein: 7,75. Wenn man bedenkt, dass 10 das Maximum ist, scheint es beiden gar nicht so schlecht zu gehen.

Wie misst man eigentlich Beziehungserfolg?

Gar nicht so trivial. Dauer der Beziehung? Aber was, wenn die Beziehung lange dauert, aber unglücklich ist? Fragt man also einfach nach der Zufriedenheit mit der Beziehung? Klingt erst mal gut: Wenn man wissen will, ob Leute glücklich sind, sollte man einfach fragen. Wieso müssen Wissenschaftler immer alles so unnötig kompliziert machen?

Naja. Weil Menschen manchmal kompliziert sind. Wenn ich jemanden frage, ob er glücklich ist, ist das eine verdammt schwierige Frage. Viele Dinge spielen da mit rein. Diverse Heuristiken können dafür sorgen, dass wir anstatt dieser komplexen Frage eine leichtere, aber ähnliche beantworten. Kahneman beschäftigte sich mit Wahrnehmungsfehlern und auch damit, was einen Einfluss auf die Wahrnehmung von Wohlbefinden und Zufriedenheit hat. Er beschreibt auch die Studie von Strack und Kollegen, in der Probanden gefragt wurden, wie glücklich sie sind – und wie viele Dates sie letzten Monat hatten. Beide Fragen sind nicht völlig unabhängig voneinander, aber wir sind uns glaube ich einig, dass es bei der Frage nach dem Glück um weitaus mehr geht als die Anzahl an Dates im letzten Monat. Tatsächlich findet sich auch nur ein geringer Zusammenhang von .12. Stellen wir die Frage nach den Dates aber zuerst, haben wir auf einmal einen amtlichen Zusammenhang von .66. Das bedeutet, dass die Dates im letzten Monat plötzlich einen riesigen Einfluss auf das Glück der Befragten hatten.

Zwischen zwei Schluck Rotwein
Korrelationen reichen von -1 über 0 bis 1. 0 beschreibt dabei, dass zwei Dinge überhaupt nicht zusammen hängen. 1 bedeutet einen maximalen Zusammenhang, je nach Vorzeichen in eine bestimmte Richtung. In der Psychologie freuen wir uns in der Regel bereits ab .30, weil ganz klare Zusammenhänge in dem komplexen Zusammenspiel vieler Faktoren nur selten zu beobachten sind.

Unsere Probanden haben den Dates auf einmal viel mehr Bedeutung für ihr Glück beigemessen, weil wir sie daran erinnert haben, indem wir zuerst danach gefragt haben. Das heißt natürlich nicht, dass sie ganz allgemein ständig ihr Glück an der Zahl ihrer Dates messen. Das bedeutet aber auch, dass wir höllisch aufpassen müssen, wie wir fragen, wenn wir Menschen nach ihrer Zufriedenheit über einen langen Zeitraum betrachtet fragen. Aber selbst, wenn wir unsere Fragen völlig sauber stellen und zum Beispiel die Reihenfolge der Fragen von Person zu Person zu variieren, um keine systematischen Fehler zu machen, können auch andere Dinge einen Einfluss haben, die die Antwort der Probanden verzerren. Vielleicht war der Bäcker gerade besonders unfreundlich zu ihnen und in ihrer schlechten Lauen fallen ihnen bei der Frage nach ihrer Partnerschaft bloß die Dinge ein, die ihnen an ihrem Partner so richtig auf den Keks gehen – dabei lieben sie ihn eigentlich sehr. Oder das Wetter ist gut, ich habe gerade ein Eis in der Hand und auf einmal wirken die permanenten Ehekrisen viel weniger schlimm als gestern noch.

Vernünftige Antworten aus Menschen herauszukriegen kann verdammt anstrengend sein und erfordert clevere Befragungstechniken und eine Menge Randomisierung, also zufällige Zuordnungen. So können wir die Fehler, die wir nicht kontrollieren können, zumindest so unsystematisch werden lassen, dass sie unsere Daten nicht in eine ganz bestimmte Richtung verzerren. Eine Kombination aus subjektiver Befragung und „harten Zahlen“ wie Beziehungsdauer oder Scheidungsrate ist für das Gesamtbild wichtig.

Liebe messen – darf man das eigentlich?

Oft hört man, die eiskalten Methoden der Wissenschaft seien nicht geeignet, um Liebe zu messen. Das fühlt man – das lässt sich nicht in Grafiken packen und mit Prozentzahlen versehen!

Jein. Natürlich wird niemals eine Zahl die subjektiven Gefühle, die ich für meine Mitmenschen empfinde, in all ihrer Komplexität ausdrücken. Selbst ein starkes Gefühl wie Liebe variiert auch von Zeit zu Zeit und ist Schwankungen durch Stimmung oder Wetter unterworfen. Ich muss meine Beziehung nicht jeden Tag auswerten und die Koffer packen, wenn der Wert auf der Skala unter 6.31 von 8 möglichen goldenen Nasenbären fällt.
Trotzdem haben Liebe und Partnerschaft eine riesige Relevanz für die Gesellschaft und sind es wert, untersucht zu werden. Um meine Ergebnisse mit anderen vergleichbar und verbalisierbar zu machen, bin ich auf gewisse Messstandards angewiesen. Um Zahlen komme ich dann nicht drumrum. Das wertet Liebe als subjektive Empfindung nicht ab oder macht sie dadurch kälter und rationaler.
Und davon ganz abgesehen – was ist mit Liebe für Zahlen und Daten?

Nicht zuletzt haben Anbieter, die behaupten, erfolgreiche Beziehungen zu vermitteln, in meinen Augen die Pflicht, das zu beweisen. Das geht nur mit Daten. Bevor ich für einen Service bezahle oder persönliche Informationen oder Zeit herausgebe, möchte ich wissen, ob das überhaupt was nutzt. Es ist nicht selbstverständlich, dass ein Fragebogen funktioniert, um mir bessere Partnervorschläge zu liefern. Technisch gesehen kann er mir sogar Steine in den Weg legen. Zum Beispiel, weil er mir ungeeignete Partner vorschlägt oder eigentlich gute Matches außen vor lässt. Ich kann Fehler machen, weil ich dem Matching da traue, wo ich es persönlich ganz anders wahrgenommen hätte.
In jedem Fall ist es so wie Parship seine Umfragen darstellt nichts Halbes und nichts Ganzes. Für einen Laien sieht es so aus, als gäbe es belastbare Daten. Aus Forscherperspektive sagen die aber gar nichts aus. Ehrlicher wäre es, auf den Hokuspokus zu verzichten und klar darzustellen, dass wir basierend auf Persönlichkeitsmerkmalen gar keine Beziehungsprognose leisten können. In dem Artikel, den ich ganz oben zitiert habe, gesteht Parship sogar ein, dass das sehr schwierig ist, weil äußere Umstände eine große Rolle spielen. Halbgare und unvollständige Umfrageergebnisse suggerieren dem Kunden aber mehr Kompetenz, als überhaupt gegeben werden kann. Für mich fällt das unter falsche Versprechungen.

Ich kann so nicht arbeiten

Gefühlt drölf Mal habe ich es schon erwähnt: Ich brauche mehr Infos. Die soll ich – sagen die großen, roten Buchstaben am Ende des Beitrags – per Mail an die wissenschaftliche Abteilung bekommen. Na dann. Versuche ich doch mal mein Glück.
Am 03.04.2018 habe ich eine Mail mit den hier genannten Fragen und Einwänden an Parship gesendet und um genauere Informationen bezüglich der Daten gebeten. Bisher blieb es stumm, aber ausführliche Wissenschaft ist eben langsamer als unüberprüfte Behauptungen. Man kann also noch nicht sagen, dass Hopfen und Malz verloren sind. Ich halte euch auf dem Laufenden, sollte ich eine Antwort erhalten.


Quellen und erwähnte Links in Reihenfolge des Erscheinens, Stand 10.04.2018, 16:33

[1] einglasrotwein.de – Relationshopping – 05.06.2017
[2] SPIEGEL ONLINE – Online-Partnerbörsen: Psychologen halten Dating-Seiten für untauglich – 06.06.2012 – 8:11
[3] Finkel, E. J., Eastwick, P. W., Karney, B. R., Reis, H. T., & Sprecher, S. (2012). Psychological Science in the Public Interest 13(1):3-66.
[4] Netzwerk Homöopathie – Braucht die Homöopathie eine Sonderstellung im Arzneimittelgesetz? – 15.03.2016
[5] Parship – Studien
[6] Kahneman, D. (1999). Objective happiness – Well-being: The foundations of hedonic psychology
[7] Strack, F., Martin, L. L. & Schwarz, N. (1988). Priming and communication: Social determinants of information use in judgments of life satisfaction. European Journal of Social Psychology 18(5), 429-442.