In wenigen Tagen dürfen wir euch bei Skeptics in the Pub in Köln ein paar coole Geschichten über Daten erzählen. Der Vortrag steht so weit, aber es sind hunderte Beispiele übrig geblieben, die es nicht mit rein geschafft haben. Insbesondere das Benfordsche Gesetz möchte ich euch dabei nicht vorenthalten. Und das Einhorn.

TL;DR
-In vielen Datensätzen sind die Anfangsziffern nicht gleichverteilt, sondern folgen dem Benfordschen Gesetz.
– Das bedeutet: Die 1 kommt viel häufiger vor, die 2 weniger häufig, und so weiter.
– Das trifft in der Regel dann zu, wenn Wachstum eine Rolle für die Daten spielt – oder mehrere Zufallsfaktoren.
– Einhorn!

Den R-Code zu den Daten und den Plots gibt es übrigens in diesem GitHub repository.

Sollte man hier skeptisch werden?

Manchmal sehen wir uns Daten an und denken sofort: „Hier kann etwas nicht stimmen.“ Das könnte zum Beispiel passieren, wenn ich euch folgende Geschichte erzähle: Nehmen wir an, wir prüfen die Bücher eines großen Konzerns. Dabei lassen wir uns einen Trick einfallen, wie wir die Einnahmen und Ausgaben auf Plausibilität abklopfen können: Wir sehen uns nur die ersten Ziffern an und zählen, wie häufig diese jeweils vorkommen. Für eine 104 notieren wir also eine 1, bei einer 522.797 schreiben wir eine 5 auf und so weiter. Wir zählen zusammen – und das Ergebnis sieht so aus (die Zahlen in den Balken geben den prozentualen Anteil der jeweiligen Anfangsziffer an):

Ha! Betrüger! Die 1 kommt viel öfter vor als die anderen Zahlen. Müsste nicht jede Ziffer von 1 bis 9 etwa gleich häufig vorne stehen? Und dann dieser regelmäßige Abfall – als hätte es sich jemand ausgedacht. Ganz sicher wurden die Bücher frisiert – und das auch noch ziemlich stümperhaft.
Oder … ?

Wenn wir das glauben, dann wären wir lausige Steuerprüfer. Denn im echten Leben verteilen sich Anfangsziffern nach diesem Muster – beschrieben durch das Benfordsche Gesetz. In der Kurzversion kann man das so hinnehmen und direkt zur Überschrift Erwartungen beeinflussen Misstrauen springen. Denn das ist die wirklich wichtige Botschaft, die ich hier vermitteln will. Wenn ihr aber zwei Minütchen mehr übrig habt, erkläre ich euch auf dem Weg dazwischen grob, wieso sich die Anfangsziffern so merkwürdig verhalten.

Wachstum ist der Schlüssel

Das Benfordsche Gesetz gilt nicht immer und überall. Aber wir finden ein ähnliches Muster wie oben meistens dann, wenn Wachstum eine Rolle spielt. Stellen wir uns vor, wir legen ein Sparbuch an. Wir zahlen 10 € ein und erhalten jeden Tag 1 % Zinsen. (Ich weiß, es ist keine sehr realistische Geldanlage, aber spielt einfach mit.) Wir heben das Geld ab, sobald wir mindestens 10.000 € zusammengespart haben. Mögt ihr raten, wie lange das unter diesen Bedingungen dauert? Nach 696 Tagen haben wir 10.077,55 € gehortet.

Und ich gestehe: Die Grafik oben stammt von keiner Firma, sondern stellt unser Sparbuch dar. Genau genommen die Verteilung der Anfangsziffern, wenn wir jeden Tag unser Guthaben notieren. Warum verhalten sich die ersten Ziffern so merkwürdig? Das verstehen wir, wenn wir uns ansehen, wie unser Guthaben über die Zeit wächst:

Ich habe die Anfangsziffern wieder farblich markiert. Wir sehen, dass unser Geld sich nicht nur gegen Ende hin immer rasanter vermehrt, sondern dass es auch viel länger auf Beträgen „hängen bleibt“, die mit einer 1 beginnen. Weil die kleinen Beträge am Anfang kaum zu erkennen sind, habe ich das noch einmal anschaulicher dargestellt:

Das erklärt aber noch nicht, wieso unser Guthaben so lange auf Zahlen sitzen bleibt, die eine 1 an erster Stelle stehen haben. Dafür betrachten wir unser Guthaben genauer: Anfangs haben wir 10 €. Es wächst über Nacht um 1 % – und somit auf 10,10 €. Am nächsten Tag erhalten wir wieder 1 % dazu – diesmal aber nicht 1 % von 10 €, sondern von 10,10 €. Wir rechnen nicht mehr bloß 10 Cent dazu, sondern nun schon 10,1 Cent. Das klingt wenig beeindruckend, aber der Punkt ist: Es ist mehr dazu gekommen als vorher. Am nächsten Tag wird es noch ein wenig mehr: Wir haben nun 10,201 € auf dem Konto, erhalten nun also rund 10,2 Cent dazu.

Wie ihr merkt, geht es sehr schleppend voran. Es geht aber auch immer schneller. An Tag 71 haben wir das erst Mal eine 2 vorne stehen und besitzen ungefähr 20,07 €. Wenn wir nun über Nacht 1 % dazurechnen, bekommen wir schon um die 20 Cent mehr – vorher waren es nur 10! Das erklärt es also: Weil wir zu Beginn recht wenig Geld dazu bekommen, dümpeln wir sehr lange auf der 1 an erster Stelle herum. Wenn die 2 vorne steht, hat unser Guthaben schon an Fahrt aufgenommen und es geht in schnelleren Schritten auf die 3 zu.

Zurück zur 1

Irgendwann kommen wir wieder zu einer 1, die vorne steht – nämlich dann, wenn wir die 100 €-Grenze knacken. Aber Moment mal! Wenn es doch immer schneller geht – dann werden wir doch bei 100 € auch wieder deutlich mehr Zinsen pro Tag bekommen als zuvor, oder nicht? Damit sollten wir die 1 an erster Stelle dann doch wieder zügig hinter uns lassen.

Jein. Natürlich: Wenn wir 100 € haben, dann bekommen wir etwa einen Euro pro Tag dazu – nicht mehr bloß ein paar Cent. Anders als zuvor müssen wir aber keine 10 € mehr zusammenbekommen, um eine andere Ziffer an erster Stelle zu erhalten (20 €). Diesmal müssen wir 100 € ansparen, um die nächste Anfangsziffer zu erreichen (200 €). Der Weg von der 100 zur 200 dauert also genau so lange wie zuvor der von der 10 zur 20. Aber der Clou ist: Die 300 erreichen wir von der 200 aus wieder schneller. Genau wie wie wir zuvor schneller von der 20 zur 30 gekommen sind. Dasselbe Muster wiederholt sich also immer wieder. Was sich dann herausbildet ist eine mustergültige logarithmische Skala, wie wir sie hier sehen.

Logarithmus lohnt sich

Von logarithmischen Skalen haben wir in der Schule vermutlich zuletzt gehört und meistens haben wir keine guten Erinnerungen an sie. Das war irgendwie alles kompliziert und komisch. Dabei sind logarithmische Skalen sehr nützlich: Sie drücken Verhältnisse aus. Von 1 nach 2 bedeutet: doppelt so viel mehr – also von 100 g Schokolade auf 200 g. Dagegen bedeutet von 2 nach 3: halb so viel mehr – also von 100 g Schokolade auf 150 g. Das bedeutet auch: Von 100 g Schokolade auf 200 g Schokolade ist – logarithmisch betrachtet – dasselbe wie von 400 g Schokolade auf 800 g Schokolade. Die Mengen sind zwar völlig unterschiedlich, aber in beiden Fällen verdoppelt sich unsere Schokolade.

Merkt ihr was? Das ist dieselbe Logik wie bei den Anfangsziffern! Von 10 g nach 20 g Schokolade haben wir doppelt so viel. Und von 100 g nach 200 g auch. Ebenso von 1000 g nach 2000 g. Jedes Mal, wenn eine weitere 0 dazu kommt, beginnt unsere Skala – logarithmisch betrachtet – von Neuem. Im Alltag wenden wir also ganz unbewusst logarithmische Skalen an: Wir wissen zum Beispiel, dass wir statt „200 cm ist doppelt so viel wie 100 cm“ auch sagen können: „2 m ist doppelt so viel wie 1 m.“

Jetzt aber kommt die Überraschung: Das Benfordsche Gesetz gilt selbst für Zahlen, die gar nicht wachsen. In diesem Video führt
TheHue’s SciTech die Größe der Dateien auf seinem Computer an – deren Verteilung folgt ebenfalls dem Benfordschen Gesetz und die funktionieren ja wohl kaum wie Sparbücher. Und Naturkonstanten, für die das Benfordsche Gesetz genau so gilt, wachsen überhaupt nicht. Wie kann das sein?

Wie immer ist der Zufall schuld. Genauer genommen eine Verkettung von Zufällen. Also zum Beispiel mehrere Würfelwürfe hintereinander. Oder mehrere zufällige Faktoren, die gemeinsam die Größe von Dateien auf unserem Computer bestimmen (um was für einen Dateityp es sich handelt, ob es ein Projekt für die Arbeit ist oder nicht, was die Zeichenvorgabe für den Aufsatz war …). Wenn mehrere Zufallsfaktoren zusammenwirken, ergeben sich ebenfalls oft Daten, die sich über mehrere Größenordnungen hinweg erstrecken – und dem Benfordschen Gesetz folgen. Dass man das Benfordsche Gesetz überall finden kann, kann man nutzen: Ähnlich wie in unserem Eingangsbeispiel kann man es anwenden, um Finanzen auf frisierte Daten zu prüfen.

Erwartungen beeinflussen Misstrauen

Wir sehen aber auch, wie schwierig es ist zu entscheiden, ob man Daten gegenüber skeptisch werden sollte oder nicht. Anfangs hätten die meisten – inklusive mir, bevor ich das Benfordsche Gesetz kannte – gedacht, dass die Verteilung der Anfangsziffern unplausibel ist und auf gefälschte Daten hindeutet. Wenn man nicht weiß, wie Daten aussehen müssen, wenn sie „richtig“ sind, weiß man auch nicht, ob man kritisch nachhaken sollte. Man sieht Betrug, wo keiner ist – oder übersieht umgekehrt Fälschungen.

Seid also kritisch gegenüber dem eigenen kritischen Denken – oder, um es philosophischer auszudrücken: Man weiß nie, was man alles nicht weiß.

Je tiefer man gräbt, desto schwieriger wird es, das Benfordsche Gesetz wirklich nachzuvollziehen. Deswegen saßen Martin, mit dem ich den Vortrag am Dienstag gemeinsam halten werde, irgendwann mit rauchenden Köpfen da. Eine elegante und anschauliche Erklärung musste her, und die hatte Martin parat: Wenn man das Benfordsche Gesetz grafisch darstellt, dann ist bei den hohen Anfangsziffern noch viel Platz in der Grafik übrig – so viel, dass noch ein dickes, fettes Einhorn reinpasst. Jedenfalls wette ich, dass ihr das Benfordsche Gesetz mit diesen Bild im Kopf nie wieder vergesst:


Quellen und Links in erwähnter Reihenfolge, Stand 31.05.2019

[1] Wikipedia Benfordsches Gesetz – letzte Aktualisierung 15.03.2019
[2] YouTube – Benford’s law explained: a response to Numberphile – TheHue’s SciTech – 19.10.2013
[3] gwup – die Skeptiker – Skeptics in the Pub Köln: „Richtige Daten, falsche Schlüsse“ – 23.03.2019