Dem Wohlstand auf der Spur, Statistik sei Dank

Am letzten Wochenende ist mir ein Artikel des Hamburger Abendblatts (29./30. November, Seite 12, „Der Wohlstand lebt im Norden“) in die Hände gefallen. Kurzum, es wurden die durchschnittlichen Pro-Kopf-Einkommen in 2010 der Stadtteile Hamburgs in einer Kartengrafik sehr anschaulich dargestellt. Dennoch ließ es mich etwas stutzen.

Ich selbst wohne in Hamburg (Eimsbüttel), ich kenne eine ganze Menge Menschen hier. Besonders aufgefallen ist mir der Stadtteil Nienstedten – ein beschauliches Städtchen unweit der Elbe. Ohne Frage wohnt hier der „besser Verdienende“. Laut dem Abendblatt und dem „Statistischen Amt für Hamburg“ liegt hier das durchschnittliche Jahreseinkommen pro Steuerpflichtigem bei 138.941€. Das kommt mir ganz schön viel vor. Insbesondere auch im Vergleich zum bekannteren Stadtteil Eppendorf, wo das Jahreseinkommen bei 61.052€ liegen soll.

Da ich nun Hamburg gut kenne – ein Vorteil, den in diesem Kontext sicherlich nicht jeder hat – weiß ich, dass direkt an der Elbe in den Stadtteilen Blankenese, Nienstedten und auch Othmarschen einige „Großindustrielle“ wohnen, deren Jahreseinkommen die übliche Skala ohne Zweifel sprengen. Nun habe ich mich gefragt, was denn jetzt mit den dargestellten Mittelwerten anzufangen sei. Eigentlich nichts, zumindest nicht in den Gebieten, wo die Ausreißer nach oben so groß sind, dass sie den Mittelwert über die Maße beeinflussen.

Ich habe mir das mal in Excel nachgebaut, und zwar mit pro-Kopf-Einkommen der Stadtteile Nienstedten, Eimsbüttel und Eppendorf. Ich habe mir ein paar Einkommen ausgedacht, die zum einen ungefähr den entsprechenden Mittelwert aus dem Artikel ergeben und zum anderen aber meine Erfahrung mit den Stadtteilen und eine dementsprechende Streuung mit einbeziehen. Das sieht dann wie folgt aus, der Einfachheit halber in 1000€:

Ich habe die erste Spalte, die einzelnen Einkommen der Bewohner von Nienstedten, einmal sortiert. Hier bekommt man schon eine Idee, warum der Mittelwert so exorbitant hoch ist. Zwei Einkommen mit 350K€ bzw. 400K€ ziehen den Mittelwert arg in die Höhe. Wie aber könnte man das adäquat darstellen?

Wichtig ist ja zu wissen, ob es signifikante Ausreißer gibt und wie viel Einfluss diese Ausreißer haben. Auch wichtig zu wissen ist, wie denn die Einkommen der MEISTEN sind. Es gibt hier wundervolle statistische Mittel, derartige Fragen zu beantworten. Nehmen wir einmal NICHT die 25% der Steuerpflichtigen, die am wenigsten verdienen, und NICHT die 25%, die am meisten verdienen. Übrig bleiben 50%, die mehr oder weniger gut verdienen. Wir legen dazu noch den bekannten Mittelwert und visualisieren das ganze als Boxplot (-Diagramm). Ich habe das einmal vorbereitet:

Was kann man hier an diesem Diagramm erkennen? Sofort fällt auf, das Nienstedten etwas „anders tickt“ als Eppendorf und Eimsbüttel. Es befinden sich die mittleren Quartile (also die beiden mittleren 25%-Perzentile) sogar UNTER dem Mittelwert. Der obere Fehlerindikator repräsentiert das Quartiel der 25% Bestverdiener, und weil der sehr lang ist, verteilen sich diese 25% weit oben. (Man spricht an dieser Stelle auch von einer verschobenen Normalverteilung.) Was sagt uns das? In Nienstedten haben die Einkommens-Ausreißer einen derart großen Einfluss, dass der Mittelwert eigentlich gar kein repräsentatives Bild gibt. Die meisten Steuerpflichtigen dort haben (in unserem Beispiel) ein geringeres Einkommen, als uns der Mittelwert suggeriert. Würde man hier die zwei Bestverdiener aus der Betrachtung rauslassen, läge der Mittelwert tatsächlich nur bei 96k€.

Nun fragt man sich vielleicht, warum um ich darauf dermaßen herumreite. Wir beschäftigen uns ja sehr viel mit Daten, die auch häufig auf eine hohe Ebene aggregiert werden. Oft auch als Mittelwert. Dass man bei solchen Aggregationen immer einen gewichteten Mittelwert benutzt, steht ja außer Frage. Dennoch kommt es häufig vor, dass auch hier die tatsächlichen einzelnen Werte in überwiegender Anzahl von dem Mittelwert abweichen. Damit verliert die Kennzahl „Mittelwert von irgendwas“ jegliche Repräsentanz. Man bräuchte also ein Maß für die Güte dieser Kennzahl. Ein solches Maß kann in unserem Beispiel die statistische Varianz sein, oder eigentlich noch besser: Die Standardabweichung. Die Standardabweichung beziffert – ganz grob – die durchschnittliche Größe des FEHLERS beim Mittelwert.

In unserem konkreten Beispiel sehen die Standardabweichungen wie folgt aus:

Auf den ersten Blick ist erkennbar, dass die Standardabweichung (in k€) für Nienstedten erheblich höher ist als in Eppendorf oder Eimsbüttel. Grob gesagt – Eppendorf kann einigermaßen mit Eimsbüttel vergleichen werden, Nienstedten taugt für einen Vergleich nicht – und diese Information entnehmen Sie diesem einen Wert (wiederum im Verhältnis zu den Standardabweichungen der anderen).

Nehmen wir jetzt einmal an, Sie planen eine Ladenkette mit Filialen in Nienstedten, Eimsbüttel und Eppendorf. Sie kennen die Mittelwerte der Einkommen aus dem Hamburger Abendblatt. Sie unterstellen, dass das statistische Amt korrekt gerechnet hat. Nun bestücken Sie ihre Filialen mit Produkten, die jemand mit dem entsprechenden Einkommen gerne bereit zu kaufen ist. In Eimsbüttel liegen Produkte für den 35k€-Einkömmler, in Eppendorf legen Sie schon feineren Zwirn für das 62k€-Publikum in die Regale, und in Nienstedten fahren Sie so richtig auf – feinste Produkte für die 139k€-Zielgruppe. Oder vielleicht doch eher Produkte nur für die 100k€-Zielgruppe?

In diesem Szenario ist die Standardabweichung ein gutes Instrument für die Beurteilung der Güte einer Kennzahl, insbesondere weil die Daten eben nicht so richtig Normalverteilt sind. Würden wir die oben gezeigte Karte nicht auf Papier drucken, sondern als Teil eines Dashboards in ein Standardreporting realisiert, könnte man bei einem Mouseover die Standardabweichung einblenden, oder einfach direkt die Boxplots einblenden:

Eine andere Möglichkeit wäre es, für die Berechnung des Mittelwerts tatsächlich nur die Datensätze zu verwenden, die sich in der NÄHE der MITTE befinden. So würde man Ausreißer konsequent aus der Betrachtung rauslassen.

Schauen wir und doch einmal die Häufigkeitsverteilungen an. Sie zeigt, welche Einkommen in Klassen von je 10k€ wie häufig vorkommen. Auf der X-Achse ist die Häufigkeit aufgetragen, auf der Y-Achse die Gehaltsklassen:

Hier ist einiges zu erkennen: Erstens, nur Eimsbüttel ERINNERT an eine Normalverteilung. Das liegt zweifelsohne an der viel zu kleinen Menge der Stichproben (13 Werte sind nicht wirklich viel). Außerdem ist diese so kaum einer Normalverteilung ähnelnden Kurve ein Indiz dafür, dass die Daten entweder nicht real sind, oder es liegt eine nicht normalverteilte Häufigkeit vor. In diesem Fall habe ich aber keine Zweifel, dass die Daten nicht real sind – denn ich habe Sie mir ausgedacht. Zweitens, Niendorf schlägt alleine schon in der Skala aus der Art, was analog ja auch so in dem Boxplot weiter oben zu beobachten war.

Lassen Sie uns nochmal zur ursprünglichen Aussage kommen – „Der Wohlstand lebt im Norden“. Wenn die Einkommenszahl letztendlich nur darstellen soll, wie viel Einkommen rein steuerlich in den jeweiligen Stadtteilen hängenbleibt, ist der Ansatz nicht verkehrt. Man hätte hier statt Steuerpflichtiger auch die Fläche als Quotient verwenden können, oder die Zahl der Einwohner. Alles sicherlich interessant. Möchte ich aber wissen, wie viel Einkommen jeder (oder besser: die meisten) zur Verfügung haben, ist es durchaus sinnvoll, sich insbesondere mit den Ausreißern zu beschäftigen, die dieses Bild ja verfälschen. Möglicherweise können wir diese Ausreißer ELIMINIEREN.

Schauen wir uns noch einmal die Häufigkeitsverteilung an. Die Extreme sind hier vor allem rechts zu finden (die sehr hohen Einkommen), in geringerem Maße auch links (die sehr niedrigen Einkommen). Jetzt „kappen“ wir auf beiden Seiten die extremsten Werte, also die niedrigsten und die höchsten. Ich habe das einmal in Excel gemacht:

Ganz links sieht man die bekannte Tabelle mit allen Einkommen, den bekannten Mittelwerten und der Standardabweichung. Diese Tabelle habe ich ergänzt um die Perzentile (13 Stichproben -> 1/13 = 0,0769 = fast 8% jeweils) und aufsteigend sortiert. Oben sind die niedrigsten Einkommen, unten die höchsten. Zusätzlich habe ich unten den statistischen Median ergänzt. Dieser findet in der Häufigkeitsverteilung den Wert, der genau in der Mitte liegt, also hier genau der Wert, der bei 54% liegt (Mitte von 13 Datensätzen = der 7.).

Die mittlere Tabelle entspricht der linken Tabelle, mit dem Unterschied, dass hier der jeweils erste und letzte Wert, also die 7% Perzentile, nicht in die Berechnung der unteren Funktionen berücksichtigt, also eliminiert, wurden. Was ist zu erkennen? Auffällig ist vor allem, dass sich die Standardabweichung bei Nienstedten, also die durchschnittliche Abweichung vom Mittelwert, ordentlich reduziert hat. Ebenso hat sich der Mittelwert reduziert. Warum? Na klar, weil der schlimmste Ausreißer (400k€) nicht mehr mitspielt. Bei Eimsbüttel und Eppendorf hat sich auch ein bisschen etwas getan, aber nicht in diesem Ausmaß.

Bei der rechten Tabelle habe ich die ersten und letzten ZWEI Werte eliminiert. Und siehe da, die Standardabweichung ist bei Nienstedten auf ein verhältnismäßig niedriges Maß von 18,4 gefallen – ein Wert, der in diesem Fall absolut in den Rahmen passt. Auch die Standardabweichungen der anderen sind noch gefallen. Weiter sollten wir das ganze aber in diesem Fall nicht treiben.

Nach der Eliminierung der Ausreißer, also dem kappen der 16%-Perzentile oben und unten, betragen die Mittelwerte für Nienstedten nun knapp 100k€, für Eppendorf bei 55k€ und für Eimsbüttel bei 32k€. Damit liegen sie immer noch höher als der Median (also eine leicht rechtsverschobene Normalverteilung), erscheinen aber unter der Berücksichtigung der Standardabweichung ganz vernünftig.

Jetzt ist es an der Zeit, entweder weitere Möglichkeiten der Eliminierung von Ausreißern vorzustellen – oder aber ein Resümee zu ziehen. Ich neige hier zu Letzterem: Glauben Sie nicht jedem Mittelwert. Erlauben Sie sich Bedenkzeit, in der Sie sich klarmachen, wie sie mit Ausreißern umgehen. Wollen Sie diese in Ihrer Betrachtung haben, oder eben nicht? Sind Sie nicht sicher, ob Ihre Daten normalverteilt sind – oder WISSEN Sie, dass Ausreißer ihre Kennzahlen verfälschen? In beiden Fällen bietet die Statistik einfache Mittel, um eine gute Idee zu bekommen, wie die (gemittelte) Realität aussieht.

Falls sie mit dem oben gezeigten Beispiel einmal selbst experminentieren wollen, finden Sie alle o.g. Tabellen und Diagramme hier zum Download: Dem-Wohlstand-auf-der-Spur

Ich wünsche Ihnen eine klare Sicht der Dinge, schöne Weihnachtstage und ein fabelhaftes Jahr 2015.

Ihr Torsten Katthöfer