Die Europawahl liegt nun schon etwas zurück. Zeit noch mal auf die Wahlprognosen zurückzuschauen und zu prüfen, wie gut sie das Ergebnis vorhergesagt haben.
Wie kann man die Abweichung bestimmen
Die Analyse beschränkt sich auf die im Bundestag vertretenen Parteien. Einige Umfrageinstitute haben auch Kleinparteien abgefragt und prognostiziert, aber eben nicht alle, was einen Vergleich unmöglich macht.
Ich habe mich einer relativ einfachen Kennzahl bedient, um die Umfrage mit der geringsten Abweichung zum Wahlergebnis zu ermitteln, nämlich der Varianz. Die Varianz ist das arithmetische Mittel der quadrierten Abweichungen des tatsächlichen vom Erwartungswert. Hört sich kompliziert an, ist aber ganz einfach. Wenn die jüngste Umfrage (von ipsos) für CSU und CDU 27 Prozent prognostizierte, die beiden aber zusammen auf 29 Prozent kamen, dann wird die Differenz von 2 Prozentpunkten quadriert und man erhält das Ergebnis von 4. Dasselbe macht man auch für alle anderen Parteien, kommt dann beispielsweise auf 1 - quadriert 1, bei der SPD und 3 - quadriert 9 für die Grünen und so weiter. Daraus nimmt man dann das arithmetische Mittel und hat die Varianz. Nimmt man aus dem Ergebnis die Wurzel, erhält man die Standardabweichung.
Üblicherweise wird die Standardabweichung als Streuungsmaß verwendet, dann ist der Erwartungswert der Mittelwert eine Reihe. Beispielsweise nimmt man dann die letzten fünf FDP-Ergebnisse, stellt fest, dass sie zwischen 5 und 8 liegen und das arithmetische Mittel bei 6. Dann rechnet man wie oben, nur dass man eben den Mittelwert von jedem einzelnen Wert abzieht und diese Differenz quadriert, beispielsweise 8-6 = 2, quadriert 4. Und dann wird auch draus erst das arithmetische Mittel genommen (Ergebnis = Varianz) und dann die Wurzel. Diese Standardabweichung zeigt uns dann an, wie stark die Prognosen für die FDP sich untereinander (also nicht vom realen Ergebnis) unterscheiden.Das „beste" Ergebnis
Diese Vorgehensweise hat den Vorteil, dass große Abweichungen sehr stark gewichtet werden. Das ist gewollt, denn die sind besonders ärgerlich. Ob man die Varianz oder Standardabweichung heranzieht macht keinen Unterschied bei der Reihenfolge, die Werte sind anders, aber die Reihenfolge bleibt gleich.
Die Forschungsgruppe Wahlen lag bei ihrer vorletzen Umfrage vom 17. Mai maximal 1,5 Prozentpunkte daneben (unquadriert), nämlich bei den Grünen (Prognose zu niedrig) und bei der Linkspartei (Prognose zu hoch). Erstaunlicherweise war die Umfrage eine Woche später etwas schlechter, hier lag die höchste Abweichung bei 2,0 Prozentpunkten.
Gar nicht so schlecht
Wer das jüngste Ergebnis von 24. Mai (ipsos) betrachtet stellt fest, dass es zwar etwas schlechter ist als die beiden letzten der Forschungsgruppe Wahlen, aber insgesamt noch recht nah dran.
Selbst die Umfrage mit der größten quadrierten Abweichung (INSA für BILD vom 7. März) ist aber immer noch eine bessere Prognosegrundlage als das letzte Wahlergebnis. Wer auf die Umfrageinstitute verzichtet und einfach das Wahlergebnis von 2014 für seine Schätzung herangezogen hätte (so wie das Wetter von heute eine gute Schätzung für das Wetter von morgen ist), wäre deutlich stärker daneben gelegen. Die SPD hatte bekanntlich rund 12 Prozent verloren, alleine diese Abweichung ist schon gravierend. Die Varianz der Ergebnisse von 2014 zu 2019 liegt bei rund 48,7, die Standardabweichung somit bei 7,0. Bei der Prognose von INSA liegt die Varianz dagegen bei rund 10,1, die Standardabweichung bei 3,4.
Weil die Varianz und Standardabweichung schwer verständlich sind, habe ich noch mal einen etwas verständlicheren Wert berechnet, die durchschnittliche Abweichung. Hier wird einfach nur die Differenz von Prognose zu Wahlergebnis berechnet, wobei das Vorzeichen immer wegfällt. Egal ob ein Ergebnis 1,2 zu hoch oder 1,2 zu niedrig ist, man schreibt 1,2 auf und nie -1,2. Daraus wird das arithmetische Mittel genommen. Die schlechteste Prognose kommt auf 2,4 im Vergleich zu einer durchschnittlichen Abweichung von 5,9 von 2014 zu 2019. Bei der besten Prognose liegt das geschätzte Ergebnis im Schnitt um 1,1 Prozentpunkte daneben.
Welches Institut ist das Beste?
Das Institut mit den besten Ergebnissen hat nicht zwangsläufig auch am besten gearbeitet. Zunächst einmal ändern die Befragten ja oft ihre Ansicht. Eine Umfrage vom Dezember erzielt womöglich auch deshalb schlechtere Ergebnisse, weil sich seitdem die Wahlentscheidung der Bürger tatsächlich geändert hat.
Gibt man der jüngsten Umfrage den Rang 1 auf der x-Achse und der besten den Rang 1 auf der y-Achse, so haben die jüngsten Umfragen auch den niedrigsten Rang. Wie man sieht, gibt es einen Ausreißer, nämlich die Umfrage von Infratest/dimap für die ARD vom 4. April. Sie ist besser als alle späteren Umfragen mit Ausnahme derjenigen der Forschungsgruppe Wahlen für das ZDF vom 17. Mai. Die Rangkorrelation (nach Spearman) zwischen Varianz und Datum liegt bei 0,8, das ist schon ziemlich hoch (die maximale Korrelation liegt bei 1,0, bei 0,0 gibt es gar keinen Zusammenhang).
Hinzu kommt auch etwas Glück. Ist die Stichprobe wirklich repräsentativ? Einige Institute wollen das kontrollieren, indem sie die Wahlentscheidung der letzten Wahl abfragen. Es wird dann versucht die Stichprobe so zu gewichten, dass es darin prozentual beispielsweise genauso Wähler gibt, die vor fünf Jahren SPD gewählt haben wie damals tatsächlich für die Sozialdemokraten gestimmt haben. Allerdings funktioniert die Methode nicht besonders gut, denn viele Menschen wissen gar nicht mehr so genau, was sie gewählt haben.
Auffällig ist auch, dass die AfD in fast allen Prognosen überschätzt wurde, ebenso (und noch stärker) die Linkspartei. Denkbar, dass unzufriedene Wähler in Umfragen damit drohen die Radikalen zu wählen, es aber dann doch nicht tun. Oder dass Nichtwähler sich nicht als solche outen, sondern stattdessen oft AfD und Linkspartei nennen. Allerdings müsste man, um eine solche These zu prüfen, mehrere Wahlen ansehen.
Ich dagegen will es für dieses Mal dabei belassen.