Ein Versagen der Umfrageinstitute?

Die Umfrageinstitute haben sich eine ganze Menge Häme anhören müssen. Sie alle sagten unisono einen Sieg Clintons voraus; in den Wahrscheinlichkeitsrechnungen lag die Chance eines Clinton-Sieges zwischen 70% (beim hier recht konservativen 538) bis 99,8% (bei der Huffington Post). Im popular vote führte Clinton in Umfragen rund drei bis vier Prozent, im electoral college mit im Schnitt 300-310 Stimmen. Offensichtlich ist es so nicht gekommen. Zeigt dies aber wirklich ein komplettes Versagen der Demoskopie, wie allenthalben zu lesen war und ist? Oder lässt sich der Unterschied zwischen Vorhersage und Realität erklären, ohne gleich eine völlige Bedeutungslosigkeit der Institute zu postulieren? Tatsächlich scheint mir letzteres der Fall zu sein, und ich will im Folgenden erklären weshalb.
Während des gesamten Wahlkampfs fand zwischen den Aggregartoren - also Seiten, die alle Umfragen sammelten und in ein Modell eingaben, um ein Gesamtbild zu erhalten - ein Methodenstreit statt. Manche Modelle - wie etwa The Upshot oder Crystal Ball - sahen Clinton mit einer stabilen Führung zwischen 300 und 350 Stimmen im electoral college und drei bis fünf Prozent beim popular vote voraus. Andere Modelle - wie etwa das von 538 - arbeiteten mit einer weit größeren Unsicherheitskomponente, was zu wilden Schwüngen führte, von hohen Werten in der 80-90%-Wahrscheinlichkeitsreichweite eines Clintonsiegs bis zu Kopf-an-Kopf-Rennen.
Bevor wir sehen, woher diese Unterschiede kamen, noch kurz ein Wort zu meiner eigenen Position: ich ging während des Wahlkampfs davon aus, dass die statischeren Modelle (also die, die Clinton konsistent in Führung sahen) richtig waren und dass 538 wesentlich zu sensibel auf aktuelle Schlagzeilen reagierte (das klassische horse race), was erfahrungsgemäß wenig Auswirkungen auf das Ergebnis hat. Dies zeigte sich beispielsweise 2012: obwohl die Umfragewerte der Kandidaten teils wild hin- und herschwangen (nach der ersten TV-Debatte führte Romney etwa vor Obama), gewann Obama den Wahlkampf eindeutig. 538 hatte seinerzeit die Rolle übernommen, die in diesem Wahlkampf The Upshot und Crystal Ball spielten: sie erklärten einen permanenten Vorsprung Obamas, der sich am Ende auch bewahrheitete.
Demzugrunde liegt die Idee der so genannten fundamentals: die Wahlentscheidung der meisten Menschen steht bereits lange vor dem Wahltermin fest und wird vor allem durch exogene Faktoren bestimmt, etwa die Lage der Wirtschaft, die Demographie oder die Beliebtheitswerte des Amtsinhabers. Echte Unentschiedene gibt es nicht, stattdessen kommt es vor allem auf die Mobilisierung an. Die im Vergleich zu 2012 eher gestiegene Polarisierung schreibt die Wählerblöcke effektiv fest - und Trump und die Republicans generell schienen hier deutliche Nachteile gegenüber Clinton und den Democrats zu haben.
Relativ kurz vor dem Wahltermin gerieten der Chef von 538, Nate Silver, und der Huffington-Post-Reporter Ryan Grim wegen der Modelle aneinander. Silver erklärte die gigantisch hohe Chance für Clinton "fucking idiotic and unresponsible", während Grim Silver vorwarf, nur die Spannung anheizen zu wollen um Klicks zu generieren. Silvers Argument war im Endeffekt, dass die hohe Zahl an unentschiedenen Wählern (undecideds) akkurate Vorhersagen unmöglich mache, während Grim (und viele andere, etwa das renommierte Umfrageinstitut YouGov) sie für statistischen Lärm hielten ähnlich 2012. Der Streit ließ sich während des Wahlkampfs schlecht auflösen, denn beide Seiten hatten gute Argumente. Silver erklärte, dass die Zahl der undecideds echt war und unter anderem an den Personen Clintons und Trumps hing. Jede Vorhersage war daher deutlich in Gefahr, falsch zu liegen, weswegen der "nur" 65% Siegeschance für Clinton ausgab. YouGov dagegen erklärte, diese Zahlen seien statistische Artefakte und darauf zurückzuführen, dass die Wähler des Kandidaten, der gerade in den Umfragen und Schlagzeilen hinten lag, weniger stark auf Umfragen reagierten, aber trotzdem zur Wahl gingen, was die Schwünge erklären würde.
Wie es scheint, lag doch 538 richtig. Dies war aber, erneut, vor der Wahl nur schwer abzusehen, weil es auch für YouGovs Konkurrenz-Theorie eine ganze Latte von Indizien gab. Die Frustration, die aus vielen 538-Artikeln kurz vor und nach der Wahl spricht, hat ihren Ursprung daher auch nicht darin, dass nicht jeder das Licht gesehen hat und zu ihrem Modell konvertiert ist (eine Regel aller Umfrageinstitute und Aggregatoren ist, dass auf keinen Fall im laufenden Wahlkampf die Methodik geändert wird, weswegen auch offensichtliche Abweichmodelle wie der LA-Times-Poll, der konstant Trump als Gewinner des popular vote ausgab und damit - zu Recht - allein auf weiter Flur war, bei seinem Modell blieb), sondern dass viele Journalisten und Beobachter die Zahlen schlichtweg nicht richtig verstanden. Und an dieser Stelle muss ich mir selbst ebenfalls die Eselsmütze aufziehen und in die Ecke sitzen, denn da habe ich auch ordentlich mitgemischt.
Denn was hat 538 exakt gesagt? Die meiste Zeit sahen sie Clinton mit einer Gewinnchance um die 70%, die gegen Ende auf rund 65% abrutschte. Das klingt natürlich erstmal nach einer sauberen Sache, aber es bedeutet effektiv, dass sie in drei Wahlen zweimal gewinnt. Da aber nur eine Wahl abgehalten wird, hat sie ein echtes Problem, wenn die erste (und einzige) genau die der drei ist, die sie verliert (vereinfacht gesagt). Und genau das ist passiert. 538 lag also bei der Einschätzung der Chancen nicht schlecht. Korinthenkacker könnten jetzt einwenden, dass dasselbe natürlich auch für die 0,2% Chance eines Trump-Siegs beim Huffington-Post-Modell gilt, aber es ist wohl relativ klar, was davon zu halten wäre. Die große Unsicherheit, die 538 dazu führte konsistent Clintons Chancen niedriger anzugeben als praktisch die gesamte Konkurrenz, stammte von den rund 15% der Wähler, die sich als undecideds bezeichneten. Dieser Wert war abnormal hoch, und die meisten Umfrageinstitute gingen davon aus, dass er letztlich ein statistisches Artefakt war, während 538 ihn für bare Münze nahm. Hier spielt bei mir sicher auch die Blase des am Wahlkampf intensiv interessierten Beobachters eine Rolle: ich konnte (und kann bis heute) mir nicht vorstellen, wie jemand bei einer Wahl Clinton gegen Trump ernsthaft unentschieden sein kann. Aber offensichtlich ging es einer ganzen Menge Leute so, und die haben sich mehrheitlich in letzter Minute für Trump entschieden. Warum das so war, wird ein anderer Artikel in näherer Zukunft zu klären versuchen.
Die Frage der Wahrscheinlichkeit eines Sieges wäre damit geklärt - 538 lag mit ihrem Modell richtig(er), die meisten anderen falsch(er). Wenig zutreffend ist das billige Narrativ vom Versagen der Umfragen auch beim popular vote - hier waren die Umfragen sogar exakter als 2012! Vorhersagen lagen direkt vor dem Wahltermin bei einem Clinton-Sieg von rund 3%. Am Ende werden es wohl knapp über 2%. Das ist ungeheuer eng am realen Ergebnis und führt gleichzeitig zu einem ganz anderen Problem, nämlich den Umfragen auf der Bundesstaatenebene. Ein gerade im Vergleich zu 2008 und 2012 überraschend hoher Anteil an Staaten-Umfragen lag ordentlich daneben, und das nicht nur im Rust Belt (Wisconsin, Michigan, Pennsylvania et al) der Trump um Haaresschärfe den Sieg sicherte. Auch wenn es in der Berichterstattung (bisher) kaum eine Rolle spielt, Clinton lag zwar im Rust Belt unter den Voraussagen, in demokratischen Hochburgen wie Kalifornien und New York und im Sun Belt (die Staaten des tiefen Südens wie Arizona, Texas, Georgia et al) aber darüber. Das bringt ihr wenig, weil Kalifornien und New York so oder so demokratisch sind und der Sun Belt immer noch mehrheitlich republikanisch ist (aber Clinton verlor etwa Texas mit "nur" 8% Abstand zu Trump, wo Obama 2016 noch mit 16% Abstand verloren hatte, was eventuell in der Zukunft von Bedeutung sein könnte).
Warum also lagen die Bundesstaaten so daneben? Das hat vor allem zwei Ursachen. Die erste ist furchtbar banal: in vielen Staaten, besonders im entscheidenden Rust Belt, gab es in den Wochen vor der Wahl praktisch keine qualitativ hochwertigen Umfragen mehr, weswegen alle Modelle mit Hochrechnungen aus früheren Umfragen arbeiten mussten. Auch das war übrigens ein Faktor, auf den 538 immer wieder aufmerksam machte, ohne dass es viele Leute - mich eingeschlossen - interessiert hätte. Es scheint aber, als ob bis in den zwei Wochen vor der Wahl die Lage auch noch so hochrechenbar war, denn die Clinton-Wahlkampforganisation (die ja internes Umfragenmaterial hat) wurde erst in diesem Zeitraum plötzlich aktiv. Auch hier wird es an einem zukünftigen Artikel sein, die Gründe zu klären.
Der zweite Grund ist die Korrelation der Bundesstaaten. Auch wenn ich langsam wie eine hängengebliebene Schallplatte klinge: auch auf dieses Fakt hat 538 hingewiesen und damit die große Unsicherheit begründet. Was bedeutet Korrelation der Bundesstaaten? Wenn ein Trend sich in einem Rust-Belt-Staat verschiebt - etwa von Clinton zu Trump - dann verschiebt er sich auch in anderen Staaten mit, die eine kulturelle und geographische Affinität haben. Hat Clinton Probleme in Pennsylvania, dann hat sie auch Probleme in Wisconsin, Michigan und Ohio. Hat Trump Probleme in North Carolina, hat er auch Probleme in Georgia, South Carolina und Texas. Diese Mechanik konnte in den Umfrageschwüngen immer wieder beobachtet werden. Selten einmal verschoben sich nur ein oder zwei Staaten. Verpassten die Umfragen also den Trend in Pennsylvania, verpassten sie ihn auch im restlichen Rust Belt. Und genau das ist geschehen.
Die einzige noch zu klärende Frage ist damit, ob die Schwünge während des Wahlkampfs "echt" waren oder nicht. Statischere Modelle wie The Upshot und Crystal Ball gingen davon aus, dass sie keine realen Wählerwanderungen darstellten, sondern eher Abbild von Meinungen und Gefühlen waren, die aber durch die Polarisation elektoral bedeutungslos waren. Auch gehe ich mit 538: die Schwünge waren wohl echt. Auch hier wird die Begründung noch warten müssen: die Zahlen geben darauf keine eindeutige Antwort. Man sollte aber in jedem Falle die Demoskopie nicht in Bausch und Bogen verdammen. Für die vielen großen Unsicherheitsvariablen in einem inhärent unberechenbaren System (no guarantees in war and politics) waren die Ergebnisse immer noch erstaunlich gut.

Das könnte Ihnen gefallen