Dixon & Coles: Methodik
Unsere Prognose basiert auf dem Modell von Dixon und Coles (Dixon & Coles, 1997, „Modelling Association Football Scores and Inefficiencies in the Football Betting Market", Journal of the Royal Statistical Society: Series C, 46(2), 265–280). Es schätzt für jede Mannschaft eine Angriffs- und eine Abwehrstärke aus tausenden vergangener Länderspiele und sagt damit für jede mögliche Paarung die Wahrscheinlichkeit jedes einzelnen Spielergebnisses voraus.
Schritt 1: Datengrundlage
Grundlage sind alle verfügbaren Länderspiele der Nationalmannschaften. Berücksichtigt werden nur offizielle Spiele mit bekanntem Endstand. Spiele ohne Ergebnis, Nachwuchs- und Frauenpartien sowie nicht-internationale Begegnungen werden ausgeschlossen. Freundschaftsspiele fließen mit halbem Gewicht ein, weil die Mannschaften dort unregelmäßig mit Bestbesetzung und mit voller Ernsthaftigkeit spielen und ein Testspielergebnis daher nur bedingt etwas über die Stärke einer Mannschaft aussagt im Vergleich zu einem Pflichtspiel.
Schritt 2: Zeitliche Gewichtung
Ein Sieg aus dem letzten Monat sagt mehr über die heutige Stärke einer Mannschaft aus als ein Sieg vor zehn Jahren. Deshalb diskontieren wir jedes Spiel mit einer von Dixon und Coles vorgeschlagenen Funktion. Dabei ist Δt der zeitliche Abstand des Spiels zum aktuellen Stichtag:
Gewicht = exp(−0,0015 · Δt)
Das aktuellste Spiel erhält ein Gewicht von 1. Je weiter das Spiel zurückliegt, desto kleiner wird das Gewicht. Mit zunehmendem Alter sinkt das Gewicht stetig ab. Das Gewicht halbiert sich etwa alle 460 Tage, also nach gut 1,3 Jahren. Ein Spiel, das rund 3,5 Jahre zurückliegt, zählt nur noch zu etwa 14%. Das Zeitgewicht und das Freundschaftsspiel-Gewicht aus Schritt 1 werden miteinander multipliziert.
Schritt 3: Das Dixon-Coles-Modell
Wir schätzen unser Modell mit den zuvor beschriebenen gewichteten Daten. Aus dieser Schätzung ergeben sich alle weiteren Wahrscheinlichkeiten.
3.1: Angriffs- und Abwehrstärke
Jede Mannschaft erhält zwei Kennzahlen: eine Angriffsstärke (wie viele Tore sie tendenziell erzielt) und eine Abwehrstärke (wie wenige Tore sie tendenziell zulässt). Diese Parameter werden mit Hilfe von Maximum-Likelihood so geschätzt, dass die historisch beobachteten Ergebnisse die maximale Wahrscheinlichkeit haben.
3.2: Heim- und Gastgeber-Effekt
Aus den Daten schätzt das Modell zwei getrennte Standort-Effekte: einen allgemeinen Heimvorteil, wenn eine Mannschaft im eigenen Land spielt und einen gesonderten Gastgeber-Effekt, wenn eine Mannschaft ein Turnier ausrichtet. Eine Weltmeisterschaft wird für fast alle Mannschaften auf neutralem Boden gespielt. Daher gibt es für die Prognose keinen klassischen Heimvorteil für eine Mannschaft. Lediglich die drei Gastgeber USA, Kanada und Mexiko erhalten den gesondert geschätzten Gastgeber-Effekt.
3.3: Erwartete Tore
Für eine konkrete Paarung werden aus Angriff, Abwehr und Standort-Effekt die Erwartungswerte für die Tore beider Mannschaften berechnet. Auf der logarithmischen Skala gilt (vereinfacht):
log(λTeam) = c + AngriffTeam − AbwehrGegner (+ Gastgeber-Effekt, falls das Team Gastgeber ist)
log(λGegner) = c + AngriffGegner − AbwehrTeam (+ Gastgeber-Effekt, falls der Gegner Gastgeber ist)
c ist eine gemeinsame Konstante, nämlich die durchschnittlichen Tore die in einem Spiel pro Team geschossen werden. λTeam und λGegner sind die erwarteten Toranzahlen beider Mannschaften.
3.4: Poisson-Basismodell
Im ersten Schritt nehmen wir an, dass die Tore beider Mannschaften unabhängig poissonverteilt sind. Die Wahrscheinlichkeit, dass die eine Mannschaft x Tore und die andere y Tore erzielt, ist dann das Produkt zweier Poisson-Wahrscheinlichkeiten mit den Erwartungswerten aus Schritt 3.3.
3.5: Dixon-Coles-Korrektur für niedrige Ergebnisse
Reine Unabhängigkeit unterschätzt in der Realität bestimmte knappe Ergebnisse, insbesondere torarme Unentschieden wie 0:0 und 1:1. Dixon und Coles führen deshalb eine Korrektur ein, die ausschließlich die vier niedrigsten Ergebnisse anpasst. Mit dem geschätzten Abhängigkeitsparameter ρ und den Erwartungswerten λTeam und λGegner gilt:
τ(0,0) = 1 − λTeam · λGegner · ρ
τ(0,1) = 1 + λTeam · ρ
τ(1,0) = 1 + λGegner · ρ
τ(1,1) = 1 − ρ
τ(x,y) = 1 für alle anderen Ergebnisse
Die Wahrscheinlichkeit eines konkreten Ergebnisses ist dann das mit τ korrigierte Produkt der beiden Poisson-Wahrscheinlichkeiten. ρ ist ein einziger, global geschätzter Wert. Für Ergebnisse mit mehr als einem Tor je Mannschaft bleibt das Modell ein reines Doppel-Poisson-Modell.
3.6: Ergebnis-Wahrscheinlichkeitsmatrix
Für jede mögliche Paarung wird so eine Tabelle aufgespannt, die jedem Endstand von 0:0 bis 10:10 eine Wahrscheinlichkeit zuordnet (eine 11×11-Matrix). Diese Matrix beschreibt eine Begegnung vollständig: Aus ihr lassen sich Sieg-, Unentschieden- und Niederlagewahrscheinlichkeit ebenso ablesen wie die Wahrscheinlichkeit jedes einzelnen Ergebnisses. Diese Matrizen werden für alle möglichen Begegnungen einmal vorab berechnet, damit die anschließende Turniersimulation sehr schnell läuft.
Schritt 4: Turniersimulation
4.1: Gruppenphase
Die 48 Mannschaften sind in 12 Gruppen zu je 4 Mannschaften eingeteilt. Jede Mannschaft spielt gegen die drei anderen ihrer Gruppe, das ergibt 6 Spiele pro Gruppe und insgesamt 72 Gruppenspiele. Für jedes Spiel wird aus der zugehörigen Ergebnis-Matrix ein konkreter Endstand entsprechend der dort hinterlegten Wahrscheinlichkeiten zufällig gezogen. Es gibt drei Punkte für einen Sieg, einen Punkt für ein Unentschieden und keinen Punkt für eine Niederlage.
4.2: Gruppentabelle aufstellen
Nach den sechs Spielen einer Gruppe wird die Tabelle gebildet. Bei Punktgleichheit entscheidet zuerst die Tordifferenz, dann die Zahl der erzielten Tore; bleibt es danach gleich, entscheidet bei uns eine Zufallsauswahl, da wir beiispielsweise Gelbe Karten nicht simulieren. Pro Gruppe qualifizieren sich der Erste und der Zweite direkt für die K.O.-Runde.
4.3: Die acht besten Gruppendritten ermitteln
Insgesamt ziehen 32 Mannschaften ins Sechzehntelfinale ein. Neben den 24 direkt Qualifizierten werden also noch 8 weitere Mannschaften. Diese gehen an die 8 besten Drittplatzierten aller 12 Gruppen. Verglichen werden zuerst die Punkte, dann die Tordifferenz, dann die erzielten Tore.
4.4: K.O.-Runde durchspielen
Ab dem Sechzehntelfinale geht es im Ausscheidungsmodus weiter: Sechzehntelfinale, Achtelfinale, Viertelfinale, Halbfinale und Finale. Jedes K.O.-Spiel wird wie ein Gruppenspiel aus der Ergebnis-Matrix gezogen. Endet ein Spiel unentschieden, muss eine Entscheidung fallen: Das Elfmeterschießen wird abgeschwächt anhand der Spielstärke entschieden.
Aus der Ergebnis-Matrix wird die Sieg-Wahrscheinlichkeit p der einen Mannschaft (ohne Unentschieden) bestimmt; die Wahrscheinlichkeit, dass sie das Elfmeterschießen gewinnt, ist dann pElfmeter = 0,5 + (p − 0,5) / 2. Bei gleich starken Mannschaften bleibt es damit bei 50:50, bei einem klaren Favoriten steigt seine Wahrscheinlichkeit auf höchstens 75 Prozent.
Schritt 5: Monte Carlo Simulation
Ein einzelnes durchgespieltes Turnier ist nur eine Zufallsziehung von unendlich vielen. Eine belastbare Aussage entsteht erst durch viele Wiederholungen. Wir simulieren das gesamte Turnier daher 100.000 mal. Für jede Mannschaft zählen wir, in wie vielen dieser Turniere sie eine bestimmte Runde erreicht. Der Anteil der Turniere, in denen eine Mannschaft eine Runde erreicht, ist ihre geschätzte Wahrscheinlichkeit für diese Runde.
Schritt 6: Prognose anzeigen
Am Ende erhalten wir für jede der 48 Mannschaften die Wahrscheinlichkeit, Gruppensieger zu werden, das Sechzehntelfinale, Achtelfinale, Viertelfinale, Halbfinale und Finale zu erreichen sowie Weltmeister zu werden. Diese Wahrscheinlichkeiten bilden unsere offizielle Prognose.
Worin sich Prognose und Simulation unterscheiden
Die interaktive Simulation arbeitet mit der Elo-Zahl und lässt Sie zahlreiche Parameter selbst einstellen. Die Simulation ist zum Ausprobieren und Verstehen gedacht. Unsere Prognose arbeitet mit dem Dixon-Coles-Modell, schätzt Angriffs- und Abwehrstärke jeder Mannschaft direkt aus historischen Daten und kennt keine einstellbaren Regler. Sie ist auf eine möglichst belastbare Vorhersage ausgelegt.
Hinweis zur Interpretation
Auch eine sorgfältig geschätzte Prognose bleibt eine Wahrscheinlichkeitsaussage und keine Vorhersage des tatsächlichen Verlaufs. Dass eine Mannschaft als Favorit gilt, bedeutet nicht, dass sie gewinnen wird. Fußball lebt gerade von den Überraschungen, die das Modell als seltene, aber durchaus mögliche Welten mit abbildet. Das Modell kennt zudem nur, was in den Ergebnissen vergangener Spiele steckt: Verletzungen, Kaderveränderungen, Tagesform oder Trainerwechsel kann es nur insoweit berücksichtigen, wie sie sich bereits in jüngeren Resultaten niedergeschlagen haben.
Unser Code
Das Projekt steht online auf https://github.com/mschalberger/WC26-Prediction.git zur Verfügung.