Im Jahr 2017 führte BBCs Match of the Day eine neue Statistik in ihren Zusammenfassungen der Premier League-Spiele nach dem Spiel ein. Erwartete Tore oder xG sollen uns sagen, wie viele Tore ein Team basierend auf der Qualität der Chancen, die es in einem Spiel geschaffen hat, hätte erzielen sollen. Es wird von Amateur- und professionellen Statistikern gleichermaßen geliebt, die Daten zur Leistungsanalyse verwenden möchten.
Die BBC verwendet xG regelmäßig in ihrer Berichterstattung über die Premier League, aber diese Metrik fehlte bei der letzten Männer-Weltmeisterschaft sowohl in der BBC- als auch in der ITV-Berichterstattung. Ein kurzer Blick darauf, was xG ist und die Geschichte der Verwendung von Daten zur Vorhersage von Fußballspielen, kann uns einen Einblick geben, warum sie sich entschieden haben, es nicht zu verwenden.
Das Konzept der erwarteten Tore stammt ursprünglich aus Eishockey ist aber leicht auf Fußball übertragbar. xG wird berechnet, indem jeder Schuss eines Teams in einem Spiel betrachtet und ihm eine Wahrscheinlichkeit für ein Tor zugewiesen wird.
Diese Wahrscheinlichkeit wird berechnet, indem Schüsse aus ähnlichen Situationen in historischen Spielen betrachtet und berechnet werden, wie viel Prozent davon zu einem Tor geführt haben. Indem wir die Wahrscheinlichkeiten für alle Schüsse eines Teams addieren, erhalten wir die erwarteten Tore für das gesamte Spiel.
Bedenke die Erste Liga Spiel zwischen Tottenham und Liverpool im November 2022, das Liverpool mit 2:1 gewann. Liverpool erreichte mit 13 Schüssen im Spiel nur einen xG von 1,18, während Tottenham mit 14 Schüssen einen xG von 1,21 erzielte.
Im Interviews nach dem Spiel, behauptete Tottenham-Manager Antonio Conte, dass Tottenham angesichts seiner Leistung Pech hatte, zu verlieren. Eine xG-Scorelinie von 1,21 vs. 1,18 deutet auf ein sehr ausgeglichenes Spiel hin und scheint Contes Argument zu untermauern.
Liverpools Trainer Jürgen Klopp schlug jedoch vor, dass die Qualität von Mohamed Salah, der zwei Tore aus drei Schüssen mit einem kombinierten xG von 0,67 erzielte, den Unterschied in diesem Spiel ausmachte. Dies deckt eine der Hauptschwächen von xG auf. Dabei spielt es keine Rolle, wer Stürmer oder Torhüter ist. Aber reicht diese Schwäche aus, um xG als Ressource für die Vorhersage zukünftiger Spiele unzuverlässig zu machen?
Fußballvorhersage vor xG
Das naheliegendste Datenelement, das bei der Analyse von Fußball verwendet werden sollte, sind Tore. Tatsächlich waren dies die einzigen Informationen, die im Modell von 1997 verwendet wurden Mark Dixon und Stuart Colesdas zukünftige Fußballspiele vorhersagt, indem es jedem Team eine Angriffs- und eine Defensivwertung zuweist.
Die Dixon-Coles-Ratings werden anhand der Anzahl der in früheren Spielen erzielten und kassierten Tore berechnet, wobei die Qualität des Gegners berücksichtigt wird. Die Wertungen zweier verschiedener Mannschaften können zusammen mit einem Heimvorteil kombiniert werden, um das Ergebnis eines bevorstehenden Spiels zwischen ihnen vorherzusagen.
Angesichts der Anzahl der verfügbaren Statistiken im Fußball mag ein Modell, das nur Tore verwendet, um zukünftige Spiele vorherzusagen, bemerkenswert einfach erscheinen, aber seine Wirksamkeit liegt darin, zu verstehen, was eine gute statistische Analyse ausmacht: qualitativ hochwertige Daten und viele davon.
Tore sind die hochwertigsten Daten, die in der Fußballvorhersage verfügbar sind, da sie das Einzige sind, was die Ergebnisse tatsächlich beeinflusst. Dies erklärt, warum andere traditionelle Metriken wie die Anzahl der Schüsse oder der Ballbesitzanteil im Dixon-Coles-Modell nicht verwendet werden.
Ein Schuss kann ein Elfmeter sein, den die Spieler erwarten, oder ein spekulativer Versuch aus der Distanz – beide zählen jedoch gleichermaßen als Torschüsse. Ebenso könnte eine Mannschaft viel Ballbesitz haben, aber nicht in einem Bereich des Spielfelds, der ihr Torchancen bietet.
Bereits 1968, eine statistische Studie konnte keinen Zusammenhang zwischen Schüssen, Ballbesitz oder Passspiel und dem Ausgang von Fußballspielen feststellen. Dies unterstützt die Idee, dass Ziele der einzige Faktor sind, der es wert ist, berücksichtigt zu werden.
Warum könnte xG nützlich sein?
Die Schwäche von Dixon-Coles liegt in der Datenmenge. Dort gab es 1.071 erzielte Tore in der Premier League-Saison 2021/22, was nach viel erscheinen mag. Allerdings sind das nur 2,82 Tore pro Spiel. Um diesem Mangel an Informationen pro Spiel entgegenzuwirken, verwendeten Dixon und Coles Daten aus drei Jahren, um ihre Vorhersagen zu treffen, obwohl die meisten Teams in diesem Zeitraum umfassende Veränderungen im Spiel- und Führungspersonal durchmachten.
Bei der Erhöhung der Datenmenge über einen kürzeren Zeitraum haben xG-Daten einen Vorteil gegenüber Zielen allein. Im Wesentlichen ist es ein Versuch, ein Gleichgewicht zwischen der Qualität der Tordaten und der Menge der schussbasierten Daten zu finden. Dies ist ein klassisches Rätsel in der Statistik, das als bekannt ist Bias-Varianz-Kompromiss.
Nehmen Sie das zuvor erwähnte Spiel Liverpool gegen Tottenham. Die drei erzielten Tore sind die einzigen Informationen, die das Dixon-Coles-Modell aus diesem Spiel extrahieren kann, während ein xG-basiertes Modell Informationen aus allen 27 Schüssen erhalten würde – mit der zusätzlichen Qualität, dass es einen Hinweis darauf gibt, wie wahrscheinlich diese Schüsse sind zu einem Tor führen sollten. Die Nichtberücksichtigung, wer an einem Schuss beteiligt ist, schränkt jedoch die Qualität dieser xG-Daten ein.
Obwohl es 25 Jahre alt ist, ist das Dixon-Coles-Modell immer noch der Goldstandard der Fußballvorhersage, wie in zu finden ist diese Studie von 2022. Während xG gute Informationen über die Spielbalance in einem einzelnen Spiel liefert, hat sich kein xG-Modell als Dixon-Coles überlegen erwiesen, wenn es um die Vorhersage der Zukunft geht.
Bis es so weit ist, bleiben Zweifel an seinen Schwächen und tatsächliche Ziele müssen ihren Platz als einzig wirklich verlässlicher Indikator dafür behalten, wie gut eine Mannschaft ist.
Dieser Artikel wird neu veröffentlicht von Die Unterhaltung unter einer Creative-Commons-Lizenz. Lies das originaler Artikel.