Pourquoi les objectifs réels restent rois pour prédire qui va gagner

Une equipe de recherche internationale cree des composes azotes jusque la

En 2017, le match du jour de la BBC a introduit une nouvelle statistique dans ses résumés d’après-match des matchs de Premier League. Les buts attendus, ou xG, sont conçus pour nous dire combien de buts une équipe aurait dû marquer en fonction de la qualité des chances qu’elle a créées dans un match. Il est apprécié des statisticiens amateurs et professionnels qui souhaitent utiliser des données pour analyser les performances.

La BBC utilise régulièrement xG dans sa couverture de la Premier League, mais cette mesure était absente de la couverture de la BBC et d’ITV lors de la récente Coupe du monde masculine. Un bref aperçu de ce qu’est xG et de l’historique de l’utilisation des données pour prédire les matchs de football peut nous donner un aperçu des raisons pour lesquelles ils ont décidé de ne pas l’utiliser.

Le concept d’objectifs attendus vient à l’origine de hockey sur glace mais est facilement applicable au football. xG est calculé en examinant chaque tir qu’une équipe a pris dans un match et en lui attribuant une probabilité d’être marqué.

Cette probabilité est calculée en examinant les tirs de situations similaires lors de matchs historiques et en calculant le pourcentage d’entre eux qui ont abouti à un but. En additionnant les probabilités pour tous les tirs d’une équipe, nous obtenons les buts attendus pour l’ensemble du match.

Prendre en compte première ligue match entre Tottenham et Liverpool en novembre 2022, que Liverpool a remporté 2-1. Liverpool n’a réalisé qu’un xG de 1,18 sur 13 tirs dans le match, tandis que Tottenham a réussi un xG de 1,21 sur ses 14 tirs.

Dans le entretiens d’après-match, le manager de Tottenham, Antonio Conte, a affirmé que Tottenham n’avait pas eu de chance de perdre compte tenu de ses performances. Une ligne de score xG de 1,21 contre 1,18 suggère un jeu très égal et semblerait étayer le point de Conte.

Cependant, le manager de Liverpool, Jürgen Klopp, a suggéré que la qualité de Mohamed Salah, qui a marqué deux buts sur trois tirs avec un xG combiné de 0,67, était la différence dans ce match. Cela expose l’une des principales faiblesses de xG. Il ne tient pas compte de qui est l’attaquant ou le gardien de but. Mais cette faiblesse est-elle suffisante pour rendre xG peu fiable en tant que ressource pour prédire les futurs jeux ?

Prédiction de football avant xG

La donnée évidente à utiliser lors de l’analyse du football est celle des buts. En fait, c’était la seule information utilisée dans le modèle de 1997 de Mark Dixon et Stuart Colesqui prédit les futurs matchs de football en attribuant à chaque équipe une note offensive et défensive.

Les notes Dixon-Coles sont calculées en fonction du nombre de buts marqués et encaissés lors des matchs précédents, en tenant compte de la qualité de l’opposition. Les notes de deux équipes différentes, ainsi qu’un avantage à domicile, peuvent être combinées pour prédire le score d’un match à venir entre elles.

Compte tenu du nombre de statistiques disponibles dans le football, un modèle qui n’utilise que des buts pour prédire les matchs futurs peut sembler remarquablement simple, mais son efficacité réside dans la compréhension de ce qui fait une bonne analyse statistique : des données de haute qualité, et en grande quantité.

Les buts sont les données de la plus haute qualité disponibles dans les prévisions de football, car ils sont la seule chose qui affecte réellement les résultats. Cela explique pourquoi d’autres mesures traditionnelles telles que le nombre de tirs ou le pourcentage de possession ne sont pas utilisées dans le modèle Dixon-Coles.

Un tir peut être un penalty, que les joueurs s’attendent à marquer, ou un effort spéculatif à distance, mais les deux comptent également comme des tirs au but. De même, une équipe peut avoir beaucoup de possession mais pas dans une zone du terrain qui lui donne des chances de marquer des buts.

Dès 1968, une étude statistique n’a pu trouver aucun lien entre les tirs, la possession ou les passes et les résultats des matchs de football. Cela soutient l’idée que les objectifs sont le seul facteur qui mérite d’être pris en compte.

Pourquoi xG pourrait-il être utile ?

La faiblesse de Dixon-Coles réside dans la quantité de données. Il y avait 1 071 buts marqués dans la saison de Premier League 2021/22, ce qui peut sembler beaucoup. Cependant, ce n’est que 2,82 buts par match. Pour contrer ce manque d’informations par match, Dixon et Coles ont utilisé trois années de données pour faire leurs prédictions, bien que la plupart des équipes aient subi des changements massifs dans le personnel de jeu et de gestion au cours de cette période.

L’augmentation de la quantité de données sur une échelle de temps plus courte est l’endroit où les données xG ont un avantage sur les objectifs seuls. Il s’agit essentiellement d’une tentative de trouver un équilibre entre la qualité des données sur les buts et la quantité de données basées sur les tirs. Il s’agit d’une énigme classique dans les statistiques connue sous le nom de compromis biais-variance.

Prenez le match Liverpool contre Tottenham mentionné plus tôt. Les trois buts marqués sont les seules informations que le modèle Dixon-Coles peut extraire de ce match, alors qu’un modèle basé sur xG obtiendrait des informations sur les 27 tirs effectués, avec la qualité supplémentaire d’avoir une indication de la probabilité de ces tirs. devait déboucher sur un but. Cependant, ne pas tenir compte de qui est impliqué dans un tir limite la qualité de ces données xG.

Bien qu’il ait 25 ans, le modèle Dixon-Coles est toujours l’étalon-or de la prédiction de football, comme on le trouve dans cette étude de 2022. Alors que xG fournit de bonnes informations sur l’équilibre du jeu dans un seul match, aucun modèle xG ne s’est avéré supérieur à Dixon-Coles pour prédire l’avenir.

Jusqu’à ce que cela se produise, des doutes sur ses faiblesses subsisteront et les objectifs réels doivent conserver leur place en tant que seul indicateur vraiment fiable de la qualité d’une équipe.

Fourni par La Conversation

Cet article est republié de La conversation sous licence Creative Commons. Lis le article original.

ph-tech