Un examen de l'utilisation des données de football pour analyser les coups francs et les pénalités.
21 mai 2008. Moscou. La pluie tombe sur le stade Luzhniki alors que John Terry s'apprête à tirer le penalty qui remportera la Ligue des champions pour la première fois de l'histoire de Chelsea.
POSTE !
Cette nuit fatidique à Moscou est surtout connue pour le visage strié de pluie et de larmes du capitaine de Chelsea alors que les joueurs de Manchester United s'éloignent avec joie après avoir remporté le trophée européen tant convoité. On se souvient moins bien de l'ami proche et conseiller du manager de Chelsea Avram Grant : le professeur espagnol Ignacio Palacios Huerta.
Huerta, surnommé «le médecin des pénalités» pour son travail sur le lien entre la théorie des jeux économiques et les tirs au but, a fourni des informations inestimables au manager de Chelsea avant le match. Tout d'abord, il avait observé que le gardien de United Edwin Van der Sar avait historiquement affiché une forte tendance à plonger sur sa droite. Deuxièmement, Cristiano Ronaldo a tendance à tirer sur les gardiens juste au moment où il bégaie dans sa course. Avant que Terry ne rate son penalty décisif, 4 joueurs de Chelsea ont réussi à marquer sur la gauche de Van der Sar. Lorsque Ronaldo a bégayé lors de son élan, le gardien de Chelsea Petr Cech est resté immobile, avant de plonger sur sa droite et de sauver l'effort de l'attaquant portugais.
Ce passage du jeu capture l'essence de l'utilisation des données dans le football. Les données peuvent être utilisées pour repérer les tendances et informer les joueurs d'agir d'une manière qui donne à une équipe un avantage concurrentiel sur son adversaire. Les données ne peuvent pas expliquer que John Terry ait glissé par une nuit pluvieuse à Moscou et tiré son penalty contre le poteau. Le football est un jeu aux marges fines : deux pouces plus loin à gauche et les conseils de Huerta auraient été critiques à Chelsea célébrant la plus belle soirée de son histoire. Parfois, votre chance n'est pas au rendez-vous. Quand il pleut, ça se déverse…
Mise en scène
Ce blog fournit une introduction au travail et à l'analyse des données de football. Il se concentre sur l'utilisation des données d'événements et de matchs de StatsBomb pour analyser et présenter des coups de pied arrêtés directs. La question clé posée est de savoir si un lecteur peut détecter visuellement des modèles dans les efforts sur coups de pied arrêtés, en vue de fournir aux gardiens de but et aux défenseurs des informations sur la façon de se préparer face à certains joueurs.
Un coup franc est défini comme un mouvement soigneusement organisé et pratiqué dans un jeu d'équipe par lequel le ballon est remis en jeu, comme sur un corner ou un coup franc. Les coups de pied arrêtés sont une partie vitale du football moderne; les chiffres sur le pourcentage de buts totaux marqués sur coups de pied arrêtés vont de 53% lors de la Coupe du Monde de la FIFA 2018 à 25 à 33% au cours d'une saison selon cet article de Ted Knutson de StatsBomb. Incidemment, dans les données de la Super League féminine que nous explorerons plus tard, le chiffre est de 46,13 % pour la saison 2018/19 et de 45,16 % pour la première moitié de la saison 2019/20.
Même à l'extrémité inférieure de ces chiffres, un étonnant 1 but sur 4 marqués est attribuable à des coups de pied arrêtés. De plus, une analyse comprenant un article du Telegraph suggère que leur importance dans le football de Premier League est sur une trajectoire ascendante (pas tout à fait Beckham contre la Turquie à l'Euro 2004, mais progressivement à la hausse).
Sur une trajectoire similaire, le nombre de clubs de football utilisant des données dans le cadre de leur stratégie de jour de match, tactique et à long terme. Progressivement, de plus en plus d'équipes se tournent vers l'analyse de données pour prendre l'avantage sur la concurrence. Cela peut être en utilisant des données pour cibler des types spécifiques de joueurs pour un repérage plus approfondi, comprendre les modèles de billetterie pour maximiser les revenus du jour de match ou en analysant les données de performance pour piloter de nouvelles tactiques, des scénarios d'entraînement ou des routines de pièces fixes (pensez au " train d'amour " du coin de Southgate routine à Russie 2018).
Ce blog utilise les ensembles de données accessibles au public de StatsBomb. Ces ensembles de données sont une ressource fantastique pour les amateurs et les fans de statistiques de football pour explorer une énorme quantité de données réelles sur les événements de match. Les données ont été étudiées pour la première fois au cours de l'été, lorsque StatsBomb a publié les 12 premières saisons des données de match de Lionel Messi en Liga. Si vous n'avez jamais travaillé avec ce type de données auparavant, cela peut être assez écrasant en termes de nombre de métriques et de granularité des événements collectés. Il offre une énorme quantité d'opportunités, au risque de ne pas savoir par où commencer...
Pour cette raison, il est d'autant plus important de commencer votre analyse par une question à répondre ou une hypothèse à tester. Cela fournit une direction immédiate à votre analyse, bien qu'il soit également probable que, sur le chemin de la réponse à la question initiale, vous découvriez des réponses à des questions auxquelles vous n'aviez pas pensé avant de partir - pensez aux " inconnues inconnues " de Donald Rumsfeld.
Dans cette analyse, j'ai commencé par une question assez ouverte : "Pouvez-vous détecter visuellement des schémas dans les efforts du joueur sur coup de pied arrêté au but ?" Reformulé comme une hypothèse, cela pourrait s'écrire comme suit : si nous visualisons les données sur les coups de pied arrêtés, nous pouvons détecter des modèles et indiquer aux gardiens de but où les joueurs sont susceptibles de viser leurs tirs à partir de certaines positions.
Travailler avec les données de football
Au moment de la rédaction de cet article, 2 des ensembles de données de StatsBomb ont retenu mon attention : la biographie de données de Lionel Messi (chacun des matchs de Messi en Liga pour Barcelone) et les données de match de la Super League féminine (WSL) pour 2018/19 et la première moitié de 2019/20.
Le moyen le plus simple d'accéder aux données publiques de StatsBomb consiste à utiliser leur package R, qui possède des fonctions pratiques pour permettre aux utilisateurs de travailler avec les données dans un format relativement propre. R est un langage de programmation statistique qu'il est préférable d'utiliser en tandem avec R Studio ; une interface utilisateur graphique propre qui rend l'utilisation de R conviviale. Je ne répéterai pas les fonctions pour obtenir les données ici, mais Euan Dewar a écrit une excellente introduction dans ce document .
Lors de l'analyse de la première tranche de données Messi cet été, je me suis contenté d'utiliser les packages populaires " tidyverse " pour analyser les données dans R afin de créer la carte thermique positionnelle ci-dessous. L'avantage de cette méthode était que le package graphique préféré de R, "ggplot2", m'a permis d'analyser les données et de personnaliser l'apparence de l'intrigue jusque dans les moindres détails. L'inconvénient était que cela prenait beaucoup de temps pour le script et j'étais tellement concentré sur la création de la visualisation unique que je n'avais pas la flexibilité d'explorer d'autres histoires qui auraient pu émerger des données.
J'ai donc décidé de sortir de R à cette occasion. Une fois que j'ai filtré les données dans R selon les paramètres appropriés et aplati quelques listes imbriquées, j'ai exporté les données de R au format csv, deux fichiers (données d'événement et données de match) pour les données Messi et deux pour les données WSL. Les données Messi avaient une taille de 1,2 Go, WSL était de 394 Mo. Je ne conseillerais pas d'essayer d'ouvrir l'un ou l'autre de ces fichiers dans Excel. Pour travailler efficacement avec des données de cette taille, sans les frustrations des temps de traitement extrêmement longs, des ordinateurs portables très chauds et bruyants et des pannes prévisibles et imprévisibles, vous devez regarder en dehors de la familiarité des tableaux croisés dynamiques et des graphiques Excel.
La plupart des outils traditionnels de Business Intelligence/Analytics vous permettront de travailler avec cette taille de données sans pertes de performances majeures. Ayant travaillé avec trois d'entre eux ( Tibco Spotfire , Microsoft Power BI et Tableau ) dans le cadre de mon travail pendant plusieurs années, mon premier port d'escale pour explorer et visualiser les données est Tableau. En termes d'analyse visuelle, le processus d'utilisation d'attributs pré-attentifs tels que la couleur, la taille et la forme pour percevoir visuellement les modèles dans les données, la philosophie et l'interface glisser-déposer de Tableau lui permettent de se démarquer de la concurrence en matière d'analyse et de compréhension. données. Pour explorer Tableau par vous-même, rendez-vous sur Tableau Public et téléchargez une version gratuite pour commencer à jouer avec les données.
Avant de charger les fichiers .csv dans Tableau Desktop (où l'analyse et la visualisation ont lieu), j'ai utilisé Prep, l'outil visuel Extract Transform & Load (ETL) de Tableau, afin de nettoyer quelques-unes des colonnes des données StatsBomb. Cette étape nous permet également de jeter un premier coup d'œil à la "forme" des données - une compréhension du type de données dans chaque colonne (chaîne/numérique/date) et la distribution des valeurs en groupes ou en compartiments dans un histogramme.
Alors que Prep devient de plus en plus avancé dans ses fonctionnalités, je l'ai principalement utilisé dans ce cas pour renommer des colonnes (par exemple 'type.name' > 'Event Type') et supprimer des colonnes ID (réduisant l'ensemble de données de près de 200 colonnes à 133 colonnes) . Cela a rendu l'ensemble de données beaucoup plus efficace et également plus intuitif à utiliser dans Tableau Desktop. J'ai également joint les données d'événement au fichier de données de correspondance et exporté le résultat sous la forme d'un fichier ".hyper" (le moteur de données en mémoire de Tableau optimisé pour interroger de grands ensembles de données).
Une fois les données préparées et prêtes à l'emploi, je les ai chargées dans Tableau Desktop et j'ai entrepris d'explorer la réponse à ma question.
Explorer les données
L'analyse terminée prend la forme d'un tableau de bord, dans lequel l'utilisateur peut filtrer pour voir la carte des coups d'un certain joueur, saison, type de coup franc, résultat et minute du match. Le tableau de bord lui-même est composé d'une "carte des tirs" qui affiche l'emplacement final du tir par rapport au but, la position du coup franc et un tableau de statistiques comprenant un taux de réussite des tirs (buts/tirs) et un xG différentiel de tirs (buts marqués - buts attendus).
Il y a un risque lors de la visualisation des données de football que vous affichiez tout et donc ne communiquiez rien. L'état de la visualisation des données dans le football s'améliore, même si vous parcourez les flux Twitter et les forums en ligne, il y a toujours une tendance à encombrer les visuels en encodant des points de données en utilisant toutes les formes, tailles et couleurs. Il existe une tendance similaire à sur-visualiser les cartes de position, de contact et de passage. Il est extrêmement important de viser la simplicité et de réduire au minimum les « déchets graphiques » pour communiquer efficacement les résultats et les idées.
En gardant le tableau de bord aussi propre et simple à utiliser que possible, le lecteur peut se concentrer sur l'identification des modèles affichés par les prises de vue. Il existe un schéma de couleurs rouge/ambre/vert (RAG) pour les tirs avec buts, enregistrés et hors cible qui s'applique à la fois à l'emplacement de la pièce arrêtée et à l'emplacement de la fin du tir, créant un lien visuel entre les deux. Couchée derrière l'emplacement de l'extrémité du tir, une carte thermique calcule si l'extrémité du tir tombe à droite/au milieu/à gauche du but et dans la moitié supérieure/inférieure du but pour aider l'utilisateur à identifier les groupes de tirs.
Ce premier exemple examine les efforts de coup franc au but de l'international anglais Steph Houghton. Il devient rapidement clair qu'elle a une préférence pour le tir vers le côté gauche du but, bien que ses deux buts sur coups francs soient répartis dans des positions presque identiques en bas à droite et en bas à gauche du but. De la position du coup franc, nous pouvons également déduire que Houghton est plus susceptible de prendre des coups francs positionnés à gauche du centre. Étant donné qu'elle est du pied gauche, son style de tir est susceptible d'être des efforts de balancement de la gauche du centre vers le côté gauche du but.
Tout ce qui précède pourrait être déduit par un éclaireur attentif chargé de comprendre la technique de tir de Houghton et de regarder les vidéos des buts, mais l'utilisation de la visualisation des données permet une évaluation visuelle plus rapide de tous les efforts de Houghton. Il offre également la possibilité de comprendre les schémas des coups de pied arrêtés d'un éventail beaucoup plus large de joueurs en un seul clic.
Passons maintenant à l'attention sur les pénalités. Contrairement aux coups francs, ceux-ci proviennent d'une position fixe et d'une situation 1 contre 1. Il n'y a pas de mur à craindre et il n'y a que 12 mètres entre le ballon et la ligne de but. On s'attend donc à ce que le joueur marque et c'est une surprise lorsqu'un gardien de but effectue un arrêt ou que le joueur rate. Cependant, les joueurs manquent toujours et les gardiens de but font des arrêts. Le xG de StatsBomb de 0,76 en déduit que la probabilité qu'un joueur ne marque pas est d'environ une fois toutes les 4 pénalités.
Grâce aux données, nous pouvons conseiller les gardiens de but sur les habitudes de pénalité des différents joueurs. Vous trouverez ci-dessous la carte de tir d'un autre international anglais, Nikita Parris. Elle a pris et marqué 4 pénalités au cours de la saison 2018/19, qui sont toutes allées vers l'extrême gauche du but à une hauteur moyenne. Ce n'est pas une preuve absolue que sa prochaine pénalité tombera au même endroit, mais cela donne à la gardienne adverse une idée de sa préférence. Cette information pourrait être utilisée par le gardien pour plonger dans une direction particulière avec plus de conviction, empêchant un but. Parris pourrait bien placer son prochain penalty à droite, mais la connaissance de cette tendance pourrait donner à la gardienne une meilleure chance de faire un arrêt si elle continuait sa forme récente.
L'utilisation des données WSL nous a fourni seulement 2 saisons de données, mais que se passerait-il si nous avions plus de tirs et de pénalités à notre disposition. StatsBomb a publié chacun des matchs de Lionel Messi en Liga au cours des 6 derniers mois, alors examinons maintenant les pénalités de Messi. Lors de ces matches, Messi a pris 64 pénalités et en a marqué 52, avec un taux de réussite de 81%. Cela fait de lui un tireur de penalty décent, mais pas exceptionnel (Eden Hazard et Cristiano Ronaldo sont tous les deux dans les 90%).
C'est là que l'analyse visuelle interactive décode une tendance qui n'est pas visible sur une seule vue. Depuis le début de la saison 2015/16, le taux de réussite de Messi est passé en dessous du taux de 76 % (0,76 xG) qui est considéré par le modèle de StatsBomb comme la chance moyenne de marquer un penalty.
Ajuster le filtre entre 0-45 minutes et 45-90+ minutes dévoile une autre découverte intéressante. En première mi-temps, 100% des pénalités de Messi tombent dans la moitié inférieure du but et son taux de réussite tombe à seulement 63%. En deuxième mi-temps, son taux de réussite grimpe à 69% et 9 tirs sur 14 sont dans ou au-dessus de la moitié supérieure du but (dont 1 au-dessus de la barre). Un peu moins de la moitié (42 %) visent le coin supérieur droit du but. Cela pourrait être dû au fait que Messi se sentait plus à l'aise et à l'écoute du jeu au moment où la seconde mi-temps arrive, lui donnant la confiance nécessaire pour viser ses pénalités dans la moitié supérieure du but (sans doute une entreprise plus risquée compte tenu de la possibilité que cela se passe au-dessus de la barre).
Comme pour les exemples de Nikita Parris et Steph Houghton, il ne s'agit pas d'une prédiction garantie de l'endroit où ira le prochain penalty de Messi, mais les données permettent une discussion avec le gardien de but en défense sur où se placer et dans quelle direction plonger en fonction du contexte et du timing. de la peine.
En effet, l'utilisation croissante des données pour conseiller les équipes en défense ou en attaque pose une discussion psychologique intéressante. Un gardien de but ferait-il vraiment confiance aux données historiques lorsqu'il doit défendre un coup de pied décisif dans la dernière minute d'un match, ou reviendrait-il à son instinct? Les attaquants commenceront-ils à ajuster leur style en sachant que les gardiens pourraient connaître leurs schémas de frappe ? Peut-être que plus de joueurs suivront la technique réussie qu'Eden Hazard et Jorginho ont tous deux montrée dans laquelle ils lèvent la tête pour identifier dans quelle direction le gardien plonge juste avant de frapper le ballon.
Conclusion
Cette analyse visait à répondre à cette question à l'aide des données de StatsBomb : "Pouvez-vous détecter visuellement des tendances dans les efforts du joueur sur coup de pied arrêté ?" . Je pense qu'il est raisonnable de conclure qu'en utilisant des visualisations de données efficaces et à travers les études de cas sélectionnées, il est en effet possible d'utiliser la détection visuelle de motifs pour observer les tendances des coups de pied arrêtés et ainsi conseiller les gardiens de but sur le positionnement et la direction de plongeon en fonction du tireur de coups de pied arrêtés.
La principale limite de cette analyse était la quantité de données recueillies. J'ai rapidement découvert avec les données de la WSL que seuls 3 ou 4 joueurs avaient suffisamment de données collectées sur 1,5 saison pour tirer des conclusions raisonnables quant à savoir s'ils avaient une position privilégiée à viser dans le but. Heureusement, cette étude était basée sur des données librement disponibles et des sociétés telles que StatsBomb suivent des informations sur les pièces de jeu dans toutes les ligues majeures, ce qui signifie que les clubs qui paient pour ces données pourront analyser à l'aide d'un échantillon plus complet.
D'autre part, l'analyse des pénalités de Messi sur une période de 15 ans a rendu difficile la production de conclusions efficaces jusqu'à ce que les données soient filtrées jusqu'aux 4 à 5 dernières saisons. On peut dire qu'en appliquant ce filtre, nous rendons l'analyse plus pertinente de toute façon, car le Messi d'aujourd'hui est très différent du Messi du début au milieu des années 2000.
Pour aller plus loin dans cette analyse, il serait intéressant de comprendre des coups de pied arrêtés pris dans des contextes différents. L'équipe est-elle en position perdante ou gagnante lorsque le coup franc offensif est accordé ? Les joueurs sont-ils susceptibles de viser différentes zones du but en fonction de la position/taille du gardien de but ? Un penalty tiré devant les supporters de l'équipe adverse a-t-il plus ou moins de chances d'être marqué ? Ce sont des questions pour une étude plus approfondie, mais des questions auxquelles on pourrait répondre en utilisant l'analyse visuelle, les données StatsBomb et une combinaison de R et/ou Tableau.
Cette analyse a été réalisée en janvier 2020 par James Smith à l'aide de données StatsBomb accessibles au public, R & Tableau. Une version interactive est disponible à explorer sur Tableau Public . Si vous souhaitez en savoir plus sur Football Analytics ou sur le groupe d'utilisateurs Football Tableau , n'hésitez pas à contacter James sur Twitter ( @sportschord ) ou par e-mail ( sportschord@gmail.com ).