…w tysiącu z nich Polska obudziłaby się 12 lipca w nowej rzeczywistości. W każdej z tych równoległych rzeczywistości w niedzielną noc 11 lipca, reprezentacja Polski wygrała finał mistrzostw Europy. Dokładnie to w 1324 ze 100 tysięcy, czyli w około 1 procencie, bo na tyle właśnie szansę Polaków wycenia nasz autorski model matematyczny. Używając matematycznych narzędzi, oszacowaliśmy siłę każdej reprezentacji i 100 tys. razy zasymulowaliśmy przebieg całych mistrzostw. W tekście analizujemy wyniki symulacji i typujemy największych faworytów europejskiego czempionatu.
Gdybyśmy poprosili drugą osobę o wybranie w myślach liczby od 1 do 100, a następnie spróbowali ją odgadnąć, mielibyśmy dokładnie 1 proc. szans na to, że wybierzemy poprawną liczbę. Intuicyjnie możemy ocenić, że 1 procent szans to niewiele. Z drugiej strony na Euro jedzie 10 drużyn, których szanse są jeszcze mniejsze. Prezes PZPN Zbigniew Boniek określa wyjście z grupy jako cel minimum na zbliżającym się turnieju i na osiągnięcie tego poziomu Polacy mają już zdecydowanie większe szanse - dokładnie 62 proc.
Nasze prognozy opieramy na modelu matematycznym zbudowanym i przetestowanym na historycznych danych. Nasza baza meczów zawiera ponad 20 tysięcy meczów reprezentacyjnych. Pierwszy mecz w bazie, rozegrany pomiędzy Anglią i Szkocją, datowany jest na rok 1872.
Skąd w tytule wzięła się liczba 100 tysięcy? Model ma charakter probabilistyczny, co oznacza, że dopiero po przeprowadzeniu odpowiedniej liczby powtórzeń, sumaryczne wartości prawdopodobieństwa zbliżają się do prawdy. Możemy o tym myśleć jak o rzucie monetą. Wyobraźmy sobie, że wiemy, że nasza moneta nie jest wyważona - to znaczy, któraś strona jest cięższa i będzie częściej spadać ku ziemi. Po jednym rzucie nie możemy wnioskować o tym, która strona monety jest faktycznie cięższa. Jeżeli rzucimy 10 razy i 8 razy otrzymamy orła, będziemy mieli większą pewność, że to reszka jest cięższa. Nie przestając rzucać będziemy nabywali coraz większą pewność. Tak samo jest z naszym modelem - rozgrywając wirtualnie cały turniej 100 tys. razy, nabieramy pewności, że prawdopodobieństwa są bliskie ostatecznym wartościom.
Opisany poniżej model pozwala niejako sprowadzić symulacje każdego meczu do rzutu kostką z trzema ścianami. Każda ściana oznacza wygraną gospodarzy, remis lub wygraną gości. Oczywiście wyrzucenie każdej ze ścian nie jest równie prawdopodobne. Na tym właśnie polega zadanie modelu. Chcemy, żeby na przykład w meczu Polska - Hiszpania, kostka zdecydowanie częściej wypadała na ścianę oznaczające wygraną Hiszpanii. Na tym właśnie polega symulacja całego turnieju i dlatego rzucamy tą metaforyczną kostką aż 100 tys. razy.
Zanim przeanalizujemy dokładniej turniejowe scenariusze, przyjrzyjmy się, na czym polega sztuka formułowania sportowych prognoz i dlaczego piłka nożna jest wyjątkowo niewdzięczną dyscypliną.
Ślepa sprawiedliwość
Piłka nożna jest jednym z najbardziej nieprzewidywalnych sportów zespołowych. W futbolu faworyci wygrywają tylko około 50 proc. meczów. W piłce ręcznej czy koszykówce przedmeczowi faworyci wygrywają średnio 70 proc. spotkań. Z czego to wynika? Piłka nożna to tzw. low-scoring game. Wynik w piłce nożnej jest zdeterminowany przez rzadkie wydarzenia. Liczba goli padających w jednym meczu piłkarskim jest zdecydowanie mniejsza niż liczba zdobytych punktów w koszykówce (nawet uwzględniając rzuty za 2 i 3 punkty) czy też w hokeju. 8 procent meczów kończy się bezbramkowym remisem, w niemal 19 procentach pada tylko jeden gol. Oznacza to, że średnio w 1 na 4 mecze, kibice oglądają jeden lub zero goli. Średnia liczba zdobytych goli w jednym meczu to tylko 2,6. To wszystko sprawia, że margines błędu jest zdecydowanie mniejszy i o końcowym wyniku niejednokrotnie decyduje przypadek. Dlatego właśnie bukmacherom jest zdecydowanie trudniej wytypować zdecydowanego faworyta.
Z powyższego opisu wyłania się dosyć smutny obraz dla prób przewidywania wyników piłkarskich. Z drugiej strony to, że piłka nożna jest sportem nieprzewidywalnym, nie oznacza, że wszystkie zdarzenia są tak samo prawdopodobne. Słynny statystyk George Box rzekł: "Wszystkie modele są złe, ale niektóre z nich mogą okazać się przydatne". Tak też jest w przypadku modeli matematycznych przewidujących wyniki piłkarskie. Takie modele oczywiście nigdy nie wytypują stuprocentowego faworyta, jednak pozwalają lepiej zrozumieć prawdopodobieństwa konkretnych wyników i turniejowych rozstrzygnięć. Ten sam model w 2016 roku poprawnie wytypował 12 z 16 drużyn grających w 1/8 finału i pięciu z ośmiu ćwierćfinalistów. Na wyniki modelu nie należy jednak patrzeć z perspektywy dokładnych trafień, a raczej z punktu widzenia prawdopodobieństwa przypisanego do każdej z drużyn. Model ma charakter probabilistyczny, co oznacza, że nie wskażemy jednoznacznie zwycięzcy Euro, możemy za to powiedzieć, że Hiszpania ma 13 proc. na zdobycie mistrzostwa, a Macedonia Północna tylko 0,045 proc.
Jak interpretować to prawdopodobieństwo? Możemy sobie wyobrazić, że gdyby mistrzostwa rozegrano w takich samych warunkach 100 000 razy to Hiszpania byłaby mistrzem w 13 tysięcy symulacji.
Piłkarskie szachy
W celu symulacji całego turnieju musimy najpierw oszacować poziom każdej z reprezentacji. Każdej kadrze przypiszemy liczbę oznaczającą jej poziom sportowy. Możemy o tym myśleć jako o rankingu, w którym większy ranking oznacza lepszą drużynę. Nasz model bazuje na znanej metodzie obliczania siły sportowej nazwanej od nazwiska jej autora - Rankingiem Elo. Ranking Elo powstał jako metoda określania umiejętności szachistów, jednak jego uniwersalność sprawiła, że z czasem został zaadaptowany również w innych sportach.
Idea jest bardzo prosta - na podstawie rankingu jesteśmy w stanie oszacować szanse każdej z drużyn na wygraną. Po każdym meczu ranking drużyny jest aktualizowany. Jeżeli drużyna wygrywa mecz, jej ranking rośnie, w przypadku przegranej - maleje. W tym momencie obliczenia nieco się komplikują, ponieważ to, o ile zmieni się ranking, zależy od oczekiwanego przed meczem wyniku. Mówiąc obrazowo, łatwo sobie wyobrazić, że remis San Marino z Niemcami powinien być nagrodzony zdecydowanie bardziej niż remis San Marino z chociażby Wyspami Owczymi. Jednocześnie w przypadku takiej niespodzianki ranking Niemiec ucierpiałby zdecydowanie bardziej, niż gdyby zremisowali na przykład z Włochami.
Wynik sportowy jest zawsze wypadkową szczęścia i dyspozycji dnia. Forma drużyn oscyluje wokół pewnego poziomu, niejednokrotnie jeden słabszy mecz eliminował z turniejów drużyny w wielkiej formie. Dlatego z rankingiem związany jest parametr określający zmienność. Na wykresie 1 możemy zobaczyć wizualizację idei Rankingu Elo. Reprezentacja ma pewną szansę na zagranie meczu na konkretnym poziomie. Hiszpania średnio notuje występy na poziomie 1894 punktów tego rankingu, ale może jej się również przydarzyć mecz, w którym zagra na poziomie tylko 1600 Elo. Szanse na tak słaby występ to jednak tylko około 3,5 proc. Analogicznie, reprezentacja Polski oscyluje wokół poziomu 1692 punktów Elo, jednak nic nie stoi na przeszkodzie, żeby w meczu zagrała na poziomie 2200 punktów. Różnica bazowych rankingów sprawia jednak, że Polska ma zdecydowanie mniejsze szanse na występ na tak kosmicznym poziomie.
Przy obliczaniu bierzemy pod uwagę następujące czynniki:
Czy mecz odbył się na neutralnym terenie? Przewaga gospodarzy jest wyceniana w modelu na około 100 punktów, co oznacza, że gospodarz przystępuje do meczu z lekkim handicapem.
Różnica bramkowa ma wpływa na przyznawane punkty - wygrana większą liczbą bramek oznacza większy przyrosty rankingu, analogicznie ma się sprawa dla przegranej dużą liczbą bramek.
Model różnicuje wagę spotkań - mecze na finałach mistrzostw świata są ważniejsze niż mecze w eliminacjach do tego turnieju, te z kolei są ważniejsze od meczów towarzyskich.
Bazując na historycznych danych, określiliśmy zależność między różnicą w rankingu Elo a szansami na zwycięstwo. Osiągnięty stopień dopasowanie potwierdza skuteczność modelu. Drużyna z przewagą 200 punktów Elo ma około 75 proc. szans na zwycięstwo w meczu.
Co wspólnego mają piłka nożna i konie w pruskiej armii?
Ranking Elo pozwala oszacować ogólny poziom drużyny, jednak oczywiście drużyny na podobnym poziomie różnią się stylem gry. Niektóre są mocniejsze w defensywie, inne w ofensywie. Dlatego w celu lepszego symulowania wyników warto również zbudować ranking siły ofensywnej i defensywnej.
Futbol jest nieprzewidywalny na poziomie pojedynczych meczów, jednak analizując go zbiorczo i w długim okresie, daje się zaskakująco dobrze zamknąć w sztywne matematyczne ramy. Można powiedzieć, że futbol podlega pewnym uniwersalnym prawom. W analityce piłkarskiej przyjmuje się, że liczbę goli w jednym meczu można modelować tzw. rozkładem Poissona. Ten matematyczny koncept znajduje zastosowanie w wielu dziedzinach życia, najpopularniejszy przykład pochodzi od Władysława Józefowicza Bortkiewicza, który rozkładu Poissona użył do opisania liczby zabitych żołnierzy pruskich przez kopnięcia konia. Ten rozkład prawdopodobieństwa pozwala z bardzo dużą dokładnością oszacować szanse na konkretną liczbę goli w meczu.
Opisany rozkład Poissona opisuje sumaryczne tendencje rządzące futbolem. Chcielibyśmy jednak użyć tego rozkładu do analizy poszczególnych drużyn. Tutaj z pomocą przychodzi tzw. regresja Poissona. To narzędzie matematyczne pozwalające dopasować funkcję do danych. Możemy o tym myśleć jako o metodzie znajdowania zależności pomiędzy zmiennymi. W ten sposób możemy określić siłę każdej drużyny na podstawie liczby bramek straconych i zdobytych w dotychczasowych meczach z drużynami o określonym rankingu Elo. Następnie na tej podstawie symulujemy liczbę zdobytych przez drużynę goli, uwzględniając siłę jej ofensywy oraz siłę defensywy przeciwnika. Rozkład Poissona pozwala oszacować prawdopodobieństwo konkretnej liczby goli, biorąc pod uwagę opisane wcześniej czynniki.
Na podstawie obliczonych rankingów drabinka turniejowa została rozegrana 100 tysięcy razy. Przy tak ogromnej liczbie symulacji możemy oszacować prawdopodobieństwo rozstrzygnięć pojedynczych meczów, jak również osiągnięcia poszczególnych faz turnieju.
Matematyczna szklana kula
Zacznijmy od ogółu, czyli spojrzenia na turniejową drabinkę z lotu ptaka. Największym faworytem do mistrzostwa jest Belgia, jednak tuż za jej plecami plasuje się silna grupa pościgowa. Druga pod względem największych szans na końcowy triumf jest Hiszpania. Paradoksalnie, Hiszpanie są jednak drużyną słabszą od Francji z perspektywy rankingu Elo. Większe prawdopodobieństwo wygranej przypisane Hiszpanii wynika z tego, że piłkarze tej reprezentacji trafili do teoretycznie łatwiejszej połówki drabinki. Belgia i Francja z większym prawdopodobieństwem niż Hiszpania mogą odpaść jeszcze przed dotarciem do półfinału, jeżeli jednak Francji lub Belgii uda się dotrzeć do finału i tam zmierzyć z Hiszpanią, to Hiszpania minimalnie przegrywa z obiema drużynami. Najbardziej prawdopodobny finał to właśnie starcie dwóch najmocniejszych drużyn z każdej z połówek drabinki, czyli Belgii i Hiszpanii.
W rankingu faworytów wysoko plasuje się Anglia, co nie dziwi, w końcu to czwarta drużyna ostatniego mundialu. Z drugiej strony dotychczas nie odnosiła wielkich sukcesów w mistrzostwach Europy. Czy rok 2021 wreszcie przyniesie Anglikom przełamanie na Euro? Na ich korzyść działa fakt, że mecze ostatnich faz turnieju zostaną rozegrane na Wyspach.
Czarnym koniem turnieju może się okazać Dania. Skład drużyny oraz forma z ostatnich miesięcy prezentują się bardzo solidnie, co więcej Duńczycy trafili do stosunkowo łatwej grupy. Wychodząc z drugiego miejsca w grupie, trafią na drugą drużynę z grupy A, której skład również nie wygląda na najsilniejszy. Potencjalnym rywalem Duńczyków w ćwierćfinale będzie nieobliczalna Holandia. Określenie „autostrada do półfinału” wydaje się lekko na wyrost, niemniej dzięki szczęśliwemu losowaniu i dobremu pokoleniu piłkarzy, Dania może nawiązać do szalonych mistrzostw Europy z 1992 roku.
Zaskakująco słabo wyglądają za to szanse Niemiec, głównie z uwagi na trudne losowanie oraz ostatnie, nieco zaskakujące in minus wyniki naszych zachodnich sąsiadów. W podobnej sytuacji jest Portugalia i wspomniana już Francja. Trafienie do Grupy F, już na starcie obniża sumaryczne szanse tych reprezentacji.
W kontekście rankingów ofensywnych model wskazuje Belgię jako najmocniejszą reprezentację. Włochy mogą z kolei pochwalić się najmocniejszą defensywą. Reprezentacja Italii wygląda bardzo ciekawie, ponieważ w oczy rzuca się dysproporcja pomiędzy siła ofensywną i defensywną. Od lat mówi się, że reprezentacja Włoch zrywa ze stereotypem drużyny stawiającej tylko na defensywę. Jak pokazują jednak liczby, włoskie catenaccio (z wł. rygiel - charakterystyczny dla włoskiej piłki styl gry, koncentrujący się na obronie) ciągle jest zakorzenione w stylu drużyny z Półwyspu Apenińskiego. Mocno w defensywie wygląda również Portugalia, Francja i Hiszpania. W czołówce siły defensywnej ponownie pojawia się Dania, która nie zachwyca siłą ofensywy. Z drugiej strony często powtarza się, że pojedyncze mecze wygrywa się ofensywą, ale turnieje wygrywa się defensywą. Najgorzej w defensywie wyglądają Szkocja i Macedonia Północna. Reprezentacja Polski w obu rankingach plasuje się mniej więcej w połowie stawki.
Z perspektywy rankingu Elo najsłabszą grupą jest grupa C ze średnim rankingiem Elo na poziomie 1650, co wygląda mizernie w porównaniu do średniego rankingu Elo grupy śmierci (grupy F), który wynosi 1800. Potwierdzają to również prawdopodobieństwa zajęcia konkretnego miejsca w grupie. W większość grup, hierarchia aspiracji do pierwszego miejsca jest jasna. Z kolei walka o drugą pozycję będzie zdecydowanie bardziej zacięta. Szczególnie w grupie A i E, gdzie o bezpośredni awans i przywilej nieoglądania się na rywali z innych grup powalczą odpowiednio - Turcja i Szwajcaria oraz Polska i Szwecja. Najmniej wyrównanymi grupami wydają się grupy B i D, w których najłatwiej wskazać najlepszą dwójkę. Prawdopodobieństwo zajęcia czwartego miejsca przez Węgry, pokazuje jak bardzo na pożarcie skazani są Madziarzy w swojej arcytrudnej grupie.
Poniższa tabela pozwala szczegółowo przeanalizować szanse każdej reprezentacji w fazie grupowej. Ostatnia kolumna, zawiera tak zwane “punkty oczekiwane”, czyli średnią liczbę punktów, jaką reprezentacja zdobywała w trakcie 100 tys. symulacji. Z powodu zaokrągleń, procenty w poniższej tabeli mogą nie sumować się do 100.
Szanse Polski
62-procentowe szanse reprezentacji Polski na wyjście z grupy wyglądają obiecująco, jednak według naszego modelu w rywalizacji o drugie miejsce w grupie nieznacznie wyprzedzają nas Szwedzi. Małe różnice pomiędzy tymi dwoma reprezentacjami zwiastują, że walka o drugie miejsce będzie niezmiernie zacięta. Jest o co walczyć, ponieważ zajmując drugie miejsce w 1/8 finału najprawdopodobniej trafimy na Chorwatów, zajmując trzecie miejsce i awansując jako jedna z czterech najlepszych drużyn z trzecich miejsc, możemy już trafić na faworyzowanych Belgów.
Z naszej symulacji możemy również przeanalizować, jakiej minimalnej liczby punktów potrzebujemy do awansu. Zdobycie czterech punktów daje awans w 77 proc. przypadków, wywalczenie trzech punktów zapewniało awans tylko w 33 proc. symulacji. Pokazuje to, jak ważne oprócz niemal obowiązkowej wygranej ze Słowacją, będzie urwanie co najmniej jednego punktu Szwecji lub Hiszpanii. Co ciekawe, nawet sześć punktów może nie dać awansu, w dwóch procentach przypadków do awansu potrzeba było co najmniej siedmiu punktów. Choć brzmi to lekko absurdalnie, skomplikowana formuła awansów z fazy grupowej sprawia, że teoretycznie możliwe jest również wyjście z grupy tylko z jednym remisem. Takie zdarzenie jest jednak praktycznie nieosiągalne - szansa to tylko pół promila.
Prawdopodobieństwa konkretnych wyników potwierdzają, jak niewiele dzieli reprezentacje Polski i Szwecji. Minimalne różnice procentowe powodują, że o wyniku zadecydują detale.
Niepokojąco nisko wyglądają szanse Polaków w starciu z Hiszpanią. Podobne szanse mielibyśmy, próbując wyrzucić wybraną wcześniej liczbę oczek na sześcioramiennej kostce. Powodzenia!