Avatar di Manolo De Agostini

a cura di Manolo De Agostini

Domani prenderà il via la Coppa del Mondo di calcio in Russia e come qualsiasi evento sportivo sono in molti a fare ipotesi e a scommettere su chi vincerà. Nel 2010 molti si affidarono alle previsioni del famoso polpo Paul, e anche quest'anno sicuramente qualche animale verrà usato in modo improprio come un oracolo per chi capire chi alzerà il trofeo.

Di regola uno dei metodi migliori è affidarsi alle quotazioni dei bookmakers (allibratori), possibilmente più di uno. Questo approccio vede il Brasile come chiaro favorito per la vittoria finale con una probabilità del 16,6%, seguito dalla Germania (12,8%) e dalla Spagna (12,5%). Da qualche anno però, complice l'avanzata del machine learning, anche la scienza ha iniziato a dilettarsi nella pratica di provare a indovinare i risultati delle partite, provando a fare meglio di bookmakers e polpi miracolosi.

Andreas Groll della Technical University di Dortmund, insieme ad alcuni colleghi, ha usato una combinazione di machine learning e statistiche tradizionali, un metodo chiamato "random-forest approach", per arrivare a identificare il vincitore più papabile (qui lo studio).

italia coppa mondo
Vince l'Italia.. ah no....

Prima di svelarvi chi solleverà la bellissima coppa disegnata dall'italiano Silvio Gazzaniga, cerchiamo di capire come si è arrivati al risultato. La tecnica random-forest si è fatta strada di recente come un modo per analizzare grandi insiemi di dati, evitando al contempo alcune delle insidie ”‹”‹di altri metodi di data mining.

Si basa sull'idea che alcuni eventi futuri si possano determinare grazie a un albero decisionale in cui viene calcolato un risultato in ciascun ramo, facendo riferimento a una serie di dati di allenamento.

Gli alberi decisionali soffrono però di un problema: nell'ultimo stadio del processo di ramificazione, le decisioni possono essere fortemente distorte dai dati di allenamento che sono sparsi e soggetti a enormi variazioni a questo tipo di risoluzione, un problema chiamato "overfitting".

neymar brasile

L'approccio "random-forest" è diverso. Invece di calcolare il risultato per ogni ramo, calcola il risultato di rami casuali. E lo fa tante volte, ogni volta con un insieme differente di rami scelti casualmente. Il risultato finale è la media di tutti questi alberi decisionali costruiti in modo casuale.

Il primo vantaggio di questo approccio è che non soffre del problema dell'overfitting, il secondo è che rivela quali sono i fattori più importanti per determinare il risultato. Quindi se un particolare albero decisionale include molti parametri, è più facile vedere quali hanno il maggiore peso sul risultato e quali no. I fattori meno importanti possono poi essere ignorati in futuro.

messi argentina

Andreas Groll e i suoi colleghi hanno usato questo approccio per il modello della Coppa del Mondo 2018. Hanno modellato il risultato di ogni partita che le squadre hanno maggiori probabilità di giocare e usato i risultati per ricostruire il corso più probabile del torneo.

Si è partiti da un'ampia gamma di potenziali fattori che potrebbero determinare il risultato finale, dai fattori economici, fino al PIL e alla popolazione di un Paese, dalla posizione nel ranking FIFA ad alcune caratteristiche delle squadre come l'età media, il numero di Champions League vinte dai giocatori che le compongono e altro ancora. Allo stesso tempo l'approccio seguito dai ricercatori permette d'includere altri sistemi di classificazione come quelli usati dai bookmakers.

Inserendo tutti questi aspetti in un modello ha permesso di avere alcuni spunti interessanti. Ad esempio i fattori con una maggiore influenza si sono rivelati il ranking della FIFA e dei bookmarkers, seguiti dal PIL del paese e dal numero di giocatori che hanno vinto delle Champions. Fattori meno importanti invece la popolazione del paese, la nazionalità dell'allenatore e così via.

spagna iniesta

Le previsioni raggiunte con questo processo differiscono dalle altre sotto diversi aspetti. All'inizio il metodo random-forest ha indicato la Spagna come il vincitore più probabile, con una probabilità del 17,8%. Tuttavia la struttura del torneo stesso incide in modo importante sulla previsione.

Se la Germania vince il suo girone infatti, è più probabile che rappresenti una forte avversaria negli ottavi di finale. Secondo il metodo random-forest le possibilità della Germania di arrivare ai quarti di finale sono del 58%. Di contro la Spagna non dovrebbe incontrare una forte avversaria e quindi ha una probabilità del 73% di raggiungere i quarti di finale.

Partecipando entrambe ai quarti di finale, avranno possibilità quasi identiche di vittoria. "La Spagna è leggermente favorita sulla Germania perché quest'ultima ha possibilità maggiori di uscire negli ottavi", ha dichiarato Groll. Ma c'è un elemento ulteriore. Il processo ad albero casuale consente di simulare l'intero torneo, ottenendo un risultato diverso.

coppa mondo russia 2018 vincitoreGroll ha simulato l'intero torneo per 100mila volte. "Secondo il trend più probabile, invece della Spagna saranno i tedeschi a vincere la Coppa del Mondo". Le possibilità però sono comunque una 1 su 100.000 a causa dell'elevato numero di variabili.

Quindi, per riassumere: all'inizio del torneo la Spagna ha le migliori possibilità di vincere, secondo gli studiosi. Ma se la Germania dovesse andare ai quarti di finale, allora diventerebbe la candidata più papabile. Ora non vi resta che fare la vostra giocata.