PlaNet, la rete neurale di Google che riconosce i luoghi

Si chiama Google PlaNet, gioco di parole tra pianeta e Rete, ed è una rete neurale per l'apprendimento approfondito, capace di riconoscere i luoghi mostrati nelle foto anche quando apparentemente sembrano anonimi o comunque non caratterizzati da indizi particolarmente evidenti.

Il progetto è stato realizzato da Tobias Weyand, computer vision specialist presso Google, e da un paio di colleghi, ma come funziona PlaNet?

L'approccio di Weyand e soci è stato abbastanza semplice e diretto, almeno in relazione all'ambito e alla complessità dell'operazione da svolgere.

Anzitutto il mondo (ad esclusione dei poli e degli oceani) è stato diviso tramite una griglia composta da 26000 riquadri di grandezza variabile a seconda del numero di foto catturate nel territorio ricoperto. Quindi ovviamente le grandi città offrono una suddivisione maggiore rispetto ad aree desertiche del pianeta di cui sono disponibili poche immagini.

In seguito il team ha creato un database di immagini prese dal Web e fornite di tag per la geolocalizzazione, parliamo di ben 126 milioni di foto. La maggior parte di queste foto, 91 milioni per la precisione, sono poi state utilizzate per insegnare alla potente rete neurale a riconoscere i posti, basandosi unicamente sulle immagini stesse. A PlaNet infatti non sono stati forniti anche i corrispettivi dati di geolocalizzazione, ma è stata la rete stessa a dover proporre una o più posizioni possibili per ogni singola foto, analizzandone il contenuto e imparando a raffrontare i singoli dettagli.

Le restanti 35 milioni di immagini sono poi state utilizzate per validare i dati. Infine PlaNet è stato testato in vari modi per verificarne le abilità, utilizzando 2.3 milioni di immagini di luoghi presi da Flickr.

Il risultato? La rete neurale è stata capace di riconoscere correttamente il 3.6% delle immagini a livello stradale e il 10.1% per quanto riguarda le città, indicando inoltre la nazione di provenienza per il 28.4% di esse, salendo al 48% per quanto riguarda il continente.

Se vi aspettavate di più sappiate che gli esseri umani non sono in grado di raggiungere gli stessi risultati. Il team di Weyand infatti ha fatto competere PlaNet contro 10 viaggiatori esperti nel riconoscere luoghi mostrati da Street View e il risultato è stato che la rete neurale ha vinto 28 dei 50 round, con un errore di approssimazione nell'indicare le coordinate dei luoghi di 1131.7 km, mentre in media gli esseri umani hanno sbagliato di 2320.75 km, praticamente il doppio.

"PlaNet ha un vantaggio sugli esseri umani" ha spiegato Weyand, "perché ha potuto visitare molti più posti di quanto qualsiasi essere umano potrà mai fare, imparando così a distinguere anche dettagli minuti di scene differenti, che sono molto difficili da notare invece anche per un essere umano che abbia viaggiato molto".

Se volete mettere alla prova le vostre capacità potete provare a farlo su GeoGuessr, un gioco molto divertente ma molto più difficile di quanto possa sembrare.