Spazio e Scienze

L’AI di Google guarda il mondo e lo capisce meglio di voi

Google ha pubblicato il nuovo algoritmo "Show and Tell", uno strumento open source destinato alla comunità degli sviluppatori, svelando così al mondo la notevole abilità della sua AI nel riconoscere le immagini.

Nello specifico, l'algoritmo può "guardare" un'immagine e descrivere testualmente ciò che vede, con una precisione sorprendente. Secondo quanto affermato da Google si arriva infatti a un'accuratezza del 93,9%, con un significativo balzo in avanti rispetto all'89,6% registrato due anni fa.

Caption4

"Show and Tell" usa come modello di computer vision l'architettura Inception V3 (la terza versione), che gli ingegneri di Google avevano descritto nel dicembre 2015. Si basa sulle reti neurali convoluzionali (CNN, Wikipedia), sviluppate appositamente per i compiti di visione computerizzata – Computer Vision appunto basandosi sulla corteccia visiva del mondo animale.

Caption1
Clicca per ingrandire

Il risultato è una AI che non solo può riconoscere gli elementi presenti in un'immagine, ma può anche descriverli qualitativamente e illustrare la loro relazione nello spazio. In pratica si passa da, per esempio, "un treno fermo sui binari" a "un treno blu e giallo che si muove lungo i binari".

I tecnici di Google hanno addestrato l'AI fornendole immagini corredate da didascalie descrittive corrette, scritte da esseri umani. Successivamente il sistema ha usato questi dati per cominciare a descrivere in modo autonomo immagini che non aveva mai visto, e la sua abilità si è andata raffinando con il tempo.

Leggi anche Corso gratuito Google sul deep learning

L'aspetto determinante è che Show and Tell non si limita a riutilizzare in modo intelligente le descrizioni scritte da essere umani, ma sembra effettivamente in grado di riconoscere oggetti, contesto e correlazioni.

Caption2b
Clicca per ingrandire

"È eccitante, il nostro modello può in effetti sviluppare l'abilità di creare nuove e precise descrizioni con scene mai viste, e ciò indica una comprensione più profonda degli oggetti e del contesto nelle immagini", si legge sul blog di Google Research, "Inoltre impara come esprimere tale conoscenza in frasi inglesi che risultano naturali, sebbene non abbia ricevuto un addestramento linguistico specifico a parte le descrizioni umane".

Leggi anche TPU, Google ha un processore per l'intelligenza artificiale

Il nuovo sistema di Google è implementato in TensorFlow, la piattaforma di Google dedicata al machine Learning. Una scelta che secondo Google aiuta a ottenere prestazioni migliori: "il tempo per un passaggio di addestramento è solo 0,7 secondi in TensorFlow, in confronto a 3 secondi con DistBelief su una GPU Nvidia K20. Ciò significa che il tempo totale di addestramento è solo il 25% rispetto a quello precedente".

Caption3c
Clicca per ingrandire

Ora questo potente strumento è nelle mani di qualsiasi sviluppatore indipendente che voglia sfruttarlo. Chi fosse interessato può cominciare dalla pagina GitHub del progetto.

Copertura Webcam (Set di 5) Copertura Webcam (Set di 5)
  

Copertura Webcam Copertura Webcam
  

Copertura Webcam (Set di 5) Copertura Webcam (Set di 5)