Il robot che impara a parlare dai video, quasi come un bambino vero

Al MIT (Massachusetts Institute of Technology) stanno lavorando a un sistema di Intelligenza Artificiale che impara il linguaggio come i bambini umani. La macchina guarda video sottotitolati, apprendendo i nomi degli oggetti, i significati delle parole e delle relazioni tra essi.

Si tratta, almeno in teoria, di un sistema più efficiente e rapido rispetto alle altre tecniche usate nell'elaborazione del linguaggio naturale (Natural Language Processing, NLP). All'inizio il sistema dovrà gestire un ventaglio di opzioni enorme e non saprà bene che cosa significa una parola o una frase; con il tempo però il numero di possibilità si andrà riducendo, portando a una migliore competenza linguistica. Concettualmente, si tratta dell'idea espressa da Noam Chomsky con la formulazione della Grammatica trasformazionale.

Nello specifico, il computer guarda il video e cerca di capire quanto siano precisi i sottotitoli che lo descrivono (per esempio: una donna prende una mela). Per farlo, cerca inizialmente di combinare immagini e testo, con associazioni casuali. A ogni passaggio e ogni nuovo video l'elaborazione diventa più precisa; Ripetendo il processo più e più volte l'algoritmo può arrivare anche a imparare una lingua partendo da zero, sostenuto dall'ipotesi che ci sono strutture e parole che si ripetono (i nomi degli oggetti, la relazione tra soggetti e azioni, e così via). La fase di addestramento in altre parole permette all'algoritmo di costruirsi in proprio sintassi e grammatica della lingua che sta studiando, proprio come fanno i bambini nella teoria della linguistica trasformazionale e in quelle (più raffinate) elaborate successivamente.

Secondo gli esperti del MIT, questo approccio sarebbe utile nello sviluppo di robot capaci di apprendere il linguaggio dalle persone che hanno intorno, quindi adattandosi a specifici modi di parlare, accenti, modi di dire e personalità. In ultima analisi, dunque, portare a robot un po' più simili a noi. E incidentalmente un po' più addentro alla uncanny valley.

Il confronto con l'apprendimento dei bambini umani è legittimo ma limitato: i bambini imparano osservando e ascoltando, ma possono contare su molti altri stimoli quali le espressioni del viso, o il contatto e le interazioni fisiche tra persone. Oltre che ovviamente tutta la potenza cognitiva innescata dalle emozioni. Limiti che nei prossimi anni saranno probabilmente colmati, con robot in grado di percepire l'ambiente grazie a pelle artificiale ultrasensibile, di usare il riconoscimento facciale per distinguere le espressioni. Forse non manca molto, in effetti, prima che siano capaci di riconoscere un tono di voce; chissà che presto non diventino capaci di individuare il sarcasmo, dimostrando una volta per tutte che quello di Sheldon Cooper è un handicap cognitivo più che serio (ma divertente, poco ma sicuro).

Nonostante i limiti, il nuovo approccio proposto dal MIT potrebbe fare la differenza, in particolar modo per l'analisi e l'elaborazione di lingue poco diffuse e poco studiate – un dettaglio che potrebbe avere un impatto diretto sulla diffusione e l'uso della Rete stessa. Grazie al sistema proposto infatti diventa più semplice (e meno costoso) trovare materiali con cui addestrare gli algoritmi, grazie al buon numero di video sottotitolati che già si trovano online. Secondo Boris Katz (uno degli autori), poi, il nuovo sistema potrebbe persino aiutare a comprendere meglio i meccanismi sottostanti all'apprendimento infantile – che in buona parte è ancora un mistero.

Lo sapevi che gli studi Intelligenza Artificiale devono molto a un libro di Umberto Eco?