La capacità dei computer di interpretare le immagini sta attraversando una trasformazione profonda, ma il percorso verso una visione artificiale davvero affidabile è ancora costellato di ostacoli sorprendenti. Mentre i sistemi di riconoscimento visivo hanno raggiunto livelli di precisione impensabili solo un decennio fa, continuano a commettere errori che nessun essere umano commetterebbe mai. È proprio questa contraddizione tra prestazioni impressionanti e fallimenti sconcertanti a definire l'attuale fase evolutiva dell'intelligenza artificiale applicata alla visione.
I test reCAPTCHA che ci chiedono di identificare semafori o decifrare lettere distorte quando accediamo a un sito web rappresentano un paradosso del nostro tempo tecnologico. Questi filtri esistono proprio perché la visione rimane uno dei terreni su cui l'uomo mantiene ancora un vantaggio decisivo sulle macchine. Anche se può sembrarci frustrante chiederci se l'angolo di un semaforo conta o meno, quella piccola incertezza riflette una verità più ampia: distinguere oggetti in un'immagine resta un compito sorprendentemente complesso per un algoritmo.
La rivoluzione nel campo è iniziata nel 2012 con AlexNet, un modello sviluppato da due studenti di Geoffrey Hinton, lo scienziato che nel 2024 ha vinto il Nobel per la fisica per i suoi contributi all'intelligenza artificiale. Utilizzando una versione potente delle reti neurali convoluzionali, AlexNet ha stracciato la concorrenza nell'ImageNet Large Scale Visual Recognition Challenge, una competizione considerata il punto di riferimento per valutare le capacità di visione artificiale. Quel successo ha segnato un salto dal 60 per cento di accuratezza nel riconoscimento delle immagini a percentuali vicine al 90 per cento nei sistemi attuali.
Eppure, nonostante questi progressi straordinari, i computer continuano a inciampare su ostacoli banali. Nel 2017, un gruppo di ricerca del MIT guidato da studenti ha dimostrato quanto sia facile ingannare questi sistemi: aggiungendo una quantità impercettibile di "rumore" digitale a una foto di gatto, sono riusciti a far identificare l'immagine come guacamole al sistema di Google. Andrew Ilyas, che faceva parte di quel team e oggi è ricercatore alla Carnegie Mellon University di Pittsburgh, ricorda di essere rimasto scioccato dalla facilità con cui i modelli potevano essere fuorviati.
Il problema fondamentale risiede nel modo frammentato in cui le reti neurali visive apprendono. Invece di sviluppare una comprensione autentica di cosa sia un gatto, questi sistemi riconoscono un insieme di caratteristiche che associano alla categoria "gatto". Queste caratteristiche però non sono intrinseche al concetto di felino, come Ilyas e i suoi colleghi hanno dimostrato nel loro celebre esperimento. Come spiega il ricercatore, i computer imparano scorciatoie pigre che possono essere facilmente manipolate.
Un altro esperimento condotto nel 2019 dai ricercatori Yair Weiss e Aharon Azulay dell'Università Ebraica di Gerusalemme ha rivelato una vulnerabilità ancora più bizzarra. Spostando ogni singolo pixel di un'immagine di lontre, aerei o binocoli di appena una frazione verso sinistra o destra, il modello perdeva completamente la capacità di identificare l'oggetto, nonostante l'immagine apparisse identica all'occhio umano.
La nuova frontiera è rappresentata dai vision transformers, sistemi che stanno progressivamente sostituendo le reti neurali convoluzionali. Addestrati su miliardi di immagini, questi modelli dividono le foto in gruppi di pixel chiamati "patch" e aggregano le regioni in base a proprietà come colore e forma. Queste aggregazioni vengono poi identificate come caratteristiche fisiche, come parti del corpo o elementi di arredamento. Secondo Alexey Dosovitskiy, ricercatore che ha lavorato su questi sistemi presso Google, i vision transformers offrono prestazioni superiori perché sintetizzano le informazioni provenienti da diverse aree dell'immagine in modo più efficiente.
Ma è con le reti neurali object-centric che si sta tentando di avvicinare davvero il funzionamento dei computer alla visione umana. Questi modelli valutano le immagini come composizioni di oggetti distinti piuttosto che come semplici raggruppamenti di proprietà simili. La loro forza sta nella capacità di riconoscere un oggetto separandolo dallo sfondo, un approccio che ricorda più da vicino il modo in cui elaboriamo le informazioni visive.
Jeffrey Bowers, psicologo specializzato in machine learning all'Università di Bristol, insieme al collega Guillermo Puebla dell'Universidad de Tarapacá in Cile, ha condotto test che hanno rivelato la superiorità di questi approcci. Confrontando reti object-centric con altri modelli visivi attraverso prove di abbinamento di forme, hanno scoperto che tutti i sistemi si comportavano in modo simile su poligoni regolari. Quando però venivano introdotte forme irregolari, colorate o striate, le reti object-centric ottenevano un tasso di successo dell'86,4 per cento, contro il 65,1 per cento degli altri modelli.
Le applicazioni pratiche di questi progressi stanno già trasformando settori concreti. Alcuni robot utilizzano algoritmi object-centric per afferrare e ruotare oggetti tridimensionali con precisione, completando compiti come aprire cassetti o girare rubinetti. Un'azienda sta addirittura costruendo robot volanti per la raccolta di mele, pesche e prugne, sfruttando proprio queste strategie di riconoscimento visivo. Grazie alla loro capacità di rilevare con accuratezza gli oggetti, questi automi possono determinare quando un frutto è maturo e muoversi agilmente tra gli alberi per coglierlo senza danneggiarne la buccia delicata.
I sistemi più avanzati hanno superato anche la bidimensionalità, riuscendo a guardare video e ragionare su ciò che hanno osservato, rispondendo correttamente a domande come "Quanto è bravo questo giocatore di badminton?" Nonostante questi risultati impressionanti, gli scienziati concordano sul fatto che la strada per competere con le capacità del cervello umano è ancora lunga. Come sottolinea Bowers con una nota di ironia, il sistema visivo umano può fare cose strane, ma mai un essere umano scambierebbe un gatto per del guacamole.