image/svg+xml
Logo Tom's Hardware
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Tom's Hardware Logo
  • Hardware
  • Videogiochi
  • Mobile
  • Elettronica
  • EV
  • Scienze
  • B2B
  • Quiz
  • Forum
  • Sconti & Coupon
Offerte & Coupon
Accedi a Xenforo
Immagine di Roborock diventa partner ufficiale del Real Madrid Roborock diventa partner ufficiale del Real Madrid...
Immagine di La rivoluzione di LEGO comincia al CES 2026 La rivoluzione di LEGO comincia al CES 2026...

I computer imparano a vedere sempre meglio

I computer imparano a "vedere" meglio grazie a nuove reti neurali che riconoscono oggetti come fa il cervello umano, ma hanno ancora punti deboli.

Advertisement

Avatar di Antonello Buzzi

a cura di Antonello Buzzi

Senior Editor @Tom's Hardware Italia

Pubblicato il 31/10/2025 alle 11:30

La notizia in un minuto

  • I sistemi di visione artificiale hanno raggiunto il 90% di accuratezza ma commettono ancora errori sconcertanti che nessun umano farebbe, come scambiare un gatto per guacamole aggiungendo minimo rumore digitale
  • I vision transformers e le reti neurali object-centric rappresentano la nuova frontiera, separando gli oggetti dallo sfondo in modo più simile alla visione umana con tassi di successo dell'86,4%
  • Le applicazioni pratiche stanno già trasformando settori concreti, dai robot che aprono cassetti ai droni per la raccolta di frutta che riconoscono la maturazione senza danneggiare i prodotti

Riassunto generato con l’IA. Potrebbe non essere accurato.

Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Scopri di più

La capacità dei computer di interpretare le immagini sta attraversando una trasformazione profonda, ma il percorso verso una visione artificiale davvero affidabile è ancora costellato di ostacoli sorprendenti. Mentre i sistemi di riconoscimento visivo hanno raggiunto livelli di precisione impensabili solo un decennio fa, continuano a commettere errori che nessun essere umano commetterebbe mai. È proprio questa contraddizione tra prestazioni impressionanti e fallimenti sconcertanti a definire l'attuale fase evolutiva dell'intelligenza artificiale applicata alla visione.

I test reCAPTCHA che ci chiedono di identificare semafori o decifrare lettere distorte quando accediamo a un sito web rappresentano un paradosso del nostro tempo tecnologico. Questi filtri esistono proprio perché la visione rimane uno dei terreni su cui l'uomo mantiene ancora un vantaggio decisivo sulle macchine. Anche se può sembrarci frustrante chiederci se l'angolo di un semaforo conta o meno, quella piccola incertezza riflette una verità più ampia: distinguere oggetti in un'immagine resta un compito sorprendentemente complesso per un algoritmo.

AI Week
Codice sconto copiato!
AI Week Logo

Se l'Intelligenza Artificiale è il tuo futuro, iscriviti subito alla AI Week 2026 per approfondire tutti questi temi con gli esperti.

  1. Utilizza il codice sconto esclusivo per i lettori di Tom's Hardware:
  2. Acquista il tuo biglietto prima che sia troppo tardi!
    Iscriviti ora!

La rivoluzione nel campo è iniziata nel 2012 con AlexNet, un modello sviluppato da due studenti di Geoffrey Hinton, lo scienziato che nel 2024 ha vinto il Nobel per la fisica per i suoi contributi all'intelligenza artificiale. Utilizzando una versione potente delle reti neurali convoluzionali, AlexNet ha stracciato la concorrenza nell'ImageNet Large Scale Visual Recognition Challenge, una competizione considerata il punto di riferimento per valutare le capacità di visione artificiale. Quel successo ha segnato un salto dal 60 per cento di accuratezza nel riconoscimento delle immagini a percentuali vicine al 90 per cento nei sistemi attuali.

Eppure, nonostante questi progressi straordinari, i computer continuano a inciampare su ostacoli banali. Nel 2017, un gruppo di ricerca del MIT guidato da studenti ha dimostrato quanto sia facile ingannare questi sistemi: aggiungendo una quantità impercettibile di "rumore" digitale a una foto di gatto, sono riusciti a far identificare l'immagine come guacamole al sistema di Google. Andrew Ilyas, che faceva parte di quel team e oggi è ricercatore alla Carnegie Mellon University di Pittsburgh, ricorda di essere rimasto scioccato dalla facilità con cui i modelli potevano essere fuorviati.

Un gatto scambiato per guacamole: l'errore che rivela i limiti dell'intelligenza artificiale

Il problema fondamentale risiede nel modo frammentato in cui le reti neurali visive apprendono. Invece di sviluppare una comprensione autentica di cosa sia un gatto, questi sistemi riconoscono un insieme di caratteristiche che associano alla categoria "gatto". Queste caratteristiche però non sono intrinseche al concetto di felino, come Ilyas e i suoi colleghi hanno dimostrato nel loro celebre esperimento. Come spiega il ricercatore, i computer imparano scorciatoie pigre che possono essere facilmente manipolate.

Un altro esperimento condotto nel 2019 dai ricercatori Yair Weiss e Aharon Azulay dell'Università Ebraica di Gerusalemme ha rivelato una vulnerabilità ancora più bizzarra. Spostando ogni singolo pixel di un'immagine di lontre, aerei o binocoli di appena una frazione verso sinistra o destra, il modello perdeva completamente la capacità di identificare l'oggetto, nonostante l'immagine apparisse identica all'occhio umano.

La nuova frontiera è rappresentata dai vision transformers, sistemi che stanno progressivamente sostituendo le reti neurali convoluzionali. Addestrati su miliardi di immagini, questi modelli dividono le foto in gruppi di pixel chiamati "patch" e aggregano le regioni in base a proprietà come colore e forma. Queste aggregazioni vengono poi identificate come caratteristiche fisiche, come parti del corpo o elementi di arredamento. Secondo Alexey Dosovitskiy, ricercatore che ha lavorato su questi sistemi presso Google, i vision transformers offrono prestazioni superiori perché sintetizzano le informazioni provenienti da diverse aree dell'immagine in modo più efficiente.

Ma è con le reti neurali object-centric che si sta tentando di avvicinare davvero il funzionamento dei computer alla visione umana. Questi modelli valutano le immagini come composizioni di oggetti distinti piuttosto che come semplici raggruppamenti di proprietà simili. La loro forza sta nella capacità di riconoscere un oggetto separandolo dallo sfondo, un approccio che ricorda più da vicino il modo in cui elaboriamo le informazioni visive.

Jeffrey Bowers, psicologo specializzato in machine learning all'Università di Bristol, insieme al collega Guillermo Puebla dell'Universidad de Tarapacá in Cile, ha condotto test che hanno rivelato la superiorità di questi approcci. Confrontando reti object-centric con altri modelli visivi attraverso prove di abbinamento di forme, hanno scoperto che tutti i sistemi si comportavano in modo simile su poligoni regolari. Quando però venivano introdotte forme irregolari, colorate o striate, le reti object-centric ottenevano un tasso di successo dell'86,4 per cento, contro il 65,1 per cento degli altri modelli.

Le applicazioni pratiche di questi progressi stanno già trasformando settori concreti. Alcuni robot utilizzano algoritmi object-centric per afferrare e ruotare oggetti tridimensionali con precisione, completando compiti come aprire cassetti o girare rubinetti. Un'azienda sta addirittura costruendo robot volanti per la raccolta di mele, pesche e prugne, sfruttando proprio queste strategie di riconoscimento visivo. Grazie alla loro capacità di rilevare con accuratezza gli oggetti, questi automi possono determinare quando un frutto è maturo e muoversi agilmente tra gli alberi per coglierlo senza danneggiarne la buccia delicata.

I sistemi più avanzati hanno superato anche la bidimensionalità, riuscendo a guardare video e ragionare su ciò che hanno osservato, rispondendo correttamente a domande come "Quanto è bravo questo giocatore di badminton?" Nonostante questi risultati impressionanti, gli scienziati concordano sul fatto che la strada per competere con le capacità del cervello umano è ancora lunga. Come sottolinea Bowers con una nota di ironia, il sistema visivo umano può fare cose strane, ma mai un essere umano scambierebbe un gatto per del guacamole.

Fonte dell'articolo: knowablemagazine.org

Le notizie più lette

#1
Carte rubate senza toccarle, la nuova frode dei wallet digitali
7

Smartphone

Carte rubate senza toccarle, la nuova frode dei wallet digitali

#2
Saremo tutti ricchissimi e nessuno lavorerà più
8

Business

Saremo tutti ricchissimi e nessuno lavorerà più

#3
Intel Arc B770 compare su GitHub prima del lancio al CES 2026
2

CES 2026

Intel Arc B770 compare su GitHub prima del lancio al CES 2026

#4
I brutti contenuti fatti con l’AI stanno costando molto cari

Business

I brutti contenuti fatti con l’AI stanno costando molto cari

#5
I migliori leader non devono essere simpatici: il primato del rispetto sul consenso
1

Business

I migliori leader non devono essere simpatici: il primato del rispetto sul consenso

👋 Partecipa alla discussione! Scopri le ultime novità che abbiamo riservato per te!

0 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca quadrati

Cliccati: 0 /

Reset

Questa funzionalità è attualmente in beta, se trovi qualche errore segnalacelo.

Segui questa discussione

Advertisement

Ti potrebbe interessare anche

Laifen al CES 2026 espande l’ecosistema personal care

Sponsorizzato

Laifen al CES 2026 espande l’ecosistema personal care

Di Antonello Buzzi
La rivoluzione di LEGO comincia al CES 2026

CES 2026

La rivoluzione di LEGO comincia al CES 2026

Di Andrea Maiellano
Roborock diventa partner ufficiale del Real Madrid

Altri temi

Roborock diventa partner ufficiale del Real Madrid

Di Marco Pedrani
Prezzo da Black Friday per questo spazzolino Oral-B iO 3! Su Amazon risparmi il 57%

Offerte e Sconti

Prezzo da Black Friday per questo spazzolino Oral-B iO 3! Su Amazon risparmi il 57%

Di David Bossi

Advertisement

Advertisement

Footer
Tom's Hardware Logo

 
Contatti
  • Contattaci
  • Feed RSS
Legale
  • Chi siamo
  • Privacy
  • Cookie
  • Affiliazione Commerciale
Altri link
  • Forum
Il Network 3Labs Network Logo
  • Tom's Hardware
  • SpazioGames
  • CulturaPop
  • Data4Biz
  • TechRadar
  • SosHomeGarden
  • Aibay

Tom's Hardware - Testata giornalistica associata all'USPI Unione Stampa Periodica Italiana, registrata presso il Tribunale di Milano, nr. 285 del 9/9/2013 - Direttore: Andrea Ferrario

3LABS S.R.L. • Via Pietro Paleocapa 1 - Milano (MI) 20121
CF/P.IVA: 04146420965 - REA: MI - 1729249 - Capitale Sociale: 10.000 euro

© 2026 3Labs Srl. Tutti i diritti riservati.