Il mondo dei videogiochi moderni ha raggiunto livelli di complessità tecnica che rendono sempre più difficile valutare oggettivamente la qualità visiva di ciò che appare sullo schermo. Tra tecnologie di upscaling come DLSS, generazione di frame artificiali e una miriade di altre tecniche di rendering, i problemi di qualità dell'immagine si sono moltiplicati in modo esponenziale. Problemi come ghosting, sfarfallio, aliasing e disocclusione sono diventati parte integrante dell'esperienza di gioco, ma fino ad oggi mancava uno strumento davvero efficace per misurarli in modo scientifico.
La rivoluzione dell'intelligenza artificiale nella valutazione grafica
I ricercatori di Intel hanno sviluppato una soluzione innovativa chiamata Computer Graphics Visual Quality Metric (CGVQM), ora disponibile su GitHub come applicazione PyTorch. Questo sistema basato su intelligenza artificiale promette di rivoluzionare il modo in cui valutiamo la qualità delle immagini nei giochi in tempo reale. Il progetto nasce dalla necessità di superare i limiti degli strumenti tradizionali come il PSNR (peak signal-to-noise ratio), che erano principalmente concepiti per valutare la compressione video e risultano inadeguati per i complessi problemi grafici odierni.
Il team di ricerca, composto da Akshay Jindal, Nabil Sadaka, Manu Mathew Thomas, Anton Sochenov e Anton Kaplanyan, ha adottato un approccio duplice per creare questo strumento rivoluzionario. La loro ricerca, dettagliata nel paper "CGVQM+D: Computer Graphics Video Quality Metric and Dataset", rappresenta un passo fondamentale verso la standardizzazione della valutazione qualitativa nei videogiochi.
Un dataset completo per ogni tipo di distorsione
La prima fase del progetto ha visto la creazione del Computer Graphics Visual Quality Dataset (CGVQD), una raccolta video che include una vasta gamma di degradazioni della qualità dell'immagine tipiche delle tecniche di rendering moderne. Il dataset considera distorsioni provenienti da path tracing, denoising neurale, tecniche di supersampling come FSR, XeSS e DLSS, Gaussian splatting, interpolazione di frame e shading a velocità variabile adattiva.
Per garantire che il modello di intelligenza artificiale producesse valutazioni allineate con la percezione umana, i ricercatori hanno coinvolto un gruppo di osservatori umani per creare una base di riferimento. Questi volontari hanno valutato le diverse tipologie di distorsioni presenti in ogni video su una scala che andava da "impercettibile" a "molto fastidioso", fornendo così una ground truth fondamentale per l'addestramento del sistema.
Architettura neurale tridimensionale: la chiave del successo
Il cuore del sistema CGVQM è una rete neurale convoluzionale tridimensionale basata su ResNet, specificamente il modello 3D-ResNet-18. La scelta di un'architettura 3D si è rivelata cruciale per ottenere prestazioni elevate, permettendo al sistema di considerare non solo informazioni spaziali bidimensionali come la griglia di pixel in un frame, ma anche informazioni temporali che si sviluppano nel tempo.
Secondo il paper, il modello CGVQM supera praticamente ogni altro strumento di valutazione della qualità dell'immagine, almeno sul dataset sviluppato dai ricercatori. Il modello più intensivo CGVQM-5 si posiziona al secondo posto dopo la valutazione umana di riferimento, mentre il più semplice CGVQM-2 occupa il terzo posto tra tutti i modelli testati.
Prestazioni competitive oltre i confini del training
Una caratteristica fondamentale del sistema è la sua capacità di generalizzazione: il modello non solo identifica e localizza efficacemente le distorsioni all'interno del Computer Graphics Visual Quality Dataset, ma riesce anche a estendere le sue capacità di identificazione a video che non fanno parte del suo set di addestramento. Questa versatilità è essenziale perché il tool possa diventare uno strumento ampiamente utilizzabile nella valutazione della qualità dell'immagine delle applicazioni grafiche in tempo reale.
Anche se i modelli CGVQM-2 e CGVQM-5 non hanno dominato completamente su altri dataset, hanno comunque mostrato prestazioni competitive su una vasta gamma di contenuti diversi. Questo dimostra la robustezza dell'approccio e la sua applicabilità in scenari reali al di fuori del contesto di laboratorio.
Prospettive future e sviluppi possibili
I ricercatori hanno identificato diverse strade per migliorare ulteriormente questo approccio basato su reti neurali. Una possibilità è l'utilizzo di un'architettura transformer per incrementare le prestazioni, anche se attualmente questa opzione richiederebbe risorse computazionali significativamente maggiori rispetto alla CNN 3D utilizzata. Un'altra direzione promettente riguarda l'inclusione di informazioni come i vettori di flusso ottico per raffinare la valutazione della qualità dell'immagine.
Nonostante queste possibilità di miglioramento, le prestazioni attuali del modello CGVQM suggeriscono che si tratti già di un progresso significativo nella valutazione dell'output grafico in tempo reale. L'accessibilità del codice su GitHub rappresenta un passo importante verso l'adozione diffusa di questo strumento da parte di sviluppatori e ricercatori. Per il pubblico italiano, particolarmente attento alla qualità visiva nei videogiochi, questo sviluppo potrebbe tradursi in esperienze di gioco più raffinate e tecnicamente superiori nel prossimo futuro.