Latenza e Overhead
Guardando la potenza bruta, Nvidia utilizza quattro processi di rendering: AFR, SFR, AFR di SFR e operazioni con processore singolo. La prima modalità è l'alternative frame rendering (AFR). Nvidia utilizza l'AFR per aumentare il frame rate. In questo scenario, i quattro frame seguenti sono divisi e il carico renderizzato è condiviso tra quattro processori grafici; questa soluzione è ottima ma non funziona con tutte le applicazioni Direct3D. Nvidia afferma che "le DirectX 9 non supportano l'accodamento di abbastanza back-buffer per supportare effettivamente prestazioni elevate nella modalità AFR 4-way, e inoltre le GPU delle 7950GX2 presentano frequenze un pochino inferiori rispetto alle normali GeForce 7900 GTX."
In un'intervista con Kyle Bennett di HardOCP, il Product Manager di Nvidia SLI Chris Daniel afferma che "al di fuori delle modalità di antialiasing SLI, per esempio 2560x1600 con 4xAA/8xAF, i benefici del Quad-SLI sono significativi nei giochi OpenGL ma spesso meno visibili nei giochi Direct3D. Le DX9 non supportano l'accodamento di un numero adeguato di frame utilizzando le pratiche di programmazione standard delle API D3D (a cui ci si deve attenere per la certificazione WHQL) per supportare effettivamente la modalità AFR 4-way ad elevate prestazioni nei sistemi Quad-SLI. Il Quad-SLI utilizza quindi l'AFR di SFR per molti giochi D3D. Nelle future DirectX 10 ci dobbiamo aspettare che l'AFR 4-way lavori effettivamente come avviene con le OpenGL in questo momento."
Giusto per definire i termini, il ruolo del front buffer è quello di inviare frame completi allo schermo e il back buffer contiene i frame in vario stadio di completamento. Il problema incomincia quando si fa AFR con quattro processori grafici. Ci sono solo tre frame ammessi nel back-buffer, il che significa che c'è un processore che rimane in attesa di lavorare. Se le Direct 3D non permettono alle applicazioni e ai sistemi Quad-SLI di accodare quello che vogliono, la GPU aspetta dati da processare che tuttavia la CPU non può inviarli. Questo è quello che noi chiamiamo "collo di bottiglia" legato alla CPU o al sistema. Con un limite massimo del genere, le prestazioni non scalano in maniera efficiente quando vengono aggiunti più processori. A volte vengono sfruttati solo due core, e nemmeno al 100%. Anzi, in alcuni casi non oltre il 30%.
Come Nvidia ha affermato in precedenza, c'è un problema con l'overhead. Il problema principale si presenta quando dovete accodare molti frame. Impostare quattro processori differenti con un carico di lavoro sufficiente può creare delle latenze. Il diagramma fornitoci dimostra come Nvidia illustra il problema. Basandoci su questo concetto, quando si scala in minor misura c'è una grande latenza per frame. Scalare meno può significare avere prestazioni ridotte rispeto ai sistemi SLI o le configurazioni a singola scheda. Per mantenere alte le prestazioni, Nvidia deve mantenere le latenze sotto controllo per far operare propriamente il Quad-SLI.