Intel sta riposizionando la propria strategia nell'accelerazione dell'intelligenza artificiale con un approccio ibrido che potrebbe ridefinire il mercato dell'inferenza AI su larga scala. Durante la chiamata agli investitori di questa settimana, il CEO Lip-Bu Tan ha confermato lo sviluppo di un processore che integra core x86, acceleratori AI a funzione fissa e logica programmabile, un concept architetturale che sembrava definitivamente abbandonato sia da Intel che da AMD negli anni scorsi. La mossa punta a conquistare un segmento emergente del mercato AI che le soluzioni GPU tradizionali non riescono a servire in modo efficiente: carichi di lavoro caratterizzati da inferenza frammentata, bassa latenza e predominanza del flusso di controllo rispetto all'esecuzione parallela massiva.
La dichiarazione di Tan evidenzia una strategia articolata su più livelli. "Negli ultimi trimestri abbiamo sviluppato una strategia più ampia per AI e acceleratori che intendiamo affinare nei prossimi mesi", ha spiegato il CEO. "Includerà opzioni innovative per integrare le nostre CPU x86 con IP di accelerazione a funzione fissa e programmabile". L'obiettivo dichiarato è rivolgersi alla nuova ondata di carichi di lavoro AI: modelli di ragionamento, AI agentiche e fisiche, inferenza su larga scala, ambiti in cui Intel ritiene di poter differenziarsi radicalmente dalla concorrenza.
Il ritorno dei processori ibridi rappresenta una svolta strategica: all'inizio del decennio, sia AMD che Intel avevano esplorato architetture che combinassero core x86 e acceleratori derivati da GPU, ipotizzando scenari in cui il controllo del flusso di esecuzione dominasse sui calcoli paralleli massicci. La realtà dei modelli AI di frontiera ha dimostrato il contrario: l'appetito computazionale è talmente elevato che i data center privilegiano configurazioni con una CPU multi-core abbinata a otto GPU dedicate ad alte prestazioni. Entrambi i produttori avevano quindi abbandonato silenziosamente i progetti ibridi, concentrandosi su acceleratori puri basati su architetture derivate dalle GPU.
Nel caso specifico di Intel, il progetto Falcon Shores aveva subito una radicale revisione: prima la rimozione dell'IP x86 per trasformarlo in una GPU AI pura, poi la decisione di non commercializzarlo, utilizzandolo invece come piattaforma di sviluppo per lo stack software e le soluzioni rack-scale. La roadmap attuale prevede Crescent Island per il 2025 e Jaguar Shores per il 2027, due acceleratori AI con posizionamenti molto diversi. La primo è una GPU Data Center ottimizzata per l'inferenza, equipaggiata con uno o due processori ad alte prestazioni basati sull'architettura Xe3P e 160 GB di memoria LPDDR5X, progettata per gestire un'ampia gamma di tipi di dati rilevanti per carichi di inferenza, cloud provider e deployment on-premise, ottimizzata per server raffreddati ad aria.
Jaguar Shores rappresenta invece l'ammiraglia: un'architettura ottimizzata sia per il compute che per training e inferenza AI, con moltissima memoria HBM4 a bordo. Le soluzioni rack-scale basate su questa piattaforma dovrebbero integrare interconnessioni in fotonica al silicio per massimizzare le prestazioni di cluster massivi. A prima vista, questi due prodotti sembrano coprire l'intero spettro dal edge computing all'inferenza su larga scala fino al training, rendendo apparentemente superflua una terza categoria di prodotto.
Il posizionamento del nuovo design ibrido diventa chiaro analizzando i casi d'uso emergenti che né Crescent Island né Jaguar Shores possono servire in modo ottimale. Si tratta di deployment on-premise eterogenei, sensibili alla latenza, con carichi di lavoro RAG (retrieval-augmented generation), sistemi di raccomandazione, rilevamento frodi e AI fisica. Questi scenari condividono caratteristiche comuni: modelli leggeri e frammentati, motori di regole sotto rigidi accordi di latenza (SLA), situazioni in cui l'hardware strettamente integrato eccelle rispetto alle piattaforme basate esclusivamente su GPU discrete.
I sistemi di AI agentica rientrano perfettamente in questa categoria. Trascorrono la maggior parte del tempo pianificando, ramificando, chiamando strumenti o database, per poi eseguire piccoli step di inferenza con batching limitato. Questo schema di esecuzione mantiene le GPU sottoutilizzate ed evidenzia i problemi di overhead nella sincronizzazione CPU-GPU. Nei carichi di lavoro frammentati con batch di dimensioni ridotte, dove il flusso di controllo domina essenzialmente l'esecuzione, i processori eterogenei strettamente integrati con CPU, accelerazione a funzione fissa e interconnessioni a bassa latenza rappresentano una soluzione architetturale superiore rispetto alle piattaforme basate solo su GPU discrete.
L'elemento più intrigante della dichiarazione di Tan è il riferimento alla logica programmabile. Data la velocità con cui evolvono i modelli AI e quindi i carichi di lavoro, il silicio a funzione fissa limiterebbe inevitabilmente la flessibilità, costringendo a ricadere su hardware CPU e GPU e distruggendo in larga misura i vantaggi della sincronizzazione stretta. La logica programmabile permette di accelerare parti del carico di lavoro utilizzate frequentemente ma in continua evoluzione. Le speculazioni del settore indicano possibili licensing di IP FPGA da Altera o QuickLogic, che sembrerebbe disporre di IP eFPGA implementati su Intel 18A, sebbene manchino conferme ufficiali.
L'integrazione della logica programmabile solleva però questioni cruciali sull'ecosistema software. Questo tipo di architettura richiede una strettissima integrazione tra hardware e software per sfruttarne appieno il potenziale: la capacità di oneAPI di Intel di gestire efficacemente questa complessità rimane da dimostrare e potrebbe determinare il successo o il fallimento dell'intera strategia. L'approccio di Intel mira a distinguersi attraverso integrazione stretta e programmabilità, caratteristiche che AMD e NVIDIA attualmente non affrontano direttamente in questo segmento di mercato.
Il mercato dei data center on-premise rappresenta storicamente un punto di forza per Intel, e questa nuova categoria di prodotto sembra pensata specificamente per consolidare quel vantaggio nell'era dell'AI. La combinazione di familiarità con l'ecosistema x86, accelerazione dedicata per l'inferenza e flessibilità programmabile potrebbe effettivamente colmare un vuoto nell'offerta attuale. Tuttavia, il successo dipenderà dalla maturità dello stack software, dalla competitività in termini di efficienza energetica e dalla capacità di dimostrare vantaggi concreti rispetto alle soluzioni consolidate basate su GPU discrete abbinate a CPU tradizionali.
La tempistica rimane ancora incerta. Intel ha annunciato l'intenzione di raffinare questa strategia nei prossimi mesi, senza fornire date di lancio specifiche. Con Crescent Island previsto per quest'anno e Jaguar Shores per il 2027, il processore ibrido potrebbe posizionarsi temporalmente tra i due, o seguire una roadmap parallela dedicata. L'evoluzione di questa strategia sarà cruciale per comprendere se Intel riuscirà effettivamente a ritagliarsi uno spazio distintivo nel competitivo mercato dell'accelerazione AI, dominato attualmente dalle soluzioni NVIDIA e sempre più insidiato dalle proposte AMD e dai chip custom dei grandi cloud provider.