Un team di ricercatori di sicurezza informatica ha scoperto vulnerabilità critiche che consentono l'esecuzione di codice da remoto nei principali framework di inferenza per l'intelligenza artificiale, colpendo progetti sviluppati da Meta, Nvidia e Microsoft, oltre a piattaforme open source come vLLM e SGLang. La falla, identificata da Oligo Security, si è propagata attraverso un meccanismo apparentemente banale ma devastante: la copia e incolla di codice non sicuro tra repository diversi, creando un effetto domino che ha compromesso l'intera catena dell'ecosistema AI.
Un framework di inferenza AI è un software specializzato progettato per eseguire modelli di machine learning già addestrati. Il suo scopo è prendere un modello "imparato" e applicarlo a dati nuovi nel mondo reale, ottimizzandolo per massima velocità, efficienza e scalabilità in ambienti di produzione.
Si tratta di una carenza strutturale nella sicurezza dell'infrastruttura AI enterprise, dove i server di inferenza gestiscono dati sensibili, modelli proprietari e informazioni dei clienti. La scoperta solleva interrogativi inquietanti sulle pratiche di sviluppo nel settore AI, dove la pressione per accelerare il time-to-market sembra prevalere sulla verifica rigorosa della sicurezza del codice.
Secondo Avi Lumelsky, ricercatore di Oligo Security, il denominatore comune delle vulnerabilità risiede nell'uso non autenticato di ZeroMQ (ZMQ) combinato con la deserializzazione tramite Python pickle, una libreria notoriamente pericolosa quando esposta a dati non fidati. Il problema originale è emerso nel Llama Stack di Meta, dove una funzione riceveva dati attraverso il metodo 'recv-pyobj()' di ZeroMQ per poi passarli direttamente a 'pickle.loads()' di Python, permettendo l'esecuzione di codice arbitrario attraverso socket non autenticati.
ZeroMQ (o ØMQ) è una libreria di messaggistica asincrona ad alte prestazioni. Non è un broker tradizionale (come RabbitMQ), ma un "socket potenziato" che crea connessioni veloci e leggere tra applicazioni. Supporta vari pattern (come pub/sub, request/reply) per costruire sistemi distribuiti e concorrenti in modo efficiente.
Il meccanismo di propagazione battezzato "ShadowMQ" da Oligo rappresenta un caso di studio preoccupante. Lo stesso pattern vulnerabile identificato in Meta è stato replicato quasi identicamente in Nvidia TensorRT-LLM, vLLM, SGLang e Modular Max Server. In alcuni casi, i ricercatori hanno trovato commenti espliciti nel codice che dichiaravano "codice preso da vLLM", a testimonianza di come la pratica del riuso acritico abbia diffuso la vulnerabilità. Non si tratta quindi di un bug indipendente scoperto in progetti separati, ma di una contaminazione seriale del codice sorgente attraverso l'intero ecosistema.
L'impatto potenziale è significativo. Oligo ha identificato migliaia di socket ZeroMQ esposti su Internet pubblico, alcuni dei quali collegati a cluster di inferenza reali in produzione. Un attaccante che sfrutasse queste vulnerabilità potrebbe eseguire codice arbitrario su cluster GPU, elevare privilegi, sottrarre modelli proprietari o dati dei clienti, o installare mining software per criptovalute. In sostanza, l'infrastruttura AI aziendale, spesso considerata un asset strategico, può trasformarsi in un vettore di attacco critico.
Meta ha ricevuto la segnalazione della vulnerabilità (CVE-2024-50050) nel settembre 2024 e ha rapidamente sostituito l'uso di pickle con serializzazione basata su JSON. Successivamente, sono stati identificati e risolti problemi analoghi in vLLM (CVE-2025-30165), Nvidia TensorRT-LLM (CVE-2025-23254) e Modular Max Server (CVE-2025-60455). Tutti i vendor coinvolti hanno implementato logiche alternative per neutralizzare la falla.
La diffusione di SGLang risulta particolarmente critica considerando la sua adozione da parte di organizzazioni come xAI, AMD, Nvidia, Intel, LinkedIn, Cursor, Oracle Cloud e Google Cloud. Questo significa che la vulnerabilità ha potenzialmente toccato infrastrutture AI su larga scala in contesti enterprise ad alta sensibilità. La superficie di attacco esposta è quindi considerevolmente ampia, coinvolgendo non solo startup tecnologiche ma anche colossi del cloud computing e dell'hardware.
Oligo raccomanda l'aggiornamento immediato alle versioni corrette: Meta Llama Stack v0.0.41, Nvidia TensorRT-LLM 0.18.2, vLLM v0.8.0 e Modular Max Server v25.6 o successive. Oltre al patching, i ricercatori suggeriscono l'adozione di pratiche di sviluppo più rigorose: evitare pickle con dati non fidati, implementare autenticazione HMAC e TLS per comunicazioni ZMQ, e rafforzare la formazione dei team di sviluppo sui rischi di sicurezza legati alla deserializzazione.
Se pratiche di sviluppo inadeguate possono propagarsi attraverso il copia-incolla di codice non verificato, quale livello di audit e revisione viene effettivamente applicato prima che questi framework vengano adottati in produzione da aziende che gestiscono dati critici?
La velocità di sviluppo nell'AI sta forse creando un debito di sicurezza sistemico che l'industria dovrà affrontare con crescente urgenza, soprattutto mentre regolamentazioni come l'AI Act europeo iniziano a imporre requisiti stringenti sulla robustezza e sicurezza dei sistemi di intelligenza artificiale.