Altro che rubare il lavoro all'uomo o creare contenuti standardizzati. Le sfide reali dell'IA, che tengono svegli la notte i responsabili delle aziende, i CTO, riguardano la capacità infrastrutturale, la velocità di implementazione e la flessibilità operativa. L'esperienza di Recursion, azienda biotecnologica specializzata nell'analisi di enormi quantità di dati biologici, illustra perfettamente questo cambiamento di prospettiva. Il Chief Technology Officer Ben Mabey racconta che il vero punto di svolta per l'azienda è arrivato quando si sono rivolti ai fornitori cloud per aumentare la capacità computazionale, ricevendo una risposta che non si aspettavano: avrebbero dovuto attendere almeno un anno. Questa frustrazione ha spinto Recursion a costruire una propria infrastruttura ibrida, combinando cluster on-premise con servizi cloud in base alle specifiche esigenze.
La strategia adottata da Recursion prevede un approccio differenziato: i grandi lavori di addestramento vengono eseguiti su cluster proprietari dotati di GPU Nvidia, mentre i carichi di lavoro più brevi e meno urgenti vengono affidati al cloud. L'azienda utilizza una tecnica chiamata "pre-emption", che consente di interrompere attività GPU in esecuzione per dare priorità ad altre, accettando tempi di completamento più lunghi in cambio di costi inferiori. Dal punto di vista economico, Mabey stima che spostare grandi carichi di lavoro su infrastruttura proprietaria risulti circa dieci volte più conveniente rispetto al cloud, con un costo totale di proprietà dimezzato su un periodo di cinque anni.
Wonder, piattaforma di consegna di cibo e ristorazione da asporto, offre una prospettiva complementare su queste dinamiche. Il CTO James Chen ha rivelato che "l'intelligenza artificiale aggiunge solo tra i 2 e i 3 centesimi per ordine", una frazione quasi irrilevante rispetto ai costi operativi complessivi dell'azienda. La componente tecnologica totale di un ordine ammonta a 14 centesimi, e sebbene la quota dell'IA stia crescendo rapidamente verso i 5-8 centesimi, rimane un elemento marginale del bilancio.
La sorpresa maggiore per Wonder è arrivata quando l'azienda ha dovuto confrontarsi con i limiti fisici dell'infrastruttura cloud. Nata con l'assunzione che la capacità computazionale fosse illimitata, l'azienda si è ritrovata circa sei mesi fa a ricevere segnali dai fornitori cloud sulla necessità di spostarsi in una seconda regione a causa dell'esaurimento delle capacità di CPU e storage. Chen ha descritto questo momento come "molto scioccante", ammettendo che avevano previsto di implementare una strategia multiregionale solo tra due anni.
Il tema della gestione del budget rappresenta un'altra area di complessità inaspettata. Chen descrive il processo come "un'arte, non una scienza", particolarmente difficile in un contesto dove il ritmo di sviluppo è frenetico e ogni nuovo modello che emerge deve essere immediatamente testato e potenzialmente integrato. Wonder deve bilanciare la necessità di dare ai propri sviluppatori e data scientist libertà di sperimentazione con il controllo dei costi, monitorando costantemente l'utilizzo per evitare che qualche modello attivato generi bollette esorbitanti.
Un aspetto particolarmente interessante emerso dall'esperienza di Wonder riguarda il costo del contesto nei sistemi basati su grandi modelli linguistici. Chen ha spiegato che quando l'azienda trova qualcosa che funziona, lo aggiunge al "corpus di contesto" aziendale, che viene inviato con ogni richiesta al modello. Questa pratica, fondamentale per mantenere coerenza e qualità, genera tra il 50% e l'80% dei costi totali, semplicemente per reinviare le stesse informazioni al motore a ogni richiesta.
Anche le ambizioni future rivelano dove si trovano i veri ostacoli economici. Wonder vorrebbe passare da modelli di grandi dimensioni a micro-modelli iper-personalizzati per ogni utente, basati sulla cronologia degli acquisti e persino sui pattern di navigazione. Tuttavia, come ha ammesso Chen, creare un modello dedicato per ogni persona non è attualmente economicamente fattibile, nonostante rappresenterebbe la soluzione ideale per massimizzare la personalizzazione dell'esperienza utente.
Sul fronte dell'infrastruttura fisica, Mabey di Recursion ha sfatato alcuni miti diffusi sull'obsolescenza hardware. Le GPU da gaming Nvidia 1080, acquistate nel 2017, sono ancora operative e utilizzate dall'azienda, contraddicendo l'idea che la vita utile di una GPU sia limitata a tre anni. Le Nvidia A100, in particolare, vengono descritte come "il cavallo di battaglia del settore", ancora al vertice delle prestazioni per molti casi d'uso.
La questione psicologica legata agli investimenti in infrastruttura IA emerge con forza dalle parole di Mabey, che ha osservato colleghi del settore paralizzati dalla paura di far lievitare le bollette cloud. Questi team finiscono per utilizzare molto meno risorse computazionali del necessario, limitando drasticamente la loro capacità di innovazione. Per ottenere soluzioni davvero convenienti, secondo Mabey, le aziende devono essere disposte a impegnarsi in acquisizioni pluriennali, accettando una visione strategica di lungo periodo piuttosto che inseguire la flessibilità immediata del modello pay-per-use.
Entrambe le esperienze concordano su un punto fondamentale: per le aziende che utilizzano l'IA su larga scala, il dibattito si è spostato dal "come pagare l'IA" al "quanto velocemente può essere implementata e sostenuta". La capacità infrastrutturale, la velocità di deployment e la flessibilità operativa sono diventate le vere variabili critiche, mentre i costi di elaborazione, pur rimanendo un fattore da gestire, non rappresentano più il vincolo principale per l'innovazione basata sull'intelligenza artificiale.