Da quando è esploso il boom dell’AI alla fine del 2022, abbiamo tutti potuto osservare le incredibili capacità dell’intelligenza artificiale generativa. Dagli inviti di compleanno alla generazione di codice, i modelli linguistici di grandi dimensioni (LLM) e le applicazioni che li utilizzano sono diventati molto più diffusi. E non c’è da stupirsi, considerando la loro capacità di rispondere a domande su un’ampia gamma di argomenti e di generare contenuti con estrema rapidità. Negli ultimi due anni abbiamo assistito a continui aggiornamenti da parte dei principali attori del settore, che hanno stabilito nuovi record nel numero di parametri su cui vengono addestrati i modelli più recenti. Gli ultimi modelli Llama, ad esempio, sono stati addestrati su ben 70 miliardi di parametri.
Ma il meccanismo che ha portato ai principali avanzamenti nei modelli, ovvero più potenza di calcolo e un numero sempre maggiore di parametri, ora sta iniziando a mostrare rendimenti decrescenti. Dopotutto, c’è un limite a quanto si può imparare da enormi quantità di dati in internet. E sebbene i modelli stiano diventando sempre più smart, quella potenza in più è semplicemente eccessiva per la maggior parte degli utilizzi aziendali dell’AI.
È quindi arrivato il momento di sfatare il mito delle dimensioni e di accettare che, per quanto riguarda i modelli linguistici, meno è davvero di più.
Togliamo le “grandi dimensioni” dai modelli linguistici
I modelli più efficaci per le imprese sono quelli in grado di offrire competenze precise e adattate alle esigenze di ciascun settore. Ed è proprio qui che molti LLM generici possono fallire, frenati da dati obsoleti o errati che portano a risposte imprecise. Dalle conversazioni con aziende di diversi settori emerge chiaramente che la stragrande maggioranza delle attività svolte con l’AI è di complessità medio-bassa. Si tratta, ad esempio, di sintetizzare atti o documenti, supportare la redazione di messaggi o effettuare semplici analisi dei dati. Nessuno di questi compiti richiede miliardi di insight: è come usare un supercomputer per un’attività elementare.
Eppure, nella corsa all’adozione dell’AI, si tende spesso a trascurare l'importanza di un corretto dimensionamento. Una fase essenziale nella progettazione iniziale di un progetto AI dovrebbe prevedere un'attenta selezione del modello linguistico più adatto, anche in termini di scala. Invece, spesso si ricorre automaticamente a ChatGPT, ormai diventato l’equivalente moderno del famoso detto: “Nessuno è mai stato licenziato per aver scelto IBM”. Il concetto di right-sizing dell’AI dovrebbe entrare a far parte del dibattito sulla governance dell’intelligenza artificiale: non tutte le attività richiedono GPT-4.
Tutto questo viene ulteriormente accentuato dalla corsa delle aziende a lanciare sul mercato applicazioni AI il più rapidamente possibile, per non perdere l'opportunità offerta da questa tecnologia. Ma solo più avanti, quando i cicli di calcolo richiesti da questi modelli di grandi dimensioni iniziano ad accumularsi, emerge il vero costo.
I vantaggi dei modelli linguistici di piccole e medie dimensioni (SLM)
Gli SLM offrono numerosi benefici alle aziende. Eseguire un LLM di grandi dimensioni in produzione, soprattutto per inferenze in tempo reale, comporta costi elevatissimi, mentre i modelli linguistici di piccole e medie dimensioni necessitano di una minore potenza computazionale, consentendo di contenere i costi operativi e ridurre sia il consumo energetico sia l’impatto ambientale. Inoltre, questi modelli sono più facili da addestrare e perfezionare, senza i lunghi e complessi processi di training che sono tipici per i LLM, e risultano così sempre pertinenti e allineati al contesto d’uso.
Dal punto di vista degli sviluppatori, gli SLM offrono anche una maggiore flessibilità di deployment, grazie alle loro ridotte esigenze computazionali. Questo è particolarmente utile in ambienti con risorse limitate, come i server on-premises o privati, e in settori regolamentati come la sanità o la finanza, dove sicurezza e controllo dei dati sono irrinunciabili. In questi ambiti, si osserva spesso che modelli più piccoli superano in prestazioni quelli più grandi, proprio perché l’efficacia delle risposte dipende dall’utilizzo di dati altamente specializzati, che raramente vengono pienamente integrati durante il training dei LLM generici.
Un ulteriore vantaggio per le imprese è la possibilità di combinare più SLM tramite sistemi intelligenti di model routing o motori di ragionamento, selezionando in tempo reale il modello più adatto a ciascun compito, invece di affidarsi sempre a un unico sistema monolitico.
Infine, i modelli più piccoli contribuiscono anche a migliorare la gestione dei dati e garantirne la sovranità, aspetti che diventeranno sempre più centrali con l’evoluzione di normative come l’AI Act dell’Unione Europea. Limitando la necessità di ricorrere a LLM centralizzati, si offre agli sviluppatori la possibilità di costruire applicazioni che assicurino la permanenza dei dati entro i confini stabiliti e la piena conformità ai requisiti normativi. Questo approccio non solo riduce i rischi di non conformità, ma promuove anche una maggiore trasparenza e responsabilità nello sviluppo dei sistemi di AI, che stanno già diventando i pilastri fondamentali delle pratiche di intelligenza artificiale responsabile.
Efficienza senza eccessi
Dobbiamo quindi abbandonare l’idea che modelli più grandi producano automaticamente risultati migliori. Il vero valore non sta nella scala, ma nell’adeguatezza allo scopo. Le attività quotidiane non richiedono l’equivalente computazionale di una centrale elettrica. Non bisogna scegliere il modello più grande solo perché è il più diffuso. Dovremmo invece scegliere gli strumenti più adatti al compito da svolgere, evitando di usare un martello pneumatico dove basta un bisturi. I modelli più piccoli offrono efficienza, risparmio, controllo e, soprattutto, risultati necessari.