Nell'intelligenza artificiale multimodale — quella branca che si occupa di integrare e interpretare simultaneamente testi, immagini, audio e video — uno dei nodi metodologici più spinosi riguarda la scelta dell'algoritmo più adatto a ciascun problema specifico. Questa decisione, spesso laboriosa e non sistematizzata, rallenta lo sviluppo di nuovi modelli e introduce elementi di arbitrarietà in un campo che cresce a ritmo sostenuto. Un gruppo di fisici dell'Università Emory ha affrontato questa sfida con gli strumenti propri della fisica teorica, pubblicando i risultati su The Journal of Machine Learning Research: una struttura matematica unificante, battezzata Variational Multivariate Information Bottleneck Framework, capace di organizzare sistematicamente i metodi di intelligenza artificiale e guidare la progettazione di algoritmi su misura per problemi specifici.
Il punto di partenza intellettuale del lavoro è tanto semplice quanto potente: secondo Ilya Nemenman, professore di fisica all'Università Emory e autore senior dello studio, "molti dei metodi di IA oggi più efficaci si riducono a una singola idea elementare: comprimere più tipi di dati quanto basta per conservare solo le componenti che predicono davvero ciò di cui si ha bisogno." Questa osservazione ha guidato il team verso la costruzione di una sorta di "tavola periodica" dei metodi di intelligenza artificiale, in cui ciascun metodo occupa una cella specifica in base a quali informazioni la sua funzione di perdita conserva o scarta.
La funzione di perdita è il cuore matematico di ogni modello di apprendimento automatico: è la formula che misura quanto le previsioni del sistema si discostino dalla risposta corretta, e durante l'addestramento il modello si aggiusta iterativamente per minimizzarla. Esistono già centinaia di funzioni di perdita diverse per i sistemi di IA multimodale, ciascuna ottimizzata per contesti particolari. Il problema, come osserva Nemenman, è che ogni nuovo problema ha storicamente richiesto di ripartire da zero nella progettazione di questa componente fondamentale.
Il framework sviluppato dal gruppo di Emory offre invece una struttura generale: anziché inventare ogni volta una nuova funzione di perdita, il ricercatore può operare su un "pannello di controllo" matematico che permette di decidere sistematicamente quali informazioni preservare e quali eliminare. "È essenzialmente come una manopola di regolazione," spiega Michael Martini, co-autore dello studio che ha lavorato al progetto come ricercatore postdottorale nel gruppo di Nemenman. "Si può 'girare la manopola' per determinare quali informazioni conservare per risolvere un problema particolare."
Il percorso verso questa formalizzazione è stato tutt'altro che lineare. Eslam Abdelaleem, primo autore dell'articolo, ha avviato il lavoro come dottorando in fisica a Emory prima di laurearsi e trasferirsi al Georgia Institute of Technology come postdoc. Lui e Martini hanno trascorso anni a sviluppare le fondamenta matematiche del framework, lavorando a mano su lavagne e fogli di carta, testando le idee al computer, e tornando spesso al punto di partenza dopo aver esplorato approcci non produttivi. "È stato molto lavoro per tentativi ed errori, con molti ritorni alla lavagna," ricorda Martini.
Il momento decisivo è arrivato quando il team ha identificato un principio unico in grado di descrivere l'equilibrio tra compressione dei dati e loro ricostruzione — il compromesso fondamentale al cuore di moltissimi metodi di apprendimento automatico. La validazione su due dataset di test ha dimostrato che il framework era capace di scoprire autonomamente caratteristiche condivise e rilevanti tra sorgenti di dati diverse, comportamento atteso e auspicato in qualsiasi sistema di IA multimodale ben progettato. La reazione di Abdelaleem fu così intensa che il suo smartwatch Samsung Galaxy — che usa l'IA per monitorare parametri fisiologici come la frequenza cardiaca — interpretò la sua eccitazione come tre ore consecutive di ciclismo.
Sul piano applicativo, il framework è stato testato su decine di metodi di IA esistenti, dimostrando di poter derivare funzioni di perdita in modo più diretto e con quantità di dati di addestramento inferiori rispetto agli approcci convenzionali. Questo aspetto ha implicazioni non solo tecniche ma anche ambientali: ridurre la quantità di dati necessari significa ridurre la potenza computazionale richiesta, abbassando così l'impatto energetico dei sistemi di intelligenza artificiale, che è diventato una questione di crescente rilevanza nel dibattito scientifico e politico. Come sottolinea Nemenman, ciò potrebbe inoltre aprire la strada a esperimenti in domini dove i dati disponibili sono attualmente insufficienti.
Il framework consente inoltre di prevedere quali algoritmi hanno più probabilità di funzionare per un dato problema, stimare quanti dati di addestramento saranno necessari, e anticipare i possibili punti di fallimento — strumenti di progettazione che la comunità di machine learning attualmente non possiede in forma sistematizzata. L'approccio è radicato nella cultura epistemologica della fisica: mentre la comunità del machine learning tende a privilegiare l'accuratezza dei risultati indipendentemente dalla comprensione dei meccanismi sottostanti, i fisici di Emory hanno invece cercato principi fondamentali capaci di unificare e spiegare.
Le prospettive future del progetto si estendono verso la biologia e le neuroscienze computazionali. Abdelaleem ha dichiarato il suo interesse a comprendere come il cervello umano comprima ed elabori simultaneamente molteplici sorgenti di informazione, e se sia possibile sviluppare strumenti che evidenzino analogie strutturali tra i modelli di machine learning e i circuiti neurali biologici. Una tale convergenza metodologica potrebbe arricchire la comprensione di entrambi i sistemi, artificiale e biologico, aprendo un dialogo produttivo tra intelligenza artificiale, neuroscienze e fisica teorica — discipline che condividono, più di quanto sembri, la ricerca di leggi profonde sotto la complessità superficiale dei fenomeni.