La comprensione dei meccanismi interni dei modelli di intelligenza artificiale rappresenta oggi una delle sfide più urgenti della ricerca scientifica. Mentre sistemi come GPT-5, Claude di Anthropic e Gemini di Google DeepMind raggiungono capacità sempre più sofisticate e vengono integrati in domini critici della società, i ricercatori si confrontano con un paradosso: questi strumenti funzionano, ma nessuno comprende esattamente come. OpenAI ha ora sviluppato un approccio radicalmente diverso alla costruzione di modelli linguistici, progettando un'architettura che sacrifica prestazioni per trasparenza, nella speranza di illuminare i processi nascosti all'interno dei suoi sistemi più potenti.
Il nuovo modello sperimentale, definito weight-sparse transformer, si basa su un'architettura neurale fondamentalmente diversa da quella utilizzata nei modelli commerciali. Mentre le reti neurali convenzionali sono "dense" – con ogni neurone connesso a tutti i neuroni degli strati adiacenti – questo sistema mantiene solo connessioni selettive tra neuroni specifici. "Le reti neurali sono grandi, complicate e intricate, molto difficili da comprendere", spiega Dan Mossing, responsabile del team di interpretabilità meccanicistica di OpenAI. "Ci siamo chiesti: e se provassimo a far sì che non fosse così?"
Questa scelta architetturale costringe il modello a rappresentare concetti e funzioni in cluster neuronali localizzati, anziché distribuirli attraverso l'intera rete in modo inestricabile. Il fenomeno della superposizione – termine mutuato dalla fisica quantistica che descrive come singoli neuroni possano codificare simultaneamente molteplici caratteristiche diverse – viene così drasticamente ridotto. Il risultato è un sistema dove specifiche parti del modello possono essere messe in relazione con specifici concetti, aprendo una finestra senza precedenti sui processi computazionali dell'intelligenza artificiale.
Le capacità del sistema rimangono però estremamente limitate. Come rivela Leo Gao, ricercatore di OpenAI e primo autore del lavoro, il modello raggiunge al massimo le prestazioni di GPT-1, sviluppato dall'azienda nel 2018, risultando quindi molto meno capace dei sistemi di punta attualmente sul mercato. La sua velocità di elaborazione è inoltre significativamente inferiore a qualsiasi modello linguistico commerciale. L'obiettivo, tuttavia, non è competere con i sistemi avanzati, ma studiare attraverso questo prototipo trasparente i meccanismi che operano nei modelli più grandi e opachi.
I test condotti dal team si sono concentrati su compiti elementari, come completare un blocco di testo che inizia con virgolette aggiungendo le corrispondenti virgolette di chiusura. Operazioni banali per un modello linguistico moderno, ma che servono a dimostrare la tracciabilità dei processi decisionali. "Abbiamo effettivamente identificato un circuito che replica esattamente l'algoritmo che implementeresti manualmente, ma è stato appreso completamente dal modello", afferma Gao. La capacità di seguire passo dopo passo le operazioni interne rappresenta un risultato significativo in un campo dove l'opacità computazionale costituisce la norma.
Questa linea di ricerca si inserisce nel contesto emergente dell'interpretabilità meccanicistica, un settore che mira a mappare i meccanismi interni utilizzati dai modelli durante l'esecuzione di compiti diversi. Lee Sharkey, ricercatore presso la startup AI Goodfire, valuta positivamente l'approccio: "Questo lavoro punta all'obiettivo giusto e sembra ben eseguito". Anche Elisenda Grigsby, matematica del Boston College che studia il funzionamento dei modelli linguistici senza essere coinvolta nel progetto, riconosce il valore dell'iniziativa: "Sono certa che i metodi introdotti avranno un impatto significativo".
Le limitazioni dell'approccio rimangono però evidenti. Grigsby esprime scetticismo sulla scalabilità della tecnica a modelli di dimensioni maggiori che devono gestire compiti più complessi e diversificati. Gao e Mossing riconoscono apertamente questa criticità, ammettendo che la metodologia non porterà mai a modelli con prestazioni comparabili a GPT-5 o altri sistemi di frontiera. L'ambizione di OpenAI è tuttavia costruire entro alcuni anni un modello completamente interpretabile con capacità paragonabili a GPT-3, il sistema rivoluzionario presentato dall'azienda nel 2021.
"Forse tra qualche anno potremmo avere un GPT-3 completamente interpretabile, dove potresti entrare in ogni singola parte e comprendere come esegue ogni singola operazione", prospetta Gao. "Se avessimo un sistema del genere, impareremmo enormemente". La posta in gioco è elevata: man mano che i sistemi di intelligenza artificiale diventano più potenti e vengono integrati in domini sempre più critici – dalla medicina alla giustizia, dalla finanza alla sicurezza – garantirne la sicurezza e la comprensibilità diventa imperativo.