I ricercatori di Google Research hanno svelato durante la conferenza NeurIPS 2025 un nuovo approccio architetturale denominato Nested Learning (NL), progettato per risolvere l'incapacità strutturale dei modelli linguistici attuali di apprendere nuove informazioni dopo la fase di addestramento. Questo paradigma, che trae ispirazione dai meccanismi di consolidamento della memoria umana, propone di trasformare le reti neurali in sistemi dinamici, capaci di auto-modificarsi e aggiornare la propria conoscenza in tempo reale senza necessitare di cicli di riaddestramento completi.
La rilevanza di questa pubblicazione risiede nel fatto che l'intera infrastruttura dell'intelligenza artificiale generativa moderna si basa su un presupposto di staticità che ne limita drasticamente l'evoluzione. Attualmente, un modello, per quanto avanzato, rimane "congelato" al momento del suo rilascio, simile a un paziente affetto da amnesia anterograda che non può formare nuovi ricordi a lungo termine.
Superare questo blocco strutturale non significa solo migliorare le prestazioni, ma ridefinire il concetto stesso di software, passando da esecutori di istruzioni a sistemi che evolvono organicamente attraverso l'uso, con impatti profondi su settori critici come la ricerca scientifica e l'automazione industriale.
Jensen Huang, CEO di Nvidia, ha recentemente sottolineato come il futuro dell'innovazione non risieda più esclusivamente nel software tradizionale, ma nella convergenza tra informatica e scienze fisiche o biologiche. L'approccio del Nested Learning incarna questa visione, fondendo la matematica dei Transformer con i principi delle neuroscienze per affrontare il tallone d'Achille dell'AI moderna: l'incapacità di apprendere continuamente dall'esperienza. I modelli odierni, pur essendo vasti archivi di conoscenza, soffrono di una mancanza di continuità nella gestione della memoria, un problema che NL intende risolvere alla radice.
Anatomia di un limite: l'illusione della profondità
L'architettura dominante dell'ultimo decennio, il Transformer, ha mostrato capacità straordinarie, ma soffre di un difetto intrinseco: la separazione netta tra la fase di apprendimento e quella di utilizzo. Nonostante l'accumulo di strati (layer) che suggerisce una notevole "profondità" di calcolo, questi modelli operano in una modalità che potremmo definire superficiale nel tempo. Essi processano il contesto immediato ma non consolidano mai l'informazione acquisita nei loro parametri a lungo termine. Il risultato è un sistema che vive in un eterno presente, costretto a resettare la propria memoria di lavoro a ogni nuova sessione.
-
Inferenza: È la fase in cui il modello AI, già addestrato, viene utilizzato per generare risposte o previsioni. In questa fase, il modello tradizionale non impara nulla di nuovo; applica solo le regole apprese in precedenza.
-
Backpropagation (Retropropagazione): È l'algoritmo fondamentale per l'addestramento delle reti neurali. Calcola l'errore nelle risposte del modello e lo "propaga all'indietro" attraverso la rete per aggiornare i pesi delle connessioni, permettendo così l'apprendimento.
Mentre il cervello umano consolida i ricordi a breve termine in memorie a lungo termine attraverso processi biologici complessi, i Transformer attuali mancano di un meccanismo analogo. L'informazione entra, viene elaborata nella "finestra di contesto", e svanisce non appena quella finestra si chiude o si riempie, rendendo impossibile un vero apprendimento continuo.
In altre parole, puoi contare su una memoria limitate finché resti nella stessa chat di conversazione, ma non appena ne apri un’altra i dati vanno persi. Usare GPT customizzati riesce solo a mitigare il problema.
Di base, i chatbot funzionano in modo statico, uguali a sé stessi ogni giorno. Le informazioni che forniamo loro quando li usiamo non vengono sfruttate per un miglioramento continuo.
I limiti strutturali identificati dai ricercatori sono tre:
- la separazione artificiale tra l'architettura della rete e l'algoritmo di ottimizzazione che la allena;
- una gestione rigida e binaria della memoria (o statica nei pesi o volatile nel contesto);
- la natura "inspiegabile" dell'apprendimento contestuale (In-Context Learning), che oggi appare più come un fenomeno emergente che come una funzionalità ingegnerizzata.
Il Nested Learning mira ad abbattere queste barriere, trasformando ogni componente della rete in un sistema adattivo.
Nested Learning: ispirarsi al cervello per curare l'IA
La risposta proposta dallo studio è il Nested Learning, una filosofia che abbandona l'idea di un'unica velocità di apprendimento per abbracciare una gerarchia temporale. Ancora una volta si prende il cervello umano come punto di riferimento, in un tentativo di imitazione che deve essere giocoforza imperfetto - ma che può comunque portare a un miglioramento tecnologico.
Nel nostro cervello, le informazioni non viaggiano tutte alla stessa velocità: i ricordi e le attività neurali hanno scale temporali differenti, dalla percezione sensoriale immediata al consolidamento della memoria profonda. Il cervello possiede una struttura uniforme ma opera su scale temporali multiple per gestire l'apprendimento.
Memoria Associativa
La Memoria Associativa è un sistema capace di apprendere e recuperare relazioni tra dati (input) e risultati (output). Nel contesto del Nested Learning, ogni componente della rete neurale, inclusi gli algoritmi di ottimizzazione, viene reinterpretato come una memoria associativa che cerca di "comprimere" i dati che riceve.
Il paradigma NL applica questo principio alle reti neurali, strutturandole come sistemi "annidati" (nested). Invece di avere un monolite di parametri statici, il modello viene scomposto in livelli che operano a frequenze diverse. I livelli ad alta frequenza si adattano rapidamente ai nuovi dati (simulando la memoria a breve termine), mentre i livelli a bassa frequenza integrano queste informazioni più lentamente, consolidandole in una struttura stabile e riutilizzabile. Questo design mira a replicare la plasticità neurale, permettendo al sistema di modificarsi costantemente senza perdere le conoscenze pregresse.
HOPE e i Deep Optimizers
Una delle intuizioni più tecniche e affascinanti del paper è la ridefinizione degli strumenti che usiamo per costruire l'IA. Gli "ottimizzatori" (come Adam o SGD), tradizionalmente visti come semplici regole matematiche esterne al modello, vengono qui riclassificati come memorie associative essi stessi. Essi "ricordano" il gradiente dell'errore per guidare l'apprendimento. Portando questa logica all'estremo, i ricercatori introducono il concetto di Deep Optimizers: ottimizzatori che non seguono regole fisse, ma imparano essi stessi come far apprendere meglio il modello.
Ottimizzatore
Un Ottimizzatore è l'algoritmo che decide come modificare i parametri del modello per ridurre l'errore. Funziona come una guida che suggerisce alla rete neurale in quale "direzione" muoversi per migliorare le proprie prestazioni. Esempi comuni sono Adam e SGD (Discesa del Gradiente Stocastico).
Per dimostrare la fattibilità di questa teoria, è stata presentata l'architettura HOPE (High-Order Processing Engine). Questo sistema combina un modulo di "Self-Modifying Titans" (un'unità che impara a modificare le proprie regole di aggiornamento) con un sistema di memoria continuo. A differenza dei modelli statici, HOPE possiede livelli che apprendono dai dati, livelli che apprendono come il livello inferiore dovrebbe apprendere, e così via, creando un sistema capace di auto-riflessione e adattamento continuo.
Oltre la context window
Il problema della "finestra di contesto" (la quantità di testo che un'IA può "leggere" in una volta) è oggi affrontato con forza bruta, aumentando la memoria RAM richiesta e i costi di inferenza. Il Nested Learning propone invece il CMS (Continuum Memory System), un sistema che sostituisce i blocchi statici dei Transformer con una catena di memorie che si aggiornano a ritmi diversi.
Questo approccio permette di gestire contesti teoricamente infiniti senza i costi proibitivi dei Transformer tradizionali. Quando un'informazione viene "dimenticata" da un livello veloce perché troppo vecchia, essa è già stata assorbita e compressa dai livelli più lenti, creando un loop temporale che preserva la conoscenza. Nei test su benchmark complessi come Needle-In-A-Haystack (trovare un dato specifico in una mole immensa di testo), l'architettura HOPE ha dimostrato di poter mantenere prestazioni elevate anche su sequenze di milioni di token, dove i modelli tradizionali tendono a collassare o ad avere "allucinazioni".
Sì ma l’energia?
I modelli attuali consumano una quantità enorme di energia durante il pre-addestramento ("una tantum"), ma l'inferenza successiva è relativamente più leggera, pur rappresentando il terreno di sfida determinante in questo momento. Un modello basato su Nested Learning, che aggiorna costantemente i propri parametri in tempo reale, sposta parzialmente il carico computazionale dalla fase di training alla fase di utilizzo continuo.
Sebbene il CMS possa essere efficiente grazie all'aggiornamento di un piccolo numero di parametri alla volta e alla parallelizzazione, l'implementazione su scala globale di miliardi di agenti AI che modificano costantemente la propria struttura neurale potrebbe comportare un costo energetico maggiore.
Sì perché dobbiamo immaginare una fase di training che non finisce mai, e da il documento di Google non lascia intendere che si sarebbero miglioramenti dal punto di vista del consumo energetico. Serve quindi una nuova visione per l’industrializzazione dell’AI.
Dunque, questo sistema che simula la memoria umana rischia di aumentare ancora il problema energetico; e di certo non ne abbiamo bisogno.
Senza un'adeguata ottimizzazione hardware specifica per questi carichi di lavoro dinamici, il rischio è di barattare l'amnesia dei Transformer con un consumo energetico insostenibile per i data center del futuro.
Sicuramente possiamo immaginare lo sviluppo di nuovo hardware specifico, in grado di fare questo lavoro consumando meno. Oggi tuttavia quell’hardware non c’è ancora.
L'abbandono dell'architettura statica in favore di sistemi dinamici come HOPE segna forse l'inizio della fine per l'era del "pre-training" massivo come unico paradigma dominante. Se vogliamo macchine capaci di ragionare e adattarsi come esseri viventi, dobbiamo accettare che, come gli esseri viventi, esse debbano cambiare nel tempo. Resta da vedere se le nostre infrastrutture, e il nostro pianeta, siano pronti a sostenerne il metabolismo energetico.
L’impatto sulle nostre vite, a casa e in ufficio
Il paper di Google è ricerca pura per il momento, ma è del tutto lecito supporre che quella indicata sia la direzione per i prossimi anni. Sembra opportuno dunque cominciare a riflettere su nuovi sistema AI che saranno in grado di apprendere continuamente, con una memoria che potrà espandersi e crescere fuori dalla finestra di chat.
Se ci riflettiamo prima, infatti, forse saremo in grado di non farci cogliere impreparati dalla nuova AI “post Trasformer”.
Se il modello non è più un monolite statico uguale per tutti, ma un organismo che si adatta all'input del singolo utente, ci troviamo di fronte a una frammentazione radicale dell'esperienza software. Qualcosa difficile da tenere in considerazione se pensiamo all’uso dall’AI in azienda.
La prima criticità riguarda la stabilità comportamentale e la coerenza. In un sistema statico, se due dipendenti pongono la stessa domanda, ottengono (tendenzialmente) la stessa risposta. In un sistema NL, il modello si specializza. Con il passare del tempo il chatbot di Alice diventerà molto diverso dal chatbot di Bob; potrebbe essere una cosa fantastica (due professionisti con il migliore sistema possibile), oppure un incubo (due lavoratori che non riescono a collaborare).
Inoltre, l’evoluzione stessa del chatbot va messa sotto controllo, perché il Nested Learning sembra avere il potenziale per peggiorare il problema delle allucinazioni. Serviranno quindi sistemi di controllo migliorati. Il chatbot potrebbe assorbire i bias, gli errori logici o le cattive abitudini del suo utente, amplificandoli nel tempo. Non parleremmo più di semplici "allucinazioni" statistiche, ma di vere e proprie patologie comportamentali del modello, uniche per ogni istanza.
L'analogia del "Gemello Digitale"
Immaginate che ogni dipendente riceva, il primo giorno di lavoro, un assistente neolaureato identico per tutti.
- Lo scenario di Mario: Mario è un programmatore meticoloso, che fornisce al suo assistente codice pulito, corregge i suoi errori con pazienza e gli spiega le policy aziendali. Dopo sei mesi, il suo assistente (basato su NL) è diventato un partner senior, capace di anticipare i problemi di sicurezza e scrivere codice perfetto per l'infrastruttura dell'azienda.
- Lo scenario di Maria: Maria è brillante ma disordinata; usa l'assistente per generare codice "usa e getta", non corregge gli output imprecisi e gli fornisce dati frammentari. Dopo sei mesi, il suo assistente è diventato inaffidabile, propenso a soluzioni "quick and dirty" e potenzialmente pericoloso per la stabilità del sistema.
Il risultato? Mario e Maria non stanno più usando lo stesso software. Il confronto tra le loro performance diventa impossibile, perché uno dei due dispone di un "moltiplicatore di forza" che l'altro ha degradato.
Restiamo nel campo delle ipotesi e della speculazione: dal punto di vista delle risorse umane, questa dinamica segna una rivoluzione meritocratica ma brutale.
La competenza tecnica si sposta dal semplice utilizzo dello strumento alla sua educazione.
Il professionista del futuro dovrà possedere doti pedagogiche verso la macchina: la capacità di curare il dataset personale e di guidare l'apprendimento del proprio modello diventerà una hard skill determinante.
Si creerà inevitabilmente un divario enorme, una "forbice della produttività". Chi saprà coltivare il proprio assistente NL otterrà un vantaggio competitivo incolmabile rispetto ai colleghi meno abili nel training continuo. Se da un lato questo rimette l'essere umano al centro — premiando la competenza e la dedizione — dall'altro rischia di creare "caste" professionali all'interno della stessa azienda, basate sulla qualità del proprio alter ego digitale.
L'incubo della Governance: tra "Isole di Eccellenza" e compliance
Per la direzione IT e i CIO, lo scenario del Nested Learning rappresenta un rompicapo di governance. L'azienda si troverà di fronte a un bivio strategico fondamentale:
- Il modello "Arcipelago": L'azienda accetta la frammentazione. Ogni dipendente o team sviluppa il proprio modello iper-specializzato. Si ottengono picchi di produttività eccezionali ("isole di eccellenza"), ma si perde l'interoperabilità. Se Mario lascia l'azienda, il suo chatbot — che contiene mesi di conoscenza tacita e ottimizzazioni specifiche — diventa una "scatola nera" inutilizzabile per chiunque altro, o addirittura un rischio se ha appreso procedure non standard.
- Il modello "Standardizzazione Forzata": Per mantenere il controllo, l'azienda impone reset periodici dei modelli (una sorta di lobotomia programmata) per riportarli a uno stato base sicuro e conforme. Questo approccio garantisce la coerenza e riduce i rischi di deriva, ma sacrifica l'intero valore aggiunto del Nested Learning: l'adattabilità e la memoria a lungo termine.
Dal punto di vista HR, è evidente anche come potrebbe nascere una nuova definizione di lavoratore: non è più solo la persona, ma è la persona + i suoi chatbot specializzati, che a questo punto diventano parte del professionista, così come oggi lo sono certi attrezzi. Solo che gli “attrezzi AI” in ambiti professionali e aziendali non sono così semplici da integrare, compatibilmente con le policy aziendali e la normativa sui dati. Una nuova strategia AI che andrà messa in conto.
Il problema della sicurezza dei dati è infatti insidioso. In un modello statico (RAG), i dati sensibili possono essere recuperati e cancellati dal database vettoriale. In un modello NL, l'informazione riservata (es. un segreto industriale o un dato personale sensibile) viene "digerita" e trasformata in pesi sinaptici all'interno della rete neurale. Cancellare quel dato specifico diventa tecnicamente arduo senza danneggiare le capacità generali del modello. Il "diritto all'oblio" e la compliance GDPR, in un contesto di reti neurali che apprendono organicamente, rischiano di diventare chimere irraggiungibili senza nuovi, costosi strumenti di auditing profondo.