Per anni, l'attenzione per l'IA si è concentrata quasi esclusivamente sulle prestazioni dei modelli nelle classifiche di settore. Oggi le aziende che vogliono trarre valore concreto dagli investimenti in AI devono guardare altrove. La vera sfida non è più quanto sia intelligente un singolo modello, ma come costruire i sistemi che lo circondano per renderlo davvero utile in contesti produttivi. È in questa direzione che si muove la ricerca più interessante del momento.
Un approccio particolarmente promettente riguarda il raffinamento iterativo, una tecnica che trasforma il modo in cui i modelli producono risultati. Invece di accontentarsi di una singola risposta, questi sistemi implementano un processo controllato: propongono una soluzione, la criticano, la rivedono e la verificano. Il modello genera un output iniziale, produce feedback su di esso e lo migliora progressivamente, senza bisogno di addestramento aggiuntivo. Questa metodologia ha dimostrato il suo potenziale nei risultati dell'ARC Prize, una competizione che testa i modelli su complessi puzzle di ragionamento astratto.
Un esempio è Poetiq, che ha raggiunto il 54% di accuratezza su ARC-AGI-2, superando Gemini 3 Deep Think che si è fermato al 45%, e lo ha fatto con costi dimezzati. Si tratta di un sistema ricorsivo e auto-migliorante, indipendente dal modello linguistico utilizzato, progettato per sfruttare le capacità di ragionamento della base sottostante per riflettere e perfezionare le proprie soluzioni. Gli organizzatori del premio hanno definito il 2025 come "l'anno del ciclo di raffinamento", affermando che dal punto di vista della teoria dell'informazione, il raffinamento è intelligenza.
Parallelamente, stanno emergendo framework di orchestrazione che affrontano un problema concreto: anche i modelli più avanzati falliscono quando devono gestire attività reali con flussi di lavoro multi-step. Perdono il contesto, chiamano strumenti con parametri sbagliati, e amplificano piccoli errori. L'orchestrazione tratta questi fallimenti come problemi sistemici risolvibili con l'ingegneria appropriata. Un router, ad esempio, può scegliere tra un modello piccolo e veloce, uno più grande per compiti difficili, sistemi di recupero informazioni per l'ancoraggio ai dati, e strumenti deterministici per le azioni.
Stanford ha sviluppato OctoTools, un framework open-source che orchestra più strumenti senza necessità di aggiustare i modelli. Nvidia ha creato Orchestrator, un modello specializzato da 8 miliardi di parametri addestrato con tecniche di apprendimento per rinforzo specifiche, capace di decidere quando usare strumenti, quando delegare a modelli piccoli specializzati, e quando sfruttare le capacità di ragionamento di modelli generalisti più grandi. Questi framework hanno il vantaggio di evolversi naturalmente con i progressi dei modelli sottostanti.
Un'altra frontiera riguarda l'apprendimento continuo, che affronta una delle sfide più critiche dei modelli attuali: insegnare loro nuove informazioni senza distruggere le conoscenze esistenti, fenomeno noto come "dimenticanza catastrofica". Tradizionalmente, le soluzioni erano due: ri-addestrare il modello mescolando informazioni vecchie e nuove, processo costoso e complicato che poche aziende possono permettersi, oppure fornire informazioni contestuali attraverso tecniche come il RAG. Quest'ultimo approccio però non aggiorna la conoscenza interna del modello, creando conflitti man mano che ci si allontana dal momento dell'addestramento.
Google sta lavorando su nuove architetture per abilitare l'apprendimento continuo. Titans propone un modulo di memoria a lungo termine appreso che permette al sistema di incorporare contesto storico durante l'inferenza, spostando parte dell'apprendimento dagli aggiornamenti offline dei pesi a un processo di memoria online. Nested Learning introduce un "sistema di memoria a continuum", dove la memoria è vista come uno spettro di moduli che si aggiornano a frequenze diverse, creando un sistema più adatto all'apprendimento continuo. Man mano che questa tecnologia matura, le aziende potranno contare su modelli che si adattano dinamicamente agli ambienti in cambiamento.
I modelli del mondo rappresentano un salto qualitativo ancora più ambizioso. Promettono di dare ai sistemi AI la capacità di comprendere i propri ambienti senza bisogno di dati etichettati manualmente o testi generati da umani. Questi modelli possono rispondere meglio a eventi imprevedibili e diventare più robusti di fronte all'incertezza del mondo reale. Soprattutto, aprono la strada a sistemi AI che vanno oltre il testo per risolvere compiti che coinvolgono ambienti fisici.
DeepMind sta costruendo Genie, una famiglia di modelli generativi end-to-end che simulano un ambiente permettendo a un agente di prevedere come evolverà e come le azioni lo cambieranno. Prende un'immagine o un prompt insieme alle azioni dell'utente e genera la sequenza di fotogrammi video che riflette i cambiamenti. World Labs, startup fondata dalla pioniera dell'AI Fei-Fei Li, adotta un approccio leggermente diverso: Marble, il suo primo sistema, usa l'AI generativa per creare un modello 3D da un'immagine o un prompt, che viene poi utilizzato da un motore fisico e 3D per renderizzare e simulare l'ambiente interattivo usato per addestrare robot.
Un terzo approccio è la Joint Embedding Predictive Architecture (JEPA), sostenuta da Yann LeCun, vincitore del Premio Turing ed ex capo dell'AI di Meta. I modelli JEPA apprendono rappresentazioni latenti dai dati grezzi permettendo al sistema di anticipare cosa viene dopo senza generare ogni pixel. Questo li rende molto più efficienti dei modelli generativi, adatti ad applicazioni AI in tempo reale che devono funzionare su dispositivi con risorse limitate. V-JEPA, la versione video dell'architettura, viene pre-addestrato su video internet non etichettati per imparare modelli del mondo attraverso l'osservazione, aggiungendo poi una piccola quantità di dati di interazione da traiettorie robotiche per supportare la pianificazione.
A novembre, LeCun ha confermato che lascerà Meta per avviare una nuova startup AI focalizzata su "sistemi che comprendono il mondo fisico, hanno memoria persistente, possono ragionare e pianificare sequenze di azioni complesse". La convergenza di queste quattro direzioni di ricerca delinea il progetto per la prossima generazione di applicazioni aziendali scalabili. Le aziende vincenti non si limiteranno a scegliere modelli potenti, ma costruiranno il piano di controllo che mantiene quei modelli corretti, aggiornati ed efficienti dal punto di vista dei costi.