Per anni, gli sviluppatori hanno lavorato con un modello "senza memoria": ogni richiesta a un modello linguistico era una transazione isolata, dove l'intera cronologia della conversazione doveva essere ritrasmessa ogni volta per mantenere il contesto. Questa limitazione, simile a dover raccontare nuovamente tutta la storia a un interlocutore che dimentica istantaneamente quanto appena detto, sta finalmente cedendo il passo a un paradigma radicalmente diverso, dove i modelli si comportano sempre più come sistemi operativi remoti dotati di memoria persistente.
Google DeepMind ha recentemente presentato la versione beta pubblica della sua Interactions API, uno strumento che segna l'ingresso ufficiale del gigante tecnologico nell'era delle interfacce "stateful", ovvero dotate di stato persistente. La novità più rilevante riguarda la gestione della memoria conversazionale: invece di costringere gli sviluppatori a inviare enormi file JSON contenenti l'intera storia degli scambi precedenti, la nuova infrastruttura consente semplicemente di passare un identificativo della conversazione precedente. È il server di Google a conservare tutto il necessario: cronologia, risultati degli strumenti utilizzati e i processi di "ragionamento" del modello.
Sam Witteveen, esperto certificato Google per il machine learning e CEO di Red Dragon AI, ha sottolineato come questo rappresenti un'evoluzione necessaria. In un'analisi tecnica pubblicata su YouTube, ha spiegato che l'approccio tradizionale basato su semplice input-output testuale non è più sufficiente: "Ora stai interagendo con un sistema. Un sistema capace di utilizzare modelli multipli, eseguire cicli di chiamate successive, impiegare strumenti esterni e perseguire codice sul backend". Questo cambiamento di paradigma trasforma radicalmente il modo in cui gli sviluppatori costruiscono applicazioni di intelligenza artificiale.
La funzionalità di Background Execution rappresenta probabilmente il vantaggio più concreto per chi sviluppa agenti autonomi complessi. Attività che richiedono tempi lunghi, come navigare il web per un'ora al fine di sintetizzare un rapporto dettagliato, causavano sistematicamente timeout HTTP con le API tradizionali. Con la nuova architettura, è possibile avviare un agente impostando il parametro background su true, disconnettersi e verificare successivamente il risultato. In pratica, l'API diventa una coda di lavoro per processi intelligenti, eliminando uno dei colli di bottiglia più frustranti nello sviluppo di applicazioni avanzate.
Google ha scelto di lanciare contestualmente il suo primo agente nativo integrato: Gemini Deep Research. Accessibile attraverso lo stesso endpoint delle interazioni, questo agente può eseguire ricerche complesse su orizzonti temporali estesi, operando attraverso cicli iterativi di ricerca, lettura e sintesi. A differenza di un modello standard che semplicemente prevede il token successivo basandosi sul prompt, Deep Research implementa un vero e proprio loop di investigazione. L'azienda ha inoltre abbracciato l'ecosistema aperto integrando il supporto nativo per il Model Context Protocol, che permette ai modelli Gemini di richiamare direttamente strumenti esterni ospitati su server remoti senza necessità di codice intermedio personalizzato.
Il confronto con OpenAI rivela filosofie divergenti nell'affrontare lo stesso problema tecnico. Mentre entrambe le aziende stanno abbandonando l'architettura senza stato, le loro soluzioni divergono significativamente sul tema della trasparenza. OpenAI, che aveva lanciato la sua Responses API già a marzo 2025 con nove mesi di anticipo, ha introdotto la funzione di "compattazione": la cronologia conversazionale viene compressa sostituendo output degli strumenti e catene di ragionamento con elementi criptati opachi. L'approccio privilegia l'efficienza in termini di token, ma crea una scatola nera dove il ragionamento passato del modello rimane nascosto allo sviluppatore.
Google ha scelto invece di mantenere l'intera cronologia disponibile e componibile. Il modello dati consente agli sviluppatori di "debuggare, manipolare, trasmettere in streaming e ragionare sui messaggi intercalati", come sottolineato da Ali Çevik e Philipp Schmid di DeepMind nel post ufficiale sul blog aziendale. Questa scelta privilegia l'ispezionabilità rispetto alla compressione, offrendo maggiore controllo ma potenzialmente consumando più risorse. "Tentare di forzare queste capacità dentro generateContent avrebbe prodotto un'API eccessivamente complessa e fragile", hanno scritto i due ricercatori, spiegando la necessità di una rottura architettonica netta.
L'API supporta l'intera gamma di modelli più recenti di Google, dalla famiglia Gemini 3.0 (nella versione Pro Preview) alla serie Gemini 2.5 con le varianti Flash, Flash-lite e Pro, fino all'agente Deep Research nella sua versione preview. La tariffazione segue la struttura standard basata sui token di input e output, ma introduce una dimensione cruciale legata alle politiche di conservazione dei dati. Gli sviluppatori che utilizzano il piano gratuito possono conservare le interazioni solo per un giorno, un limite adeguato per test effimeri ma insufficiente per costruire memoria a lungo termine negli agenti. Il piano a pagamento estende invece la ritenzione a 55 giorni, un periodo che non serve solo per scopi di audit ma riduce significativamente i costi complessivi massimizzando gli "hit" nella cache.
Witteveen ha evidenziato il beneficio economico immediato di questa architettura attraverso il meccanismo di caching implicito. Poiché la cronologia conversazionale risiede sui server di Google, gli sviluppatori non pagano per ricaricare ripetutamente lo stesso contesto: "Non devi pagare tanto per i token che stai chiamando", ha spiegato. Tuttavia, ha anche sollevato una critica significativa riguardo al sistema di citazioni dell'agente Deep Research. Sebbene l'agente fornisca le fonti, gli URL restituiti sono spesso avvolti in link di reindirizzamento interni a Google/Vertex AI piuttosto che essere URL diretti utilizzabili.
Questa limitazione tecnica rappresenta un problema concreto per chi intende generare rapporti con citazioni verificabili. "Se salvo questi URL e provo a usarli in una sessione diversa, non funzioneranno", ha avvertito Witteveen. "Se voglio creare un rapporto per qualcuno con citazioni, voglio che possa cliccare sugli URL da un file PDF. Avere qualcosa come medium.com come citazione senza il link diretto non è molto utile". Si tratta di un dettaglio che potrebbe sembrare marginale, ma diventa critico in contesti professionali dove la tracciabilità delle fonti è essenziale.
Per i team tecnici, questa evoluzione solleva questioni strategiche differenziate in base ai ruoli. Gli ingegneri AI focalizzati su deployment rapido e fine-tuning troveranno nella Background Execution una soluzione diretta al problema persistente dei timeout, ma dovranno valutare se la velocità di implementazione compensi la perdita di controllo granulare rispetto a flussi costruiti con LangChain o LangGraph. Gli ingegneri senior che gestiscono orchestrazione e budget potranno sfruttare il caching implicito per ridurre drasticamente i costi legati al ricaricamento dei contesti, ma dovranno implementare rigorosi controlli di sicurezza per i servizi esterni connessi tramite Model Context Protocol.
Gli ingegneri dei dati apprezzeranno il modello dati strutturato che facilita il debug e migliora l'integrità dei dati nelle pipeline, ma dovranno probabilmente costruire passaggi di pulizia per estrarre URL utilizzabili dalle citazioni "avvolte" restituite da Deep Research. I responsabili della sicurezza IT si troveranno invece di fronte a un paradosso: centralizzare lo stato sui server Google può migliorare la sicurezza mantenendo le chiavi API e la cronologia lontano dai dispositivi client, ma introduce nuovi rischi legati alla residenza dei dati. A differenza delle opzioni enterprise di OpenAI con "ritenzione zero", Google conserva le interazioni per quasi due mesi nel piano a pagamento, un aspetto che richiede attenta valutazione rispetto alle politiche di governance interna.
L'API Interactions è attualmente disponibile in versione beta pubblica attraverso Google AI Studio, con la documentazione accessibile online. Google ha avvertito che, trattandosi di un rilascio beta, funzionalità e schemi sono soggetti a modifiche sostanziali. Questa transizione da completamenti senza stato a interazioni persistenti rappresenta molto più di un aggiornamento tecnico: è un riposizionamento concettuale dei modelli linguistici da strumenti di generazione testuale a piattaforme computazionali remote, capaci di mantenere contesto, eseguire operazioni complesse in background e integrarsi nativamente con ecosistemi di strumenti esterni. Una trasformazione che ridefinisce i confini tra intelligenza artificiale conversazionale e sistemi operativi distribuiti.