Google ha rilasciato Gemini Embedding 2, il suo primo modello di embedding nativamente multimodale. Per la prima volta, testo, immagini, video, audio e documenti PDF vengono mappati in un unico spazio semantico condiviso, senza pipeline separate o passaggi intermedi.

Cosa sono gli embedding e perché contano

Un embedding è una rappresentazione numerica di un contenuto: un testo, un'immagine, un file audio. Il modello prende quell'input e lo trasforma in un vettore — una sequenza di numeri — che ne cattura il significato semantico. Il risultato non è una trascrizione né una descrizione: è una coordinata in uno spazio matematico multidimensionale, dove contenuti simili finiscono vicini e contenuti diversi finiscono lontani.

L'esempio classico è testuale: in uno spazio di embedding ben costruito, "cane" e "cucciolo" risultano vicini, "gatto" è nelle vicinanze, "automobile" è altrove. Ma il principio vale per qualsiasi modalità: un'immagine di un tramonto e la frase "cielo arancione al crepuscolo" possono occupare zone adiacenti dello stesso spazio vettoriale.

Questa proprietà è ciò che rende gli embedding utili. Sono il motore di applicazioni come la ricerca semantica — che trova risultati per significato, non per parola chiave — i sistemi RAG, che recuperano contesto rilevante da knowledge base prima di passarlo a un modello generativo, la classificazione automatica dei contenuti, il rilevamento di duplicati e il clustering tematico.

In un sistema AI moderno, il modello generativo è la parte visibile: risponde, genera, ragiona. Gli embedding sono la parte invisibile: indicizzano, recuperano, confrontano. Senza di loro, la maggior parte delle applicazioni enterprise basate su AI semplicemente non funzionerebbe.

Due esempi pratici

Ricerca semantica in un archivio aziendale Un'azienda ha migliaia di documenti interni: contratti in PDF, presentazioni, email, registrazioni di call con i clienti. Con un sistema basato su embedding, un dipendente può cercare "problemi di consegna Q3" e ottenere risultati pertinenti anche se nessun documento contiene esattamente quelle parole — perché il sistema ragiona per significato, non per corrispondenza letterale. Con un modello multimodale come Gemini Embedding 2, la stessa ricerca può restituire anche slide rilevanti e clip audio di riunioni, tutto insieme, senza pipeline separate.

Assistente RAG su knowledge base multimediale Un'azienda di formazione vuole costruire un chatbot che risponda a domande attingendo ai propri materiali: video tutorial, manuali PDF, schede tecniche con immagini. Con embedding separati per modalità diverse, servono tre indici distinti e una logica di orchestrazione complessa. Con un modello multimodale, l'intera knowledge base viene indicizzata in un unico spazio vettoriale: quando l'utente fa una domanda, il sistema recupera i contenuti più pertinenti — che siano testo, immagine o video — e li passa al modello generativo per costruire la risposta.

Cinque modalità, una sola rappresentazione

Il modello precedente di Google, gemini-embedding-001, era solo testuale: supportava oltre 100 lingue ma si fermava alle parole. Gemini Embedding 2 fa un salto radicale: gestisce testo, immagini (PNG e JPEG), video fino a 120 secondi, audio e documenti PDF fino a 6 pagine all'interno della stessa architettura.

Il limite di input per il testo è stato quadruplicato: da 2.048 a 8.192 token. Le immagini possono essere inviate in batch fino a 6 per richiesta. Google supporta anche l'"input interlacciato": è possibile inviare più modalità nella stessa richiesta, ad esempio abbinare un'immagine a una descrizione testuale, e il modello coglie le relazioni tra le due.

Uno degli aspetti più rilevanti dal punto di vista tecnico è il trattamento dell'audio. La maggior parte degli approcci precedenti prevedeva una conversione speech-to-text come passaggio intermedio, con la conseguente perdita di informazioni prosodiche, tonali e contestuali. Gemini Embedding 2 processa l'audio in modo nativo, saltando completamente la trascrizione.

Questo significa che sfumature come il tono di voce, la velocità dell'eloquio e le pause vengono preservate nella rappresentazione vettoriale finale — informazioni che il testo trascritto non può catturare.

Come il suo predecessore, il modello usa il Matryoshka Representation Learning (MRL): una tecnica che stratifica le informazioni in modo che le dimensioni di output possano essere ridotte dinamicamente, come una bambola Matryoshka dove rappresentazioni più piccole sono annidate in quelle più grandi.

La dimensione di default è 3.072, con 1.536 e 768 come alternative raccomandate. Questo permette agli sviluppatori di bilanciare qualità massima e costi di storage in base al caso d'uso specifico. Il supporto copre oltre 100 lingue.

Google ha pubblicato confronti con Amazon Nova 2 Multimodal Embeddings, Voyage Multimodal 3.5 e i propri modelli precedenti. Secondo i dati ufficiali, Gemini Embedding 2 si posiziona primo in ogni categoria testata: testo, immagini, video e linguaggio parlato. Il gap è più ampio nei task testo/video, dove raggiunge 68,8 punti contro valori significativamente inferiori dei competitor.

Cosa cambia in pratica

Le implicazioni per chi costruisce applicazioni AI sono concrete. Sistemi di ricerca aziendale che oggi devono indicizzare documenti, immagini e registrazioni audio con pipeline separate possono essere semplificati radicalmente. Applicazioni RAG che attingono a knowledge base multimediali possono funzionare con un'unica chiamata al modello invece di tre o quattro.

Per le aziende che gestiscono grandi archivi di contenuti misti — trascrizioni di call center, presentazioni, video di training, documentazione tecnica — la possibilità di cercare semanticamente su tutto insieme, senza trasformazioni intermedie, rappresenta un cambiamento architetturale significativo.

Gemini Embedding 2 è disponibile tramite Google AI Studio e le API Gemini.