Arriva la nuova generazione di Gemini: ecco 1.5 Pro, più potente di Ultra

Dopo l'annuncio di Gemini 1.0 Ultra disponibile in AI Studio e Vertex AI, Google ha presentato la nuova generazione del modello: Gemini 1.5. La nuova famiglia di modelli offre performance molto più avanzate anche rispetto a 1.0 Ultra, diventando più efficiente soprattutto in fase di training.

Il primo modello della famiglia sarà Gemini 1.5 Pro, un modello multimodale di grandezza media ottimizzato per scalare su una grande varietà di task, con performance simili a 1.0 Ultra, il modello più grande di Google.

Gemini 1.5 Pro viene rilasciato con una context window di 128.000 token, ma gli sviluppatori possono utilizzarlo in preview privata su AI Studio e Vertex AI anche nella versione con 1 milione di token.

Il modello è stato costruito basandosi sul lavoro di ricerca in merito a Transformer e MoE (Mixture-of-Experts): la prima è una rete neurale basata sul meccanismo di "self-attention" per modellare le relazioni tra le parole di una frase; la seconda è una rete neurale che, invece di comportarsi come un unico componente, si divide in reti più piccole e più "esperte" per un dato task.

A seconda dell'input, la rete MoE attiva solo le sotto-reti rilevanti; questa specializzazione migliora notevolmente l'efficienza e la velocità del modello.

"Le nostre ultime innovazioni nell'architettura dei modelli consentono a Gemini 1.5 di apprendere compiti complessi più rapidamente e di mantenere la qualità, oltre a essere più efficiente nell'addestramento e nell'esecuzione" afferma Demis Hassabis, CEO di Google DeepMind. "Queste efficienze stanno aiutando i nostri team a iterare, formare e fornire versioni più avanzate di Gemini più velocemente che mai, e stiamo lavorando a ulteriori ottimizzazioni".

Le capacità di Gemini 1.5 Pro

Il nuovo modello è in grado di processare grandi volumi di informazioni in una sola esecuzione: nei test di Google, Gemini 1.5 Pro è stato in grado di elaborare senza sforzi 1 ora di video, 11 ore di audio e una codebase con più di 30.000 righe di codice.

Il modello ha dimostrato ottime capacità di ragionamento: date le 402 pagine di trascrizione della missione Apollo 11, Gemini 1.5 Pro è riuscito a ragionare sulle conversazioni, gli eventi e i dettagli specificati nel documento.

Dato un film muto di 44 minuti, il modello è stato in grado di analizzare dettagliatamente i punti salenti della trama e gli eventi, identificando le singole scene a partire da un prompt.

Il modello offre performance ottimali anche per task di problem-solving su grandi codebase. Dato un prompt con più di 100.000 righe di codice, Gemini 1.5 Pro è stato in grado di spiegare il funzionamento delle diverse porzioni di codice e suggerire delle modifiche per migliorarle.

Le performance del modello

Stando ai benchmark di Google, Gemini 1.5 Pro offre performance migliori di 1.0 Pro nell'87% dei test effettuati, comprensivi di task di comprensione di testo, codice, immagini, audio e video.

Il nuovo modello mantiene performance elevate anche aumentando il numero di token. Nel test Needle In A Haystack (letteralmente "ago nel pagliaio"), una valutazione in cui una piccola porzione di testo che contiene un fatto di interesse viene inserita in un lungo blocco di testo, 1.5 Pro è riuscito a trovare la porzione di testo desiderata nel 99% dei casi, con testi lunghi fino a 1 milione di token.

Gemini 1.5 Pro ha dimostrato anche ottime capacità di apprendimento "in-context", ovvero la capacità di imparare una nuova abilità analizzando informazioni presenti in un prompt molto lungo, senza fine tuning aggiuntivo.

Fornitogli in input un manuale di grammatica per il Kalamang, una lingua parlata da meno di 200 persone in tutto il mondo, il modello ha imparato a tradurre l'inglese in Kalamang con un livello simile a quello di una persona che lo impara dallo stesso contenuto.

Al momento Gemini 1.5 Pro è disponibile solo per gli sviluppatori e i clienti enterprise su AI Studio e Vertex AI. Google prevede di rilasciare il modello con context window di 128.000 nei prossimi mesi, e in seguito prevede di introdurre diversi piani di utilizzo a pagamento che partono dalla versione base e arrivano fino a 1 milione di token.