Vertex AI: Google Cloud rafforza l'offerta con aggiornamenti a Gemini, Imagen e Gemma

Google potenzia le soluzioni per le imprese con l’intelligenza artificiale.

Avatar di Stefano Silvestri

a cura di Stefano Silvestri

In un mondo sempre più dipendente dall'intelligenza artificiale, Vertex AI rappresenta una realtà significativa nel campo dello sviluppo e del deployment di modelli avanzati.

Al Google Cloud Next ’24 di Las Vegas, l'evento dedicato alle ultime innovazioni nel campo del cloud computing, sono stati annunciati aggiornamenti dei modelli e delle funzionalità per questa piattaforma, tra cui spicca l'introduzione di Gemini 1.5 Pro, annunciato lo scorso febbraio.

Ciò offre agli sviluppatori l’accesso alla più grande finestra di contesto disponibile per la creazione di modelli, ben 1 milione di token. Diventano quindi possibili ragionamenti multimodali nativi su enormi quantità di dati specifici, il che secondo Google sta portando alla creazione di utilizzi completamente nuovi.

L’azienda riporta la costruzione di agenti pensati per il servizio clienti alimentati dall'IA, tutor accademici, l'analisi di ampie raccolte di complessi documenti finanziari, il rilevamento di lacune nella documentazione e l'esplorazione di interi codici sorgente o di raccolte di dati tramite il linguaggio naturale.

In aggiunta, Google ha annunciato che Gemini 1.5 Pro su Vertex AI supporta ora la capacità di elaborare flussi audio, inclusi il parlato e la parte audio dei video. Ciò permette un'analisi cross-modale senza soluzione di continuità che fornisce elaborati su testo, immagini, video e audio.

Gli aggiornamenti di Imagen 2.0

Mentre i modelli Gemini sono eccellenti per ragionamenti avanzati e utilizzi di carattere generale, i modelli di intelligenza artificiale generativa sono pensati per compiti specifici e possono aiutare le aziende in compiti più specializzati.

Imagen è un modello di AI generativa sviluppato da Google, progettato per creare immagini di alta qualità a partire da descrizioni testuali. E, immancabilmente, al Cloud Next ’24 sono stati annunciati dei miglioramenti che rendono Imagen ancora più potente.

Sarà dunque possibile generare immagini animate, come GIF, a partire da un prompt di testo. Inizialmente, le immagini live saranno fornite a 24 fotogrammi al secondo con una risoluzione di 360x640 pixel e una durata di 4 secondi, ma sono previsti miglioramenti continui del software.

Essendo il design di questo modello focalizzato per applicazioni aziendali, Imagen si dichiara particolarmente capace in ambiti come la natura, il culinario e gli animali. Può generare una gamma di angolazioni e movimenti della telecamera, mantenendo la coerenza per tutta la sequenza.

Google sta anche aggiornando la capacità di generazione delle immagini di Imagen 2.0 con funzioni avanzate di editing fotografico, incluse l'inpainting e l'outpainting. Queste funzioni facilitano la rimozione di elementi indesiderati in un'immagine, l'aggiunta di nuovi elementi e l'espansione dei bordi  per creare un campo visivo più ampio.

Inoltre, è ora disponibile la funzione di filigrana digitale alimentata da SynthID di Google DeepMind, che permette ai clienti di generare watermark invisibili e verificare le immagini (statiche e live) generate dalla famiglia di modelli Imagen.

Collegare i modelli alle fonti aziendali

Le intelligenze artificiali sono limitate dai loro dati di addestramento, che possono diventare rapidamente obsoleti o escludere informazioni necessarie per gli utilizzi aziendali.

Per ovviare a questo problema, Google ora offre la possibilità per le organizzazioni di ancorare i loro modelli a Google Search, garantendo così l’accesso a informazioni fresche e di qualità. Ciò significa che gli utenti ottengono risultati radicati in una delle fonti di informazione tra le più affidabili, riducendo così drasticamente il rischio di allucinazioni.

Non solo: Google offre anche alle imprese il modo di legare le risposte dei loro modelli ai propri dati aziendali, utilizzando ad esempio la somiglianza semantica per cercare documenti e archivi di informazioni.

Google Cloud chiama questo sistema "Verità Aziendale" e lo dipinge  come uno dei fondamenti sui quali costruire la prossima generazione di agenti AI che cercano proattivamente informazioni e compiono compiti per conto dell'utente.

Infine, Google vuole mettere a disposizione dei suoi clienti la miglior selezione di modelli pronti per l'impresa. Negli ultimi due mesi ha aggiunto a Vertex AI una varietà di modelli, sia propri che di terze parti. Tra i tanti citiamo da Gemini 1.0 Pro di Google e Gemma, la famiglia di modelli open leggeri, e la famiglia di modelli Claude 3 di Anthropic.

Ottenere le migliori prestazioni dai modelli AI generativi su larga scala

Google mette a disposizione un insieme di strumenti e servizi per facilitare lo sviluppo, il dispiegamento e la gestione dei modelli di machine learning su larga scala. Queste operazioni prendono il nome di MLOps (Machine Learning Operations) e rendendole possibili in modo efficiente e scalabile, si riduce la complessità e si accelera il time-to-market dei modelli di intelligenza artificiale.

Fatta questa premessa, appare più chiaro capire Google quando annuncia l’ampliamento delle capacità MLOps di Vertex AI per soddisfare le esigenze di lavorare con modelli di grandi dimensioni.

La Gestione dei Prompt di Vertex AI vuole risolvere alcuni dei maggiori problemi relativi all'AI generativa che spesso lamentano i clienti di Google, ossia sperimentazione con i prompt, migrazione dei prompt e tracciamento di prompt e parametri.

La Gestione dei Prompt di Vertex AI, ora in anteprima, fornisce una libreria di prompt utilizzabile tra i team, includendo l'opzione per ripristinare i vecchi prompt e suggerimenti generati dall'AI per migliorare le prestazioni del prompt.

I clienti possono così confrontare le iterazioni dei prompt fianco a fianco per valutare come piccoli cambiamenti influenzino i risultati. Il servizio offre anche funzionalità come note e tagging per incrementare la collaborazione.

Gli strumenti di Valutazione Rapida, in anteprima, aiutano gli utenti a valutare le prestazioni del modello quando viene iterato. Gli utenti possono accedere a metriche per varie dimensioni (ad esempio, somiglianza, capacità di seguire le istruzioni, fluidità) e pacchetti per compiti specifici (come qualità della generazione di testo).

Per una valutazione più accurata, AutoSxS aiuta i team a confrontare le prestazioni di due modelli, includendo spiegazioni sul perché un modello superi un altro e assegnando punteggi che aiutano a comprendere l'accuratezza della valutazione.

Ultimo ma non meno importante, Google espande le garanzie di residenza dei dati (che coprono i dati memorizzati in stato di quiete per le API di Gemini, Imagen ed Embeddings su Vertex AI), a 11 nuovi paesi, ossia Australia, Brasile, Finlandia, Hong Kong, India, Israele, Italia, Polonia, Spagna, Svizzera e Taiwan.

I clienti possono ora limitare anche l'elaborazione del machine learning agli Stati Uniti o all'Unione Europea quando utilizzano Gemini 1.0 Pro e Imagen. Unitamente agli altri 10 paesi annunciati l'anno scorso, queste nuove regioni danno ai clienti un maggiore controllo su dove i loro dati sono memorizzati e come avvengono gli accessi, facilitando la soddisfazione dei requisiti normativi e di sicurezza.