Le IA possono creare file lossless di qualità superiore

Il modello linguistico multimodale Chinchilla ha compresso campioni dall'insieme di dati audio LibriSpeech superando la compressione FLAC

Avatar di Andrea Maiellano

a cura di Andrea Maiellano

Author

La compressione dei dati efficace è un processo che mira a ridurre le dimensioni di questi ultimi senza perdere informazioni cruciali. Quando un algoritmo, o un modello, è in grado di prevedere con precisione il prossimo elemento in una sequenza di dati, dimostra di essere in grado di rilevare i modelli nei dati stessi.

Questa abilità è strettamente collegata alla capacità di effettuare una buona compressione dei dati, e qui entra in gioco il ruolo dei modelli linguistici multimodali quali GPT-4.

In un recente articolo di ricerca pubblicato su arXiv, dal titolo "Language Modeling Is Compression" (Il Modellamento Linguistico è Compressione), alcuni ricercatori hanno svelato un dettaglio sorprendente.

Il modello linguistico multimodale di DeepMind, noto come Chinchilla 70B, è in grado di comprimere patch di immagini provenienti dal database di immagini ImageNet fino al 43,4% delle loro dimensioni originali, superando l'algoritmo di compressione PNG, che invece riesce a comprimere gli stessi dati solo al 58,5%. 

L'aspetto realmente sorprendente, però, riguarda l'audio, in quanto Chinchilla ha compresso campioni dall'insieme di dati audio LibriSpeech al solo 16,4% delle loro dimensioni grezze, superando la compressione FLAC che raggiunge solo il 30,3%.

Questi risultati dimostrano che Chinchilla, anche se è stato addestrato principalmente per il trattamento del testo, eccelle nella compressione di altri tipi di dati, spesso superando algoritmi appositamente progettati per tali compiti.

Questa scoperta apre nuove prospettive per l'utilizzo dei modelli linguistici multimodali non solo per la previsione, e la generazione di testo, ma anche per la compressione di una vasta gamma di tipi di dati.

Inoltre, negli ultimi due decenni, alcuni informatici hanno teorizzato che la capacità di comprimere dati in modo efficiente sia una forma di intelligenza generale. Questa idea si basa sulla nozione che comprendere il mondo circostante, spesso comporta l'identificazione di modelli e la comprensione della complessità, in un processo simile a ciò che una buona compressione dati fa.

Comprimere un grande insieme di dati in una forma più compatta, mantenendo però le informazioni essenziali, rappresenta una sorta di comprensione, o rappresentazione, dei dati stessi.

Il Premio Hutter, intitolato a Marcus Hutter, uno dei ricercatori di IA e autore dell'articolo di DeepMind, mette in evidenza questa idea. Il premio è assegnato a chi riesce a comprimere in modo estremamente efficiente un insieme fisso di testo in lingua inglese.

La premessa alla base di questo premio è che una compressione altamente efficiente del testo richieda una profonda comprensione dei modelli semantici e sintattici del linguaggio, simile a come li comprende un essere umano.

In sintesi, la ricerca di DeepMind evidenzia un'affascinante connessione tra la capacità di previsione e la compressione dei dati. Anche se il paper non è ancora stato sottoposto a revisione paritaria, suggerisce che i modelli di linguaggio IA potrebbero avere un ruolo importante nella compressione di dati in vari formati.