Apple rivoluziona l'IA rendendo gli LLM fino a 5 volte più veloci

La notizia in un minuto

Apple ha sviluppato una tecnica chiamata "multi-token prediction" che accelera i modelli linguistici dal doppio al triplo per compiti generali, fino a cinque volte più rapidi in programmazione e matematica
La tecnologia supera il limite dell'autoregressione tradizionale generando più parole contemporaneamente attraverso token "maschera" speciali, mantenendo la qualità grazie a un sistema di verifica in tempo reale
L'innovazione promette di trasformare l'esperienza utente con chatbot e assistenti virtuali, offrendo risposte più rapide senza compromessi sull'accuratezza dei risultati

Riassunto generato con l’IA. Potrebbe non essere accurato.

Apple ha sviluppato una tecnica rivoluzionaria che promette di accelerare significativamente le prestazioni dei modelli linguistici di grandi dimensioni. La ricerca, pubblicata di recente, presenta un approccio innovativo chiamato "multi-token prediction" che rompe con il metodo tradizionale di generazione del testo parola per parola. I risultati ottenuti nei test mostrano miglioramenti nella velocità che vanno dal doppio al triplo per compiti generali, arrivando fino a cinque volte più rapidi in ambiti specifici come la programmazione e la matematica.

La sfida dell'autoregressione tradizionale

Per comprendere l'innovazione di Apple, è necessario partire da come funzionano attualmente i modelli linguistici. Il processo standard, chiamato autoregressione, genera il testo seguendo una logica sequenziale rigida: ogni nuova parola dipende completamente da tutte quelle che l'hanno preceduta. Quando un sistema deve completare una frase come "Il gatto è nero", deve prima analizzare "Il gatto è" e poi calcolare le probabilità di ogni possibile continuazione nel suo vocabolario, scegliendo infine l'opzione più coerente con il contesto.

Questo approccio, seppur accurato, presenta un limite intrinseco di velocità. Ogni token deve essere processato individualmente, creando un collo di bottiglia che rallenta l'intero processo di generazione del testo.

L'intuizione dietro la predizione multipla

Il team di Apple ha fatto una scoperta interessante durante la sua ricerca: anche se questi modelli sono addestrati per prevedere soltanto il token successivo, conservano comunque informazioni utili su diverse parole che potrebbero comparire più avanti nella sequenza. Questa osservazione ha portato allo sviluppo del framework MTP, che sfrutta questa capacità latente per generare più token contemporaneamente.

La chiave è nell'equilibrio tra velocità e accuratezza

La tecnica prevede l'inserimento di token "maschera" speciali all'interno delle richieste, che fungono da segnaposto per le parole future. Per esempio, una frase come "Il gatto è " potrebbe essere completata con "molto peloso" in un singolo passaggio, anziché richiedere due elaborazioni separate.

Verifica in tempo reale per mantenere la qualità

L'aspetto più ingegnoso di questa soluzione risiede nel sistema di controllo qualità integrato. Mentre il modello specula su diverse parole future simultaneamente, ogni previsione viene immediatamente confrontata con quello che avrebbe prodotto il metodo tradizionale token-per-token. Se una supposizione non supera questo controllo di verifica, il sistema torna automaticamente al processo standard, garantendo così prestazioni accelerate senza compromessi sulla precisione del risultato finale.

I ricercatori hanno testato questa metodologia utilizzando il modello open-source Tulu3-8B, configurandolo per prevedere speculativamente 8 token aggiuntivi. L'approccio chiamato "gated LoRA adaptation" ha permesso di ottenere questi miglioramenti prestazionali mantenendo inalterata la qualità della generazione.

Prospettive per l'intelligenza artificiale conversazionale

Questa ricerca si inserisce in un filone più ampio di studi volti a ottimizzare i tempi di risposta dell'intelligenza artificiale. L'accelerazione dei modelli linguistici rappresenta infatti uno degli ostacoli principali per la loro adozione su larga scala in applicazioni interattive come chatbot, assistenti virtuali e strumenti di produttività digitale. La possibilità di ottenere risposte più rapide senza perdere in accuratezza potrebbe trasformare radicalmente l'esperienza utente con questi sistemi.

Il documento completo della ricerca, intitolato "Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential", è disponibile su arXiv e rappresenta un contributo significativo al dibattito scientifico sull'ottimizzazione dei modelli di intelligenza artificiale generativa.

Fonte dell'articolo: 9to5mac.com

Le notizie più lette

1 Commenti

⚠️ Stai commentando come Ospite . Vuoi accedere?

Invia

Per commentare come utente ospite, clicca cerchi

Cliccati: 0 /

Reset

Git_Lord

ma se deve confrontare la prediction col modello vecchio deve comunque calcolare anche il vecchio... cosa non quadra? assomiglia alla branch prediction nei proci, ma richiede una quantità di calcoli in più mostruosa.

Questo commento è stato nascosto automaticamente.

Ruby_Guru

Bisognerebbe guardare nel dettaglio l articolo perché ipotizzo che il confronto con la predizione di un singolo token potrebbe avvenire solo durante il training ma pian piano durante il training potrebbe emergere la capacità intrinseca di prevedere correttamente più token consecutivi. Oppure potrebbe anche essere che le volte che non funziona la.previsione multi tokens sia talmente basso che alla fine fare due inferenze ovvero una a singolo token e una multitoken porta un vantaggio medio molto alto. Per esempio mediamente ne produco uno e in parallelo 5 ma quasi sempre si tengono i 5 perché corretti e allora cin solo 2 cicli di inferenza ho guadagnato 5-2 = 3 token anziché uno, di fatto triplicando la velocità

Apple rivoluziona l'IA rendendo gli LLM fino a 5 volte più veloci

La sfida dell'autoregressione tradizionale

L'intuizione dietro la predizione multipla

Verifica in tempo reale per mantenere la qualità

Prospettive per l'intelligenza artificiale conversazionale

Le notizie più lette

Non ve ne siete accorti, ma con OpenClaw OpenAI ha appena ucciso ChatGpt

Onde marine, il giroscopio cambia le regole

Artico, dati falsati sulla perdita di neve

L'intelligenza artificiale non aumenta la produttività e l'entusiasmo delle aziende si raffredda

Windows 11, arriva lo speedtest direttamente dalla taskbar

1 Commenti