ma se deve confrontare la prediction col modello vecchio deve comunque calcolare anche il vecchio... cosa non quadra? assomiglia alla branch prediction nei proci, ma richiede una quantità di calcoli in più mostruosa.
Questo commento è stato nascosto automaticamente.
ma se deve confrontare la prediction col modello vecchio deve comunque calcolare anche il vecchio... cosa non quadra? assomiglia alla branch prediction nei proci, ma richiede una quantità di calcoli in più mostruosa.
Bisognerebbe guardare nel dettaglio l articolo perché ipotizzo che il confronto con la predizione di un singolo token potrebbe avvenire solo durante il training ma pian piano durante il training potrebbe emergere la capacità intrinseca di prevedere correttamente più token consecutivi. Oppure potrebbe anche essere che le volte che non funziona la.previsione multi tokens sia talmente basso che alla fine fare due inferenze ovvero una a singolo token e una multitoken porta un vantaggio medio molto alto. Per esempio mediamente ne produco uno e in parallelo 5 ma quasi sempre si tengono i 5 perché corretti e allora cin solo 2 cicli di inferenza ho guadagnato 5-2 = 3 token anziché uno, di fatto triplicando la velocità
Questo commento è stato nascosto automaticamente.