I ricercatori di Apple presentano Parallel Speculative Sampling (PaSS) un salto nella efficienza e scalabilità dei modelli di linguaggio.

I ricercatori di Apple presentano Parallel Speculative Sampling (PaSS) un balzo in avanti nell'efficienza e scalabilità dei modelli di linguaggio.

“`

I ricercatori dell’EPFL, in collaborazione con Apple, hanno introdotto un nuovo approccio al sampling speculativo chiamato Parallel Speculative Sampling (PaSS). Questo nuovo approccio consente di redigere simultaneamente più token utilizzando un singolo modello, combinando i vantaggi della generazione auto-regressiva e del sampling speculativo. Il metodo PaSS è stato valutato su compiti di completamento di testo e codice, mostrando una promettente performance senza compromettere la qualità del modello. Il team ha anche esplorato l’impatto del numero di embedding di anticipazione sull’approccio, scoprendo un numero ottimale per ottenere i migliori risultati.

PaSS affronta le limitazioni del sampling speculativo, che richiede due modelli con lo stesso tokenizzatore, consentendo la redazione simultanea di più token con un singolo modello. Le valutazioni comparative con la generazione auto-regressiva e un metodo di riferimento dimostrano la velocità e la performance superiori di PaSS. I test su compiti di completamento di testo e codice producono risultati promettenti senza compromettere la qualità complessiva del modello. Esplora anche l’impatto dei schemi di campionamento e degli embedding di anticipazione sulle prestazioni di PaSS.

I grandi modelli di linguaggio presentano limitazioni nel trattamento del linguaggio naturale a causa della generazione auto-regressiva, che richiede un passaggio in avanti per ogni token generato e influisce sull’accesso alla memoria e sul tempo di elaborazione. Il sampling speculativo offre una soluzione, ma richiede due modelli con lo stesso tokenizzatore, introducendo dei collo di bottiglia. PaSS è un’alternativa che consente di redigere più token con un singolo modello, eliminando la necessità di un secondo modello.

Il metodo proposto utilizza la decodifica parallela, che elimina la necessità di un secondo modello e prevede due fasi: la redazione e la convalida. Durante la fase di redazione, il modello produce contemporaneamente più token utilizzando la decodifica parallela, escludendo il primo token dalla bozza per la corrispondenza della distribuzione in caso di rifiuto. Questo approccio offre una velocità e una performance superiori mantenendo la qualità complessiva del modello.

Il metodo PaSS si è rivelato un modo efficace per generare modelli di linguaggio con un notevole aumento della velocità fino al 30% rispetto alla generazione auto-regressiva, mantenendo al contempo le prestazioni del modello entro il margine di errore. PaSS è stato inoltre in grado di generare token con una varianza inferiore e una maggiore prevedibilità, come dimostrato nella comparazione con metodi di base che utilizzano diversi schemi di campionamento. Lo studio ha anche rilevato che il numero di passi di anticipazione ha un impatto costante sulle prestazioni di PaSS, con una diminuzione del tempo di esecuzione fino a 6 passi di anticipazione.

PaSS è una potente tecnica generativa di modelli di linguaggio che utilizza un approccio di redazione parallela per la decodifica dei token con gli embedding di anticipazione ottimizzati. La sua efficacia nella generazione di token con una bassa varianza e una elevata prevedibilità è stata comprovata nelle valutazioni per i compiti di completamento di testo e codice. Sono in corso ulteriori miglioramenti attraverso i ticket di anticipazione per aumentare ulteriormente le prestazioni.

Le future direzioni di ricerca raccomandano di esplorare metodi per migliorare la qualità della generazione parallela con i token di anticipazione, considerandola un percorso promettente per migliorare le prestazioni di PaSS. I ricercatori sottolineano la necessità di approfondire l’analisi dell’impatto del numero di passi di anticipazione su PaSS, in quanto un aumento del numero di passi potrebbe potenzialmente annullare i vantaggi dell’approccio.

“`