Elenco dei progressi dell’Intelligenza Artificiale AI effettuati dai ricercatori no-profit

Un elenco dei progressi dell'Intelligenza Artificiale (AI) raggiunti dai ricercatori no-profit

Alla fine dell’anno scorso e fino ad oggi, il 2023 è stato un ottimo momento per le persone dell’IA per creare applicazioni dell’IA, e ciò è possibile grazie a una serie di progressi dell’IA da parte di ricercatori senza scopo di lucro. Ecco un elenco di questi:

ALiBi

ALiBi è un metodo che affronta efficientemente il problema dell’estrapolazione del testo quando si tratta dei Transformers, che estrapola sequenze di testo all’infusione più lunghe rispetto a quelle su cui è stato addestrato. ALiBi è un metodo semplice da implementare che non influisce sul tempo di esecuzione o richiede parametri aggiuntivi e consente ai modelli di estrapolare semplicemente modificando poche righe di codice del trasformatore esistente.

Scaling Laws of RoPE-based Extrapolation

Questo metodo è un framework che migliora le capacità di estrapolazione dei trasformatori. I ricercatori hanno scoperto che il fine-tuning di un Rotary

Position Embedding (RoPe) basato su LLM con una lunghezza di base più piccola o più grande durante il pre-training può portare a una migliore performance.

FlashAttention

I trasformatori sono modelli potenti in grado di elaborare informazioni testuali. Tuttavia, richiedono una grande quantità di memoria quando si lavora con sequenze di testo di grandi dimensioni. FlashAttention è un algoritmo consapevole dell’I/O che addestra i trasformatori più velocemente rispetto ai baselines esistenti.

Branchformer

I Conformers (una variante dei Transformers) sono molto efficaci nell’elaborazione del linguaggio parlato. Utilizzano uno strato convoluzionale e di auto-attenzione in sequenza, il che rende la loro architettura difficile da interpretare. Branchformer è un’alternativa all’encoder che è flessibile oltre che interpretabile e presenta rami paralleli per modellare le dipendenze nei compiti di elaborazione del linguaggio parlato end-to-end.

Latent Diffusion

Anche se i Modelli di Diffusione raggiungono prestazioni all’avanguardia in numerosi compiti di elaborazione delle immagini, sono computazionalmente molto costosi, consumando spesso centinaia di giorni di GPU. I Modelli di Diffusione Latente sono una variante dei Modelli di Diffusione e sono in grado di raggiungere alte prestazioni su vari compiti basati su immagini richiedendo significativamente meno risorse.

CLIP-Guidance

CLIP-Guidance è un nuovo metodo per la generazione di testo in 3D che non richiede grandi set di dati etichettati. Funziona sfruttando (o prendendo guida da) un modello di visione-linguaggio preaddestrato come CLIP che può imparare ad associare descrizioni di testo a immagini, quindi i ricercatori lo usano per generare immagini a partire dalle descrizioni di testo degli oggetti 3D.

GPT-NeoX

GPT-NeoX è un modello di linguaggio autoregressivo composto da 20 miliardi di parametri. Si comporta ragionevolmente bene in vari compiti basati sulla conoscenza e matematici. I pesi del suo modello sono stati resi pubblicamente disponibili per promuovere la ricerca in una vasta gamma di aree.

QLoRA

QLoRA è un approccio di fine-tuning che riduce efficientemente l’utilizzo della memoria, consentendo il fine-tuning di un modello di 65 miliardi di parametri su una singola GPU da 48 GB mantenendo al contempo prestazioni ottimali del compito con una precisione a 16 bit completa. Attraverso il fine-tuning di QLoRA, i modelli sono in grado di ottenere risultati all’avanguardia, superando i modelli SoTA precedenti, anche con un’architettura di modello più piccola.

RMKV

Il modello di Receptance Weighted Key Value (RMKV) è una nuova architettura che sfrutta e combina i punti di forza dei Transformers e delle Reti Neurali Ricorrenti (RNN), oltre a superare allo stesso tempo i loro principali inconvenienti. RMKV offre prestazioni paragonabili ai Transformers di dimensioni simili, aprendo la strada allo sviluppo di modelli più efficienti in futuro.