Transformers – Spiegati in modo intuitivo ed esaustivo

Transformers – Spiegati in modo intuitivo e completo

Esplorare la moderna onda di apprendimento automatico: scomporre il transformer passo dopo passo

Immagine dell'autore usando MidJourney. Tutte le immagini sono dell'autore, salvo diversa indicazione.

In questo articolo imparerai l’architettura del transformer, che è al centro dell’architettura di quasi tutti i modelli di linguaggio avanzati. Inizieremo con una breve cronologia di alcuni concetti rilevanti di elaborazione del linguaggio naturale, poi passeremo attraverso il transformer passo dopo passo e scopriremo come funziona.

A chi è utile questo articolo? A chiunque sia interessato all’elaborazione del linguaggio naturale (NLP).

Quanto avanzato è questo articolo? Non si tratta di un articolo complesso, ma ci sono molti concetti, quindi potrebbe sembrare difficile per i data scientist meno esperti.

Prerequisiti: Una buona comprensione pratica di una rete neurale standard. Un’esperienza sommaria con embedding, encoder e decoder potrebbe anche essere utile.

Una breve cronologia di NLP fino al transformer

Le sezioni seguenti contengono concetti e tecnologie utili da conoscere prima di affrontare i transformers. Sentiti libero di saltare avanti se ti senti sicuro.

Embedding di vettori di parole

Una comprensione concettuale degli embedding di vettori di parole è fondamentale per comprendere l’elaborazione del linguaggio naturale. In sostanza, un embedding di vettori di parole prende parole individuali e le traduce in un vettore che rappresenta in qualche modo il loro significato.

Il compito di un word to vector embedder: tradurre le parole in numeri che in qualche modo catturano il loro significato generale.

I dettagli possono variare da un’implementazione all’altra, ma il risultato finale può essere considerato come uno “spazio di parole”, dove lo spazio segue certe relazioni convenienti. Le parole sono difficili da elaborare matematicamente, ma i vettori che contengono informazioni su una parola e su come si relazionano con altre parole sono molto più facili da elaborare matematicamente. Questo compito di convertire parole in vettori viene spesso definito “embedding”.

Word2Vec, un documento importante nello spazio dell’elaborazione del linguaggio naturale, ha cercato di creare un embedding che rispettasse certe caratteristiche utili. Fondamentalmente…