I ricercatori del MIT propongono l’Algoritmo di Modifica delle Etichette Pseudo-Semplici (SimPLE) per una migliore qualità dell’etichettatura pseudo in auto-apprendimento.

MIT researchers propose SimPLE algorithm for better quality of pseudo-labeling in self-learning.

Ricercatori del CSAIL del MIT hanno sviluppato un nuovo approccio per affrontare le sfide associate ai grandi modelli di linguaggio (LLM) nell’ambito della comprensione del linguaggio naturale. Sebbene i LLM abbiano dimostrato capacità impressionanti nella generazione di linguaggio, arte e codice, i loro requisiti computazionali e le preoccupazioni per la privacy dei dati sono stati svantaggi. Il team del MIT ritiene che i modelli più piccoli non debbano essere trascurati e ha ideato un modello consapevole della logica che supera modelli molto più grandi in determinati compiti di comprensione del linguaggio senza annotazioni generate dall’uomo.

I ricercatori attribuiscono il successo di questi modelli più piccoli al concetto di “implicazione testuale”. L’implicazione testuale si riferisce alla relazione tra due frasi, dove se una frase è vera (la premessa), l’altra frase è probabile che sia vera (l’ipotesi). Addestrando un “modello di implicazione” utilizzando questo concetto, il team ha creato prompt che consentono ai modelli di determinare se determinate informazioni sono implicite da una determinata frase o parola attraverso diversi compiti senza ulteriore addestramento (adattamento zero-shot).

La comprensione del linguaggio naturale comprende varie applicazioni che dipendono dall’instaurazione di relazioni tra pezzi di testo. Il team del MIT ha capito che molti di questi compiti potrebbero essere riproposti come compiti di implicazione, dove l’inferenza logica nel linguaggio naturale gioca un ruolo centrale. Ad esempio, la classificazione del sentimento comporta l’inferring del sentimento espresso in una dichiarazione basata su un altro testo. I ricercatori hanno sviluppato modelli di implicazione autoaddestrati con 350 milioni di parametri, superando i modelli supervisionati con 137 a 175 miliardi di parametri e dimostrando il loro potenziale per soluzioni di modellizzazione del linguaggio scalabili, affidabili ed economiche.

Per migliorare ulteriormente le prestazioni del modello, i ricercatori hanno utilizzato una tecnica di autoaddestramento, in cui il modello utilizza le sue previsioni per imparare senza supervisione umana o dati annotati aggiuntivi. Questo metodo ha migliorato significativamente le prestazioni nell’analisi del sentimento, nelle domande e risposte e nei compiti di classificazione delle notizie, superando altri modelli come LaMDA e FLAN di Google nelle capacità zero-shot e modelli GPT. Tuttavia, la sfida dell’autoaddestramento risiede nella potenziale generazione di etichette errate o rumorose che possono danneggiare le prestazioni. Per superare questo problema, il team ha sviluppato SimPLE (Simple Pseudo-Label Editing), un algoritmo che rivede e modifica le pseudo-etichette generate durante le prime fasi di apprendimento. Questo approccio ha migliorato la comprensione del linguaggio e migliorato la robustezza del modello contro i dati avversari.

Anche se la ricerca ha dimostrato l’efficacia dell’autoaddestramento e dei modelli di implicazione, ha anche evidenziato alcune limitazioni. I compiti di classificazione multiclasse non hanno beneficiato tanto quanto i compiti di comprensione del linguaggio naturale binari dall’autoaddestramento, sottolineando la difficoltà di applicare modelli di implicazione a compiti a scelta multipla.

I risultati di questa ricerca offrono una metodologia di addestramento efficiente ed efficace per i grandi modelli di linguaggio. Formulando i compiti di comprensione del linguaggio naturale come problemi di implicazione contestuale e incorporando l’etichettatura pseudo e l’autoaddestramento con dati di testo non etichettati, diventa possibile sviluppare modelli di linguaggio compatti che superano i loro colleghi più grandi in compiti di comprensione di riferimento. Il lavoro del team del MIT contribuisce al panorama in evoluzione dei LLM, fornendo tecnologie di IA più sostenibili e rispettose della privacy per il trattamento e la comprensione del linguaggio.