Esplorare nuove frontiere nell’Intelligenza Artificiale la ricerca di Google DeepMind per migliorare l’apprendimento automatico con l’auto-addestramento di ReSTEM oltre i dati generati dall’uomo

Esplorazione delle nuove frontiere dell'Intelligenza Artificiale la ricerca di Google DeepMind per migliorare l'apprendimento automatico mediante auto-addestramento di ReSTEM al di là dei dati generati dall'uomo

I modelli di linguaggio di grandi dimensioni (LLM) stanno trasformando l’apprendimento approfondito dimostrando sorprendenti capacità di produrre testi di calibro umano e di svolgere una vasta gamma di compiti linguistici. Ottenere dati umani di alta qualità è un ostacolo importante, anche se il fine-tuning supervisionato (SFT) con l’utilizzo di dati raccolti da esseri umani migliora ulteriormente le loro prestazioni nei compiti di interesse. Ciò è particolarmente gravoso per i compiti di risoluzione dei problemi complessi che richiedono risorse sostanziali e conoscenze specializzate. Per superare questo ostacolo, i dati sintetici generati dal modello mostrano promesse come soluzione scalabile ed economica se ne viene garantita la qualità.

Ricercatori di Google Deepmind e Mila in questo studio indagano uno scenario più semplice in cui un segnale di feedback scalare esterno funge da indicatore di qualità per ogni campione generato, anche se i LLM possono valutare autonomamente i dati creati. Il team di ricerca propone una tecnica di auto-addestramento diretta ma efficace per i modelli di linguaggio, che coinvolge solo due abilità: 1) creare campioni dal modello e 2) valutare questi campioni utilizzando un meccanismo di punteggio. Questo approccio ci consente di studiare la formazione sui dati creati dal modello. Il team di ricerca utilizza la nomenclatura di Reinforced Self-Training e si riferisce a questa tecnica come ReST𝐃𝑀 per ottenere uniformità e chiarezza. Il team di ricerca dimostra come ReST𝐃𝑀 possa essere considerato come l’utilizzo della massimizzazione delle aspettative per l’apprendimento per rinforzo.

In particolare, ReST𝐃𝑀 passa tra le fasi di aspettativa e massimizzazione nel seguente modo: 1. Generare (fase E): per ogni contesto di input, il modello di linguaggio produce diversi campioni di output. In seguito, il team di ricerca raccoglie il set di dati di addestramento filtrando questi campioni utilizzando una ricompensa binaria. 2. Migliorare (fase M): il modello di linguaggio originale è supervisionato e sottoposto a un fine-tuning utilizzando il set di dati di addestramento proveniente dalla fase Generate precedente. La successiva fase di Generate utilizza quindi il modello regolato. ReST𝐃𝑀 e le sue varianti hanno dimostrato efficacia nel migliorare i modelli di linguaggio in molti campi, come la traduzione automatica, la parsing semantica e l’allineamento delle preferenze.

ReST𝐃𝑀 è stato principalmente impiegato in studi precedenti su modelli di linguaggio molto piccoli (fino a 7 miliardi di parametri), con limitata scalabilità per modelli più grandi. Il loro lavoro intende integrare questi sforzi confrontando la scalabilità e l’efficacia dei dati sintetici creati dai modelli con i dati forniti dagli esseri umani in due ambiti impegnativi ma poco studiati: la generazione di codice (APPS) e la risoluzione di problemi matematici di livello competitivo (MATH). I loro risultati dimostrano che l’applicazione di ReST𝐃𝑀 ai modelli PaLM 2 di varie dimensioni migliora significativamente le capacità di ragionamento matematico e di generazione di codice.

Sorprendentemente, i modelli perfezionati su dati artificiali prodotti dal modello superano di gran lunga quelli addestrati su dati forniti da esseri umani. Inoltre, il miglioramento diminuisce dopo alcuni cicli di ReST𝐃𝑀, indicando la possibilità di overfitting su un numero limitato di casi di addestramento. Inoltre, i modelli ottimizzati utilizzando ReST𝐃𝑀 potenziano le capacità di pass@k e voto a maggioranza. Infine, questi modelli perfezionati mostrano prestazioni migliorate su benchmark simili ma distinti, tra cui compiti difficili di Big-Bench, codifica (HumanEval) e problemi aritmetici (GSM8K e Hungarian HS finals). Infine, vengono effettuati studi di ablazione per indagare gli effetti dei problemi di addestramento, delle iterazioni e della quantità di soluzioni generate dal modello sul fine-tuning di ReST𝐸𝑀.