Il team di Stability AI presenta FreeWilly1 e FreeWilly2 nuovi modelli di lingua di grandi dimensioni (LLM) ad accesso aperto.

Il team di Stability AI presenta i nuovi modelli di lingua di grandi dimensioni (LLM) FreeWilly1 e FreeWilly2, disponibili gratuitamente.

FreeWilly1 e il suo successore FreeWilly2 sono nuovi e potenti modelli di linguaggio open source (LLM) sviluppati dal team CarperAI di Stability AI. Entrambi i modelli si comportano eccezionalmente bene nelle competizioni di ragionamento utilizzando molte metriche diverse. È stato utilizzato il fine-tuning supervisionato (SFT) nel formato Alpaca, standard del settore, per ottimizzare il modello FreeWilly1, costruito sulla base del modello fondamentale LLaMA 65B originale. FreeWilly2 utilizza il modello di base LLaMA 2 70B per raggiungere prestazioni paragonabili a quelle del GPT-3.5 in alcune attività.

La formazione dei modelli FreeWilly è stata fortemente influenzata dall’approccio innovativo di Microsoft, descritto nell’articolo “Orca: Progressive Learning from Complex Explanation Traces of GPT-4”. Il team ha fornito istruzioni di alta qualità ai modelli di linguaggio per generare la nostra versione del dataset, che contiene 600.000 punti dati (circa il 10% della dimensione del dataset utilizzata nel lavoro originale di Orca).

Utilizzando questo metodo, i ricercatori hanno generato 500.000 casi utilizzando un modello LLM meno complesso e altri 100.000 casi utilizzando un modello LLM più complesso. Questi dataset sono stati attentamente selezionati, rimuovendo i casi provenienti da benchmark di valutazione per garantire confronti validi. Il loro approccio ai dataset generati sinteticamente è stato convalidato dalle eccezionali prestazioni dei modelli FreeWilly su diversi benchmark, nonostante il training sia stato effettuato su solo un decimo della dimensione del campione utilizzata nell’articolo originale di Orca.

I ricercatori hanno utilizzato lm-eval-harness di EleutherAI, al quale hanno aggiunto AGIEval, per condurre valutazioni di questi modelli. I risultati mostrano che entrambi i modelli FreeWilly sono di prim’ordine nel risolvere problemi difficili in discipline specializzate come il diritto e la matematica, nel svolgimento di ragionamenti complessi e nel riconoscimento delle sfumature linguistiche.

Il team ritiene che i due modelli migliorino la nostra capacità di comprendere il linguaggio parlato e aprano possibilità precedentemente impossibili. Sperano di vedere tutti gli usi innovativi di questi modelli nell’intelligenza artificiale.