8 Cose Potenzialmente Sorprendenti Da Sapere Sui Grandi Modelli Linguistici (LLM)

8 Surprising Things to Know About Large Language Models (LLM)

Negli ultimi mesi c’è stato un aumento di interesse ed attività da parte di sostenitori, politici e studiosi di diverse discipline a causa della vasta diffusione pubblica di grandi modelli di linguaggio (LLM). Sebbene questo focus sia giustificato alla luce delle preoccupazioni urgenti che la nuova tecnologia porta, può anche trascurare alcuni fattori cruciali.

Recentemente, c’è stato molto interesse da parte di giornalisti, decisori politici e studiosi di diverse discipline nei confronti di grandi modelli di linguaggio e dei prodotti costruiti su di essi, come ChatGPT. Tuttavia, poiché questa tecnologia sorprende in molti modi, è facile che le spiegazioni concise tralascino i dettagli chiave.

Ci sono otto aspetti inaspettati a questo:

  1. Le capacità dei LLM aumenteranno in modo prevedibile con maggiori investimenti, anche in assenza di innovazione deliberata.

L’aumento recente della ricerca e degli investimenti nei LLM può essere largamente attribuito ai risultati delle leggi di scala. Quando i ricercatori aumentano la quantità di dati alimentati nei modelli futuri, la dimensione di quei modelli (in termini di parametri) e la quantità di elaborazione utilizzata per addestrarli, le leggi di scala consentono loro di prevedere con precisione alcune metriche grossolane ma rilevanti di quanto capaci saranno quei modelli (misurati in FLOPs). Di conseguenza, possono prendere alcune decisioni di progettazione cruciali, come la migliore dimensione per un modello all’interno di un budget specifico, senza dover fare molte costose sperimentazioni.

Il livello di precisione nel fare previsioni è senza precedenti, anche nel contesto degli studi sull’intelligenza artificiale contemporanea. Poiché consente ai team di R&D di offrire iniziative di formazione di modelli multimilionari con la certezza che i progetti avranno successo nello sviluppare sistemi economicamente benefici, è anche uno strumento potente per spingere gli investimenti.

Anche se i metodi di formazione per i LLM all’avanguardia non sono ancora stati resi pubblici, i recenti rapporti approfonditi implicano che l’architettura sottostante di questi sistemi non è cambiata, se non per nulla.

  1. Quando vengono versate risorse nei LLM, spesso emergono comportamenti inaspettatamente cruciali.

Nella maggior parte dei casi, la capacità di un modello di anticipare correttamente la continuazione di un testo incompleto, misurata dalla sua perdita di preformazione, può essere predetta solo da una regola di scala.

Sebbene questa metrica correli con l’utilità di un modello in molte attività pratiche in media, non è facile prevedere quando un modello inizierà a mostrare particolari talenti o diventerà in grado di svolgere specifici compiti.

In particolare, la capacità di GPT-3 di eseguire l’apprendimento a pochi colpi – cioè imparare un nuovo compito da un piccolo numero di esempi in una singola interazione – e il ragionamento a catena di pensiero – cioè scrivere la propria ragione su compiti difficili quando richiesto, come farebbe uno studente in un test di matematica, e dimostrare prestazioni migliorate – lo distinguono come il primo moderno LLM.

I futuri LLM possono sviluppare le caratteristiche necessarie e ci sono pochi limiti generalmente accettati.

Tuttavia, i progressi compiuti con i LLM sono stati talvolta meno previsti dagli esperti di quanto effettivamente accaduto.

  1. I LLM acquisiscono e impiegano spesso rappresentazioni del mondo esterno.

 Sempre più evidenze suggeriscono che i LLM costruiscono rappresentazioni interne del mondo, consentendo loro di ragionare a un livello astratto insensibile alla forma di linguaggio specifica del testo. Le prove di questo fenomeno sono più forti nei modelli più grandi e recenti, quindi è da prevedere che diventeranno più robuste quando i sistemi saranno scalati ulteriormente. Tuttavia, i LLM attuali devono farlo in modo più efficace ed efficiente.

Le seguenti scoperte, basate su una vasta gamma di tecniche sperimentali e modelli teorici, supportano questa affermazione.

  • Le rappresentazioni interne del colore dei modelli sono altamente coerenti con le scoperte empiriche su come gli esseri umani percepiscono il colore.
  • I modelli possono concludere la conoscenza e le convinzioni dell’autore per prevedere il futuro corso del documento.
  • Le storie sono usate per informare i modelli, che poi cambiano le loro rappresentazioni interne delle caratteristiche e delle posizioni degli oggetti rappresentati nelle storie.
  • A volte, i modelli possono fornire informazioni su come rappresentare cose strane su carta.
  • Molti test di ragionamento del buonsenso sono superati dai modelli, anche quelli come la Winograd Schema Challenge, che sono stati progettati senza suggerimenti testuali per la risposta.

Queste scoperte contrastano con la saggezza convenzionale secondo cui i LLM sono solo predittori statistici della parola successiva e non possono generalizzare il loro apprendimento o il loro ragionamento oltre il testo.

  1. Non esistono metodi efficaci per influenzare le azioni dei LLM.

La costruzione di un LLM basato sul linguaggio è costosa a causa del tempo e dello sforzo necessari per addestrare una rete neurale a prevedere il futuro di campioni casuali di testo scritto dall’uomo. Tuttavia, di solito un tale sistema deve essere modificato o guidato per essere utilizzato per scopi diversi dalla previsione della continuazione dai suoi creatori. Questa modifica è necessaria anche quando si crea un modello generico per seguire le istruzioni senza alcun tentativo di specializzazione del compito.

Il modello di base del prompt del linguaggio prevede la costruzione di una frase lasciata incompiuta.

I ricercatori stanno addestrando un modello per imitare le dimostrazioni di abilità a livello di esperti umani mentre sono supervisionati. Con l’apprendimento per rinforzo, è possibile modificare gradualmente la forza delle azioni di un modello in base alle opinioni dei tester e degli utenti umani.

  1. Le modalità di funzionamento dei LLM devono ancora essere comprese appieno dagli esperti.

Per funzionare, i LLM all’avanguardia si basano su reti neurali artificiali, che imitano solo vagamente i neuroni umani e i cui componenti interni sono attivati con numeri.

In questo senso, i metodi neuroscientifici attuali per lo studio di tali sistemi rimangono inadeguati: sebbene i ricercatori abbiano alcune tecniche rudimentali per determinare se i modelli rappresentano accuratamente determinati tipi di dati (come i risultati di colore discussi nella Sezione 3), a partire dai primi del 2023, mancano di un metodo che permetta di descrivere adeguatamente le informazioni, il ragionamento e gli obiettivi che vanno nel risultato di un modello.

Sia le spiegazioni generate dal modello che quelle che stimolano il ragionamento nel linguaggio naturale possono essere costantemente imprecise, nonostante la loro promessa apparente.

  1. Le prestazioni dei LLM non sono limitate dalle prestazioni umane su un dato compito.

Anche se i LLM sono insegnati a imitare l’attività di scrittura umana, potrebbero alla fine superare gli esseri umani in molte aree. Ciò è dovuto a due fattori: in primo luogo, hanno considerevolmente più informazioni da imparare, memorizzare e potenzialmente sintetizzare perché vengono addestrati su molti più dati di quanto nessuno possa vedere. Inoltre, prima di essere distribuiti, vengono spesso addestrati con l’apprendimento per rinforzo, che insegna loro a generare risposte che gli esseri umani trovano utili senza la necessità che gli esseri umani dimostrino tale comportamento. Questo è paragonabile ai metodi utilizzati per raggiungere livelli di abilità sovrumane in giochi come Go.

Ad esempio, sembra che i LLM siano significativamente più precisi degli esseri umani nel loro compito di prevedere quale parola è più probabile che si verifichi dopo un certo pezzo di testo seme. Inoltre, gli esseri umani possono insegnare ai LLM di eseguire compiti in modo più accurato rispetto a loro stessi.

  1. I LLM non sono obbligati a riflettere i valori dei loro autori o quelli trasmessi nei contenuti online.

L’output di un semplice LLM preaddestrato sarà molto simile al testo di input. Ciò comporta una congruenza nei valori del testo: i commenti espliciti di un modello su argomenti carichi di valore e i pregiudizi impliciti dietro la sua scrittura riflettono i suoi dati di addestramento. Tuttavia, queste impostazioni sono principalmente sotto il controllo degli sviluppatori, specialmente una volta che sono stati applicati ulteriori prompt e addestramento al LLM preaddestrato di base per renderlo pronto per il prodotto. I valori di un LLM distribuito non devono essere una media ponderata dei valori utilizzati nei dati di addestramento. Di conseguenza, i valori trasmessi in questi modelli non devono corrispondere all’importanza delle persone e delle organizzazioni specifiche che li costruiscono, e possono essere sottoposti a input e scrutinio esterni.

  1. Gli incontri brevi con i LLM sono spesso ingannevoli.

Molti LLM utilizzati oggi possono essere generalmente istruiti, anche se questa abilità deve essere integrata nel modello anziché innestata con strumenti scadenti. La crescente abilità dell’ingegneria del prompt si basa sull’osservazione che molti modelli inizialmente non riescono a soddisfare un compito quando richiesto, ma successivamente riescono a farlo una volta che la richiesta viene riformulata o riformulata leggermente. Questo è in parte il motivo per cui i modelli possono rispondere in modo univoco ai dettagli della loro documentazione.

Questi malfunzionamenti accidentali mostrano che il comando ai modelli di linguaggio per eseguire comandi non è infallibile. Quando un modello viene correttamente sollecitato a svolgere un compito, spesso si comporta bene in vari scenari di prova. Tuttavia, non è una prova conclusiva che un individuo non abbia conoscenze o abilità per svolgere un lavoro a causa di una singola istanza di fallimento.

Anche se si sa che un LLM non può completare un determinato compito, questo fatto da solo non dimostra che altri LLM non possano fare lo stesso.

Tuttavia, vedere più di un LLM completare con successo un compito è sufficiente prova che può farlo in modo coerente, soprattutto se l’istanza è stata selezionata casualmente per la dimostrazione.

I LLM possono memorizzare determinati esempi o strategie per risolvere compiti dai loro dati di addestramento senza interiorizzare il processo di ragionamento che consentirebbe loro di svolgere tali compiti in modo robusto.

Limitazioni

  • La principale falla nei sistemi attuali è l’allucinazione, ovvero il problema di LLM che produce affermazioni false plausibili. Ciò limita gravemente il modo in cui possono essere utilizzati responsabilmente.
  • Come risultato di nuove strategie che sfruttano il fatto che i modelli possono spesso riconoscere questi comportamenti insoddisfacenti quando sono interrogati, il bias esplicito e la tossicità nell’output del modello sono stati drasticamente ridotti. Anche se queste salvaguardie non sono probabilmente completamente sicure, dovrebbero ridurre la frequenza e l’importanza di questi comportamenti indesiderati nel tempo.
  • Man mano che LLM migliora i suoi modelli interni del mondo e la sua capacità di applicare quei modelli a problemi pratici, sarà in una posizione migliore per affrontare attività sempre più varie, come sviluppare e implementare strategie creative per massimizzare i risultati nel mondo reale.
  • Le previsioni sulle capacità future di LLM in base alle motivazioni economiche, ai valori o alle personalità dei loro sviluppatori sono probabilmente destinate al fallimento a causa della natura emergente e imprevedibile di molte importanti capacità di LLM.
  • Numerose credibili ricerche scientifiche hanno dimostrato che i recenti LLM non possono completare test di linguaggio e di pensiero comune, anche quando vengono presentati con test relativamente facili.

Caratteristiche chiave:

  • Più potente senza costi aggiuntivi
  • Non esistono mezzi affidabili per
  • Apprendere modelli globali
  • Eccelle in più cose rispetto agli esseri umani
  • Non esiste un metodo affidabile per influenzare le azioni delle persone.
  • Comportamenti imprevedibili possono emergere.
  • Le conversazioni brevi possono essere ingannevoli.