Termini chiave di AI generativa spiegati

Termini chiave di Intelligenza Artificiale Generativa spiegati

Negli ultimi anni, e soprattutto da quando è apparsa ChatGPT poco più di 12 mesi fa, modelli di intelligenza artificiale generativa per la creazione di testo sintetico, immagini, video e audio realistici sono emersi e si sono rapidamente evoluti. Quello che iniziò come una semplice ricerca si è sviluppato rapidamente in sistemi capaci di generare output di alta qualità, simili a quelli umani, attraverso le varie applicazioni menzionate sopra. Spostato in particolare dalle innovazioni chiave nelle reti neurali e dagli enormi aumenti della potenza di calcolo, sempre più aziende offrono ora l’accesso gratuito e/o a pagamento a questi modelli che aumentano la loro capacità a un ritmo notevole.

Tuttavia, l’IA generativa non è solo arcobaleni e cuccioli di cane. Sebbene prometta di incrementare la creatività umana in una vasta varietà di applicazioni, rimangono preoccupazioni su come valutare, testare e implementare in modo responsabile questi sistemi generativi. Sussiste una particolare inquietudine legata alla diffusione di informazioni errate, insieme a preoccupazioni di parzialità, veridicità e impatti sociali introdotti da questa tecnologia.

Tuttavia, la cosa più importante da fare con qualsiasi nuova tecnologia è cercare di comprenderla prima di sfruttarla o criticarla. In questo articolo ci proponiamo di iniziare a farlo. Intendiamo presentare alcuni termini chiave dell’IA generativa e fare del nostro meglio per renderli comprensibili a un livello intuitivo per i principianti, al fine di fornire una base elementare e aprire la strada per un apprendimento più approfondito. In tal senso, per ogni termine chiave qui di seguito troverete dei collegamenti a materiali correlati per iniziare a indagare ulteriormente, se lo desiderate.

Ora cominciamo.

Elaborazione del linguaggio naturale

L’elaborazione del linguaggio naturale (NLP) è una sotto-disciplina dell’IA che si concentra sull’abilitazione delle macchine a comprendere, interpretare e generare il linguaggio umano, fornendo loro in modo programmato gli strumenti necessari a tal fine. L’NLP colma il divario tra la comunicazione umana e la comprensione informatica. All’inizio, l’NLP utilizzava metodi basati su regole, seguiti da approcci “tradizionali” di apprendimento automatico, mentre l’NLP di ultima generazione si basa su una varietà di tecniche di reti neurali.

Reti neurali

Le reti neurali sono modelli computazionali di apprendimento automatico ispirati al cervello umano (non ne sono una replica), utilizzati per apprendere dai dati. Le reti neurali sono costituite da strati (molti strati = apprendimento profondo) di neuroni artificiali che elaborano e trasmettono piccoli pezzi di dati, adattando questi dati a una funzione e aggiornando ripetutamente i pesi associati ai neuroni di elaborazione nel tentativo di “migliorare l’adattamento” dei dati alla funzione. Le reti neurali sono essenziali per le capacità di apprendimento e di presa di decisioni dell’IA attuale. Senza la rivoluzione dell’apprendimento profondo iniziata poco più di un decennio fa, gran parte di ciò che chiamiamo IA non sarebbe stato possibile.

IA generativa

L’IA generativa è una categoria di intelligenza artificiale, alimentata da reti neurali, che si concentra sulla creazione di nuovo contenuto. Questo contenuto può assumere molte forme, dal testo alle immagini, all’audio e oltre. Questo differisce dai tipi “tradizionali” di IA che si concentrano sulla classificazione o sull’analisi di dati esistenti, incarnando la capacità di “immaginare” e produrre contenuti nuovi basati sui dati di addestramento.

Generazione di contenuti

La generazione di contenuti è il processo effettivo in cui i modelli generativi addestrati generano testo, immagini, video e audio sintetici, facendolo con modelli appresi dai dati di addestramento, producendo output pertinenti in risposta all’input dell’utente o alle prompt. Queste prompt possono essere in qualsiasi delle forme menzionate. Ad esempio, il testo potrebbe essere utilizzato come prompt per generare altro testo, o per generare un’immagine basata sulla descrizione di testo, o un pezzo di audio o video. Allo stesso modo, un’immagine potrebbe essere utilizzata come prompt per generare un’altra immagine, o testo, o video, ecc. È anche possibile utilizzare prompt multimodali, nei quali, ad esempio, testo e immagine potrebbero essere utilizzati per generare audio.

 

Modelli di Linguaggio Grandi

 I modelli di linguaggio grandi (LLM) sono modelli specializzati di machine learning che sono adattati per elaborare e “capire” il linguaggio umano. Gli LLM sono allenati su vaste quantità di dati testuali, il che consente loro di analizzare e replicare strutture linguistiche complesse, sfumature e contesti. Indipendentemente dal modello LLM esatto e dalle tecniche utilizzate, l’essenza stessa di questi modelli è imparare e predire quale sarà la prossima parola o token (gruppo di lettere) che segue quella corrente, e così via. Gli LLM sono essenzialmente dei “indovinatori di parole successive” estremamente complessi, e migliorare questa capacità di indovinare è un argomento di ricerca molto attuale, come avrai probabilmente sentito.

 

Modelli Fondamentali

 I modelli fondamentali sono i sistemi di intelligenza artificiale che sono stati progettati con ampie capacità che possono essere poi adattati a una varietà di compiti specifici. I modelli fondamentali forniscono una base per la creazione di applicazioni più specializzate, come ad esempio la personalizzazione di un modello di linguaggio generale per un chatbot, un assistente o altre funzionalità generative aggiuntive. I modelli fondamentali non si limitano ai modelli di linguaggio, ma esistono anche per compiti di generazione come immagini e video. Esempi di modelli fondamentali ben noti e affidabili includono GPT, BERT e Stable Diffusion.

 

Parametri

 In questo contesto, i parametri sono valori numerici che definiscono la struttura di un modello, il suo comportamento operativo e la sua capacità di apprendimento e predizione. Ad esempio, i miliardi di parametri in GPT-4 di OpenAI influenzano le sue capacità di predizione delle parole e di creazione del dialogo. Più tecnicamente, le connessioni tra ogni neurone in una rete neurale portano dei pesi (menzionati sopra), e ciascuno di questi pesi è un singolo parametro del modello. Più neuroni → più pesi → più parametri → più capacità per una rete (ben allenata) di imparare e predire.

 

Incorporamenti di Parole

 Gli incorporamenti di parole sono una tecnica in cui le parole o le frasi vengono convertite in vettori numerici di un numero predeterminato di dimensioni, nel tentativo di catturare il loro significato e le relazioni contestuali in uno spazio multidimensionale di dimensioni molto più piccole rispetto a quelle richieste per codificare ogni parola (o frase) con il metodo “one-hot” nel vocabolario. Se dovessi creare una matrice di 500.000 parole in cui ogni riga rappresentasse una singola parola e ogni colonna in quella riga fosse impostata a “0”, tranne per una colonna singola che rappresenta la parola in questione, la matrice sarebbe di 500.000 x 500.000 righe x colonne e sarebbe estremamente sparso. Questo sarebbe un disastro sia per lo spazio di archiviazione che per le prestazioni. Impostando le colonne su valori frazionari compresi tra 0 e 1 e riducendo il numero di colonne a, diciamo, 300 (dimensioni), otteniamo una struttura di archiviazione più focalizzata e aumentiamo implicitamente le prestazioni operative. Come effetto collaterale, avendo questi valori di incorporamento dimensionali appresi da una rete neurale, i termini simili saranno “più vicini” in termini dimensionali rispetto ai termini diversi, fornendoci informazioni sul significato relativo delle parole.

 

Modelli Transformer

 I modelli Transformer sono architetture di intelligenza artificiale che elaborano contemporaneamente intere frasi, il che è cruciale per comprendere il contesto del linguaggio e le associazioni a lungo termine. Eccellono nel rilevare le relazioni tra parole e frasi, anche quando sono distanti all’interno di una frase. Ad esempio, quando “lei” viene stabilita all’inizio di un blocco di testo come un sostantivo e/o pronome che fa riferimento a una persona particolare, i modelli Transformer sono in grado di “ricordare” questa relazione.

 

Codifica Posizionale

 La codifica posizionale si riferisce a un metodo utilizzato nei modelli Transformer che aiuta a mantenere l’ordine sequenziale delle parole. Questo è un componente cruciale per comprendere il contesto all’interno di una frase e tra frasi.

 

Apprendimento per Rinforzo da Feedback Umano

 L’apprendimento per rinforzo da feedback umano (RLHF) si riferisce a un metodo di addestramento degli LLM. Come nell’apprendimento per rinforzo tradizionale (RL), l’RLHF addestra e utilizza un modello di ricompensa, anche se questo modello proviene direttamente dal feedback umano. Il modello di ricompensa viene quindi utilizzato come funzione di ricompensa nell’addestramento degli LLM tramite un algoritmo di ottimizzazione. Questo modello mantiene esplicitamente gli esseri umani nel processo di addestramento del modello, con la speranza che il feedback umano possa fornire un feedback essenziale e forse altrimenti irraggiungibile necessario per ottimizzare gli LLM.

 

Comportamento Emergente

 Il comportamento emergente si riferisce alle abilità inaspettate mostrate dai modelli linguistici complessi e di grandi dimensioni, abilità che non sono mostrate in modelli più semplici. Queste abilità inaspettate possono includere competenze come la programmazione, la composizione musicale e la scrittura di narrativa. Queste abilità non sono programmate esplicitamente nei modelli ma emergono dalla loro complessa architettura. Tuttavia, la questione delle abilità emergenti può andare oltre queste competenze più comuni; ad esempio, la teoria della mente è un comportamento emergente?

 

Allucinazioni

 Le allucinazioni sono il termine utilizzato quando i modelli linguistici generativi producono risposte factualmente errate o illogiche a causa delle limitazioni dei dati e dell’architettura. Nonostante le avanzate capacità del modello, questi errori possono ancora verificarsi sia quando si incontrano richieste che non hanno alcuna base nei dati di addestramento del modello, sia quando i dati di addestramento del modello contengono informazioni errate o non fattuali.

 

Antropomorfismo

 L’antropomorfismo è la tendenza a attribuire qualità simili a quelle umane ai sistemi di intelligenza artificiale. È importante notare che, nonostante la loro capacità di imitare emozioni o il linguaggio umano e il nostro istinto di considerare i modelli come “lui” o “lei” (o qualsiasi altro pronome) anziché “esso”, i sistemi di intelligenza artificiale non possiedono sentimenti o coscienza.

 

Bias

 Il bias è un termine carico di significato nella ricerca sull’intelligenza artificiale e può riferirsi a diverse cose. Nel nostro contesto, il bias si riferisce agli errori nelle uscite dell’intelligenza artificiale causati da dati di addestramento sbilanciati, che portano a previsioni inaccurate, offensive o fuorvianti. Il bias si manifesta quando gli algoritmi danno priorità a caratteristiche irrilevanti dei dati rispetto a modelli significativi o quando mancano del tutto modelli significativi.

  

****[Matthew Mayo](https://www.kdnuggets.com/wp-content/uploads/./profile-pic.jpg)**** (@mattmayo13) ha una laurea magistrale in informatica e un diploma di specializzazione in data mining. Come Editor-in-Chief di VoAGI, Matthew si impegna a rendere accessibili concetti complessi di data science. I suoi interessi professionali includono l’elaborazione del linguaggio naturale, gli algoritmi di apprendimento automatico ed esplorare nuove intelligenze artificiali. Il suo obiettivo è quello di democratizzare la conoscenza all’interno della comunità della data science. Matthew programma sin da quando aveva 6 anni.