L’affascinante evoluzione dell’IA Generativa
L'evoluzione affascinante dell'IA Generativa
Introduzione
Nell’espanso campo dell’intelligenza artificiale, un affascinante ambito che ha catturato l’immaginazione di ricercatori, tecnologi e appassionati è l’AI Generativa. Questi algoritmi intelligenti stanno spingendo i limiti di ciò che i robot possono fare e comprendere ogni giorno, aprendo una nuova era di inventiva e creatività. In questo saggio, intraprendiamo un emozionante viaggio attraverso l’Evolution dell’AI Generativa, esplorando le sue modeste origini, importanti svolte e gli sviluppi rivoluzionari che ne hanno influenzato il corso.
Esamineremo come l’AI generativa abbia rivoluzionato vari campi, dall’arte e la musica alla medicina e alla finanza, partendo dai suoi primi tentativi di creare semplici pattern e progredendo fino alle incredibili opere d’arte che crea oggi. Possiamo ottenere profonde intuizioni sul grande potenziale dell’AI generativa per il futuro comprendendo il contesto storico e le innovazioni che hanno portato alla sua nascita. Unisciti a noi mentre esploriamo come le macchine hanno acquisito la capacità di creare, inventare e immaginare, modificando per sempre il campo dell’intelligenza artificiale e della creatività umana.
Cronologia dell’evoluzione dell’AI Generativa
Nel panorama sempre in evoluzione dell’intelligenza artificiale, pochi rami hanno suscitato tanta fascinazione e curiosità quanto l’AI generativa. Dai suoi primi concetti ai risultati sorprendenti raggiunti negli ultimi anni, il percorso dell’AI generativa è stato straordinario.
- Una nuova ricerca sull’IA introduce il Directional Stimulus Prompting (DSP) un nuovo framework di istruzioni per guidare meglio l’LLM nella generazione del riassunto desiderato
- Ricercatori di Stanford e DeepMind hanno avuto l’idea di utilizzare i grandi modelli di linguaggio (LLM) come funzione di ricompensa di sostituzione.
- Una nuova ricerca presenta la Tensigrità Tattile Tridimensionale Sottomarina (U3DTT) basata su Nanogeneratori Triboelettrici Autoalimentati Morbidi e Analisi dei Dati Assistita da Apprendimento Profondo
In questa sezione, intraprendiamo un affascinante viaggio nel tempo, svelando le tappe che hanno plasmato lo sviluppo dell’AI generativa. Approfondiremo le scoperte fondamentali, gli articoli di ricerca e gli avanzamenti, dipingendo un quadro completo della sua crescita e evoluzione.
Unisciti a noi in un viaggio attraverso la storia, assistendo alla nascita di concetti innovativi, all’emergere di figure influenti e alla diffusione dell’AI generativa in tutti i settori, arricchendo la vita e rivoluzionando l’IA come la conosciamo.
Anno 1805: Prima NN / Regressione Lineare
Nel 1805, Adrien-Marie Legendre introdusse una rete neurale lineare (NN) con uno strato di input e un singolo neurone di output. La rete calcolava l’output come somma dei pesi degli input. I pesi venivano regolati utilizzando il metodo dei minimi quadrati, simile alle moderne reti neurali lineari, fornendo una base per l’apprendimento superficiale e le successive architetture complesse.
Anno 1925: Prima Architettura RNN
La prima architettura RNN non apprendente (il modello Ising o Lenz-Ising) fu introdotta e analizzata dai fisici Ernst Ising e Wilhelm Lenz negli anni ’20. Si stabilisce in uno stato di equilibrio in risposta alle condizioni di input ed è la base delle prime RNN di apprendimento.
Anno 1943: Introduzione delle Reti Neurali
Nel 1943, per la prima volta, il concetto di Reti Neurali fu introdotto da Warren McCulloch e Walter Pitts. Si ispirava al funzionamento dei neuroni biologici. Le reti neurali venivano modellate utilizzando circuiti elettrici.
Anno 1958: MLP (Nessun Deep Learning)
Nel 1958, Frank Rosenblatt introdusse MLP con un primo strato non apprendente con pesi casuali e uno strato di output adattivo. Sebbene questo non fosse ancora Deep Learning perché solo l’ultimo strato veniva appreso, Rosenblatt aveva fondamentalmente ciò che in seguito fu rinominato come Extreme Learning Machines (ELM) senza una corretta attribuzione.
Anno 1965: Primo Deep Learning
Nel 1965, Alexey Ivakhnenko e Valentin Lapa introdussero i primi algoritmi di apprendimento di successo per MLPs profonde con più strati nascosti.
Anno 1967: Deep Learning tramite SGD
Nel 1967, Shun-Ichi Amari propose l’addestramento di perceptron multistrato (MLP) con più strati utilizzando la discesa del gradiente stocastica (SGD) da zero. Allenarono un MLP a cinque strati con due strati modificabili per classificare pattern non lineari, nonostante i costi computazionali elevati rispetto ad oggi.
Anno 1972: RNN Artificiali Pubblicate
Nel 1972, Shun-Ichi Amari ha reso l’architettura ricorrente Lenz-Ising adattiva per imparare ad associare modelli di input con modelli di output cambiando i pesi delle connessioni. 10 anni dopo, la rete Amari è stata ripubblicata con il nome di Hopfield Network.
Anno 1979: Deep Convolutional NN
Kunihiko Fukushima ha inizialmente proposto la prima architettura CNN, caratterizzata da strati convoluzionali e di downsampling, come Neocognitron 1979. Nel 1987, Alex Waibel ha combinato convoluzioni, condivisione dei pesi e backpropagation in quello che ha chiamato TDNN, applicato al riconoscimento vocale, prefigurando le CNN.
Anno 1980: Il Rilascio degli Autoencoder
Gli autoencoder sono stati introdotti per la prima volta negli anni ’80 da Hinton e dal gruppo PDP (Rumelhart, 1986) per affrontare il problema della “backpropagation senza un insegnante” utilizzando i dati di input come insegnante. L’idea generale degli autoencoder è piuttosto semplice. Consiste nell’impostare un encoder e un decoder come reti neurali e apprendere il miglior schema di codifica-decodifica utilizzando un processo di ottimizzazione iterativo.
Anno 1986: Invenzione della Back Propagation
Nel 1970, Seppo Linnainmaa ha introdotto il metodo di differenziazione automatica chiamato backpropagation per reti di funzioni differenziabili nidificate. Nel 1986, Hinton e altri ricercatori hanno proposto un algoritmo di backpropagation migliorato per l’addestramento di reti neurali feedforward, delineato nel loro articolo “Apprendimento di rappresentazioni mediante propagazione degli errori all’indietro”.
Anno 1988: Riconoscimento delle Immagini (CNN)
Wei Zhang ha applicato la backpropagation per addestrare le CNN per il riconoscimento dell’alfabeto, inizialmente conosciute come Shift-Invariant Artificial Neural Network (SIANN). Successivamente, hanno applicato le CNN senza l’ultimo strato completamente connesso per la segmentazione degli oggetti nelle immagini mediche e per la rilevazione del cancro al seno nelle mammografie. Questo approccio ha gettato le basi per la visione computerizzata moderna.
Anno 1990: Introduzione delle GAN / Curiosity
Le Generative Adversarial Networks (GAN) hanno guadagnato popolarità dalla loro prima pubblicazione nel 1990 come Artificial Curiosity. Le GAN coinvolgono due reti neurali in competizione, un generatore (controller) e un predittore (modello del mondo), impegnati in un gioco di minimax, massimizzando la perdita reciproca. Il generatore produce output probabilistici, mentre il predittore prevede le reazioni ambientali. Il predittore minimizza l’errore tramite discesa del gradiente, mentre il generatore cerca di massimizzarlo.
Anno 1991: Primi Transformers
I Transformers con “auto-attenzione linearizzata” sono stati pubblicati per la prima volta nel marzo 1991, chiamati “Fast Weight Programmers” o “Fast Weight Controllers”. Separavano lo storage e il controllo come nei computer tradizionali, ma in un modo completamente neurale, adattivo e differenziabile da un’estremità all’altra. L'”auto-attenzione” nei Transformers standard di oggi combina questo con una proiezione e softmax come quella introdotta nel 1993.
Anno 1991: Gradiente Scomparso
Il Problema Fondamentale dell’Apprendimento Profondo, scoperto da Sepp Hochreiter nel 1991, affronta le sfide dell’apprendimento profondo. Hochreiter ha identificato il problema del gradiente che scompare o esplode nelle reti neurali profonde, ovvero i segnali di errore backpropagati diminuiscono rapidamente o aumentano incontrollabilmente nelle reti profonde e ricorrenti tipiche.
Anno 1995 – Il Rilascio di LeNet-5
Diverse banche hanno utilizzato LeNet-5, una rete convoluzionale pionieristica a 7 livelli di LeCun nel 1995, che classifica le cifre per riconoscere i numeri scritti a mano sui controlli.
Anno 1997 – Introduzione di LSTM
Nel 1995, Long Short-Term Memory (LSTM) è stato pubblicato in un rapporto tecnico di Sepp Hochreiter e Jürgen Schmidhuber. Successivamente, nel 1997, il documento principale su LSTM ha affrontato il problema del gradiente che scompare. La versione iniziale del blocco LSTM includeva celle, porte di input e di output. Nel 1999, Felix Gers e il suo consulente, Jürgen Schmidhuber e Fred Cummins, hanno introdotto la porta di oblio nell’architettura LSTM, consentendo alle LSTM di reimpostare il loro stato.
Gli Sviluppi del Millennio
Anno 2001 – Introduzione di NPLM
Nel 1995, già avevamo un eccellente modello di testo neurale probabilistico il cui concetto di base è stato riutilizzato nel 2003, ossia il lavoro precedente di Pollack sulle rappresentazioni delle parole e altre strutture e il modello di previsione delle categorie di parole di Nakamura e Shikano del 1989. Nel 2001, i ricercatori hanno dimostrato che LSTM poteva imparare lingue non apprendibili dai modelli tradizionali come gli HMM, ossia un modello neurale “subsimbolico” improvvisamente eccelleva nell’apprendimento di compiti “simbolici”.
Anno 2014 – Variational Autoencoder
Un autoencoder variazionale è un autoencoder il cui addestramento è regolarizzato per evitare l’overfitting e garantire che lo spazio latente abbia proprietà adeguate che consentano un processo generativo. L’architettura del VAE è simile a quella dell’Autoencoder, con una lieve modifica del processo di codifica-decodifica. Invece di codificare un input come un singolo punto, i ricercatori lo codificano come una distribuzione nello spazio latente.
Anno 2014 – Il Rilascio di GAN
I ricercatori hanno proposto un nuovo framework per stimare modelli generativi tramite un processo avversario in cui vengono addestrati contemporaneamente due modelli. Un modello generativo, G, cattura la distribuzione dei dati, e un modello discriminativo, D, stima la probabilità che un campione provenga dai dati di addestramento piuttosto che da G. La procedura di addestramento per G consiste nel massimizzare la probabilità che D commetta un errore.
Anno 2014 – Il Rilascio di GRU
Una unità ricorrente con porte (GRU) è stata proposta da Cho [2014] per catturare in modo adattivo le dipendenze di diverse scale temporali. Similmente all’unità LSTM, la GRU ha unità di gating che modulano il flusso di informazione all’interno dell’unità, tuttavia senza avere una cella di memoria separata.
Anno 2015 – Il Rilascio di Modelli di Diffusione
I modelli di diffusione sono il fondamento delle attività di generazione di immagini oggi. Decomponendo il processo di formazione delle immagini in un’applicazione sequenziale di autoencoder per la riduzione del rumore, i modelli di diffusione (DM) ottengono risultati di sintesi all’avanguardia sui dati delle immagini e oltre. Inoltre, la loro formulazione consente un meccanismo guida per controllare il processo di generazione delle immagini senza la necessità di un nuovo addestramento.
Anno 2016 – Il Rilascio di WaveNet
WaveNet è un modello di linguaggio per dati audio. È una rete neurale profonda per la generazione di forme d’onda audio grezze. Il modello è completamente probabilistico e autoregressivo, con la distribuzione predittiva per ogni campione audio condizionata a tutti quelli precedenti.
Anno 2017 – Il Rilascio di Transformers
Google ha presentato una rivoluzionaria pubblicazione nel 2017, “Attention Is All You Need”. Gli LSTM erano morti e non più utilizzati! Questa pubblicazione ha introdotto una nuova architettura che si basa completamente sui meccanismi di attenzione. Gli elementi fondamentali dei Transformers sono l’Attenzione Autonoma, l’Attenzione del Codificatore-Decodificatore, la Codifica Posizionale e la Rete Neurale Feed Forward. I principi fondamentali dei Transformers sono ancora presenti oggi nei LLM.
Anno 2018 – Il Rilascio di GPT
GPT (Generative Pretraining Transformer) è stato introdotto da OpenAI preaddestrando un modello su un corpus vario di testo non etichettato. È un Grande Modello di Linguaggio addestrato in modo autoregressivo per predire una nuova sequenza di parole nel testo. Il modello segue principalmente l’architettura originale dei Transformers, ma contiene solo un decodificatore a 12 strati. Negli anni successivi, la ricerca ha portato allo sviluppo di modelli di dimensioni più grandi: GPT-2(1,5 miliardi), GPT-3(175 miliardi)
Anno 2018 – Il Rilascio di BERT
BERT (Bidirectional Encoder Representations from Transformers) è stato introdotto da Google nel 2018. I ricercatori hanno addestrato il modello in 2 fasi: Preaddestramento e Predizione delle Frasi Successive. A differenza di GPT, il modello predice i token mancanti presenti ovunque nel testo durante il preaddestramento. L’idea qui era quella di migliorare la comprensione del linguaggio del testo catturando il contesto da entrambe le direzioni.
Anno 2019: Il Rilascio di StyleGAN
I ricercatori hanno proposto un’architettura alternativa per i generative adversarial networks, prendendo spunto dalla letteratura sullo style transfer. La nuova architettura consente di apprendere automaticamente attributi di alto livello (ad esempio, posa e identità nei volti umani) e variazioni stocastiche (ad esempio, lentiggini, capelli) nelle immagini generate. Consente inoltre un controllo facile e specifico della scala della sintesi.
Anno 2020: Il Rilascio di wav2vec 2.0
Nel 2019, Meta AI ha rilasciato wav2vec, un framework per il pre-training non supervisionato per il riconoscimento del parlato mediante l’apprendimento di rappresentazioni dell’audio grezzo. Successivamente, nel 2020, è stato introdotto wav2vec 2.0 per l’apprendimento auto-supervisionato delle rappresentazioni del parlato. Apprende la rappresentazione più potente dell’audio del parlato. Il modello è stato allenato utilizzando la classificazione temporale connectionista (CTC), quindi l’output del modello deve essere decodificato utilizzando il Wav2Vec2CTCTokenizer.
Anno 2021: Il Rilascio di DALL.E
DALL·E è una versione di GPT-3 con 12 miliardi di parametri addestrata per generare immagini a partire da descrizioni testuali utilizzando un dataset di coppie testo-immagine. Ha capacità diverse, come la creazione di versioni antropomorfizzate di animali e oggetti, la combinazione di concetti non correlati, la resa del testo e la trasformazione di immagini esistenti.
Anno 2022: Il Rilascio di Latent Diffusion
I modelli di diffusione latente raggiungono uno stato dell’arte per il riempimento delle immagini e prestazioni molto competitive nella generazione di immagini. I ricercatori utilizzano potenti autoencoder pre-addestrati per addestrare i modelli di diffusione nello spazio latente e i livelli di cross-attention. Per la prima volta, questo permette di ottenere un punto quasi ottimale tra riduzione della complessità e conservazione dei dettagli, migliorando notevolmente la fedeltà visiva.
Anno 2022: Il Rilascio di DALL.E 2
Nel 2021, i ricercatori hanno addestrato DALL.E, una versione di GPT-3 con 12 miliardi di parametri, per generare immagini a partire da descrizioni testuali utilizzando un dataset di coppie testo-immagine. Nel 2022 è stato sviluppato DALL·E 2 per creare immagini e arte realistiche a partire da una descrizione in linguaggio naturale. DALL·E 2 può creare immagini e arte originali e realistiche a partire da una descrizione testuale. Può combinare concetti, attributi e stili.
Anno 2022: Il Rilascio di Midjourney
Midjourney è un modello molto popolare di text-to-image alimentato dal modello di diffusione latente. È creato e ospitato da un laboratorio di ricerca indipendente con sede a San Francisco. Può creare immagini ad alta definizione tramite descrizioni in linguaggio naturale chiamate prompt.
Anno 2022: Il Rilascio di Stable Diffusion
Stable Diffusion è un modello di diffusione latente per la generazione di immagini a partire da testo in grado di generare immagini fotorealistiche date qualsiasi input testuale, coltiva la libertà autonoma di produrre immagini incredibili e dà il potere a miliardi di persone di creare arte sorprendente in pochi secondi.
Anno 2022: Il Rilascio di ChatGPT
ChatGPT è un modello rivoluzionario nella storia dell’IA. È un modello gemello di InstructGPT, addestrato per seguire istruzioni tempestivamente e fornire una risposta dettagliata. Interagisce in un formato conversazionale che consente a ChatGPT di rispondere a domande di approfondimento, ammettere i propri errori, contestare premesse errate e respingere richieste inappropriate.
Anno 2022: Il Rilascio di AudioLM
AudioLM è un framework di Google per la generazione di audio di alta qualità con una consistenza a lungo termine. AudioLM mappa l’audio di input in una sequenza di token discreti e trasforma la generazione audio in un compito di modellazione del linguaggio in questo spazio di rappresentazione. Date le informazioni di input (parole o musica), può completarle.
2023 Liberato: Esplorando i Più Recenti Rilasci Caldi
Anno 2023: Il Rilascio di GPT-4
GPT-4 è il sistema più avanzato di OpenAI, in grado di produrre risposte più sicure e utili. GPT-4 può risolvere problemi complessi in modo più accurato, grazie alla sua vasta conoscenza generale e alle sue capacità di problem-solving. Supera GPT-3.5 con la sua creatività, l’input visivo e il contesto più lungo.
Anno 2023: Il Rilascio di Falcon
Falcon LLM è un modello di linguaggio di base (LLM) fondamentale con 40 miliardi di parametri addestrati su un trilione di token. Falcon si posiziona al vertice della classifica Hugging Face Open LLM Leaderboard. Il team ha posto particolare attenzione alla qualità dei dati su larga scala. Hanno prestato molta cura nella costruzione di una pipeline di dati per estrarre contenuti web di alta qualità utilizzando filtraggio e deduplicazione estensivi.
Anno 2023: Il Rilascio di Bard
Google ha rilasciato Bard come concorrente di ChatGPT. È un chatbot di intelligenza artificiale generativa conversazionale di Google. Basato sul modello fondamentale PaLM, Bard interagisce in modo conversazionale, rispondendo a domande successive, ammettendo errori, mettendo in discussione premesse errate e rifiutando richieste inappropriate.
Anno 2023: Il Rilascio di MusicGen
MusicGen è un modello di trasformatore auto-regressivo in fase singola in grado di generare campioni musicali di alta qualità condizionati da descrizioni di testo o prompt audio. Il modello di codificatore di testo congelato passa le descrizioni di testo per ottenere una sequenza di rappresentazioni di stato nascosto.
Anno 2023: Il Rilascio di AutoGPT
Auto-GPT è un’applicazione open-source sperimentale che mostra le capacità del modello di linguaggio GPT-4. Questo programma, guidato da GPT-4, collega insieme “pensieri” LLM per raggiungere autonomamente qualsiasi obiettivo tu imposti. Come uno dei primi esempi di GPT-4 che funziona in modo completamente autonomo, Auto-GPT spinge i limiti di ciò che è possibile con l’IA.
Anno 2023: Il Rilascio di LongNet
L’aumento della lunghezza delle sequenze è diventato una richiesta critica nell’era dei grandi modelli di linguaggio. Tuttavia, i metodi esistenti faticano con la complessità computazionale o l’espressività del modello, limitando la lunghezza massima della sequenza. LongNet, una variante del trasformatore, può estendere la lunghezza della sequenza a più di 1 miliardo di token senza sacrificare le prestazioni su sequenze più corte.
Anno 2023: Il Rilascio di Voicebox
Meta AI ha annunciato Voicebox, una svolta nell’IA generativa per il parlato. I ricercatori hanno sviluppato Voicebox, un modello di IA all’avanguardia in grado di eseguire compiti di generazione del parlato, come l’editing, il campionamento e la stilizzazione, attraverso l’apprendimento in contesto, anche senza un addestramento specifico.
Anno 2023: Il Rilascio di LLaMA
Meta AI ha introdotto LLaMA, una collezione di modelli di linguaggio di base che vanno da 7B a 65B di parametri. Hanno dimostrato che è possibile addestrare modelli all’avanguardia utilizzando esclusivamente dataset disponibili pubblicamente senza ricorrere a dataset proprietari e inaccessibili. In particolare, LLaMA-13B supera GPT-3 (175B) nella maggior parte dei benchmark.
Conclusione
Ripensando alla timeline dell’IA generativa, abbiamo assistito a come ha superato sfide e limitazioni, ridefinendo costantemente ciò che una volta si pensava impossibile. La ricerca innovativa, i modelli pionieristici e gli sforzi collaborativi hanno plasmato questo campo in una forza trainante dietro le innovazioni all’avanguardia.
Oltre alle sue applicazioni nell’arte, nella musica e nel design, l’IA generativa ha un impatto significativo in vari settori, come la sanità, la finanza e l’NLP, migliorando la nostra vita quotidiana. Questo progresso aumenta il potenziale per una coesistenza armoniosa tra tecnologia e umanità, creando innumerevoli opportunità. Dedicamoci allo sviluppo di questo straordinario campo, incoraggiando la cooperazione e l’esplorazione nei prossimi anni.