I ricercatori del MIT CSAIL discutono le frontiere dell’AI generativa.

MIT CSAIL researchers discuss the frontiers of generative AI.

Gli esperti si riuniscono per guardare sotto il cofano del codice, del linguaggio e delle immagini generati dall’Intelligenza Artificiale, nonché delle sue capacità, limitazioni e impatto futuro.

Left to right: MIT professors Phillip Isola, Daniela Rus, Armando Solar-Lezama, and Jacob Andreas

L’emergere dell’intelligenza artificiale generativa ha suscitato una profonda esplorazione filosofica sulla natura della coscienza, della creatività e dell’autorialità. Mentre assistiamo a nuovi progressi nel campo, è sempre più evidente che questi agenti sintetici possiedono una notevole capacità di creare, iterare e sfidare le nostre tradizionali concezioni di intelligenza. Ma cosa significa davvero per un sistema di IA essere “generativo”, con nuovi confini sfumati dell’espressione creativa tra umani e macchine?

Per coloro che sentono come se l'”intelligenza artificiale generativa” – un tipo di IA che può creare nuovi e originali dati o contenuti simili a quelli su cui è stata addestrata – fosse sorta come una sensazione improvvisa, mentre le nuove capacità hanno sorpreso molti, la tecnologia sottostante è stata in fase di sviluppo da qualche tempo.

Tuttavia, la comprensione della vera capacità può essere tanto indistinta quanto alcuni dei contenuti generativi che questi modelli producono. A tal fine, i ricercatori del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT si sono riuniti per discutere delle capacità e delle limitazioni dell’IA generativa, nonché dei suoi potenziali impatti sulla società e sulle industrie, in relazione al linguaggio, alle immagini e al codice.

Ci sono vari modelli di IA generativa, ognuno con approcci e tecniche uniche. Questi includono le reti avversarie generative (GAN), gli autoencoder variazionali (VAE) e i modelli di diffusione, che hanno dimostrato un’eccezionale potenza in vari settori e campi, dall’arte alla musica e alla medicina. Con questo sono emersi anche una serie di dilemmi etici e sociali, come il potenziale per generare notizie false, deepfake e disinformazione. Considerare questi aspetti è fondamentale, dicono i ricercatori, per continuare a studiare le capacità e le limitazioni dell’IA generativa e garantire un uso etico e responsabile.

Nel corso del suo discorso introduttivo, per illustrare la capacità visiva di questi modelli, la professoressa del MIT di ingegneria elettrica e informatica (EECS) e direttrice del CSAIL Daniela Rus ha mostrato un regalo speciale che i suoi studenti le hanno recentemente fatto: un collage di ritratti di IA pieni di scatti sorridenti di Rus, che correva su uno spettro di riflessi simili a specchi. Eppure, non c’era alcun artista commissionato in vista.

Da ringraziare era solo la macchina.

I modelli generativi imparano a creare immagini scaricando molte foto dal web e cercando di rendere l’immagine di output simile ai dati di addestramento. Ci sono molti modi per addestrare un generatore di reti neurali, e i modelli di diffusione sono solo uno dei modi più popolari. Questi modelli, spiegati dall’associato professore di EECS del MIT e investigatore principale del CSAIL Phillip Isola, effettuano una mappatura dal rumore casuale alle immagini. Utilizzando un processo chiamato diffusione, il modello convertirà oggetti strutturati come le immagini in rumore casuale, e il processo viene invertito addestrando una rete neurale a rimuovere il rumore passo dopo passo fino a ottenere quell’immagine senza rumore. Se hai mai provato a utilizzare DALL-E 2, dove viene inserita una frase e rumore casuale, e il rumore si congela in immagini, hai usato un modello di diffusione.

“Per me, l’aspetto più entusiasmante dei dati generativi non è la loro capacità di creare immagini fotorealistiche, ma piuttosto il livello senza precedenti di controllo che ci offrono. Ci offre nuovi pomelli da girare e manopole da regolare, dando vita a entusiasmanti possibilità. Il linguaggio è emerso come un’interfaccia particolarmente potente per la generazione di immagini, consentendoci di inserire una descrizione come ‘stile Van Gogh’ e di avere il modello produrre un’immagine che corrisponde a quella descrizione”, afferma Isola. “Tuttavia, il linguaggio non è esaustivo; alcune cose sono difficili da comunicare solo attraverso le parole. Ad esempio, potrebbe essere difficile comunicare la posizione precisa di una montagna sullo sfondo di un ritratto. In questi casi, possono essere utilizzate tecniche alternative come il disegno per fornire un input più specifico al modello e ottenere l’output desiderato”.

Isola ha poi utilizzato un’immagine di un uccello per mostrare come diversi fattori che controllano i vari aspetti di un’immagine creata da un computer siano come “lanci di dadi”. Cambiando questi fattori, come il colore o la forma dell’uccello, il computer può generare molte diverse varianti dell’immagine.

E se non hai mai usato un generatore di immagini, c’è la possibilità che tu abbia utilizzato modelli simili per il testo. Jacob Andreas, assistente professore di EECS del MIT e investigatore principale del CSAIL, ha portato il pubblico dalle immagini nel mondo delle parole generate, riconoscendo la natura impressionante di modelli che possono scrivere poesie, avere conversazioni e fare la generazione mirata di documenti specifici tutto in un’ora.

Come questi modelli sembrano esprimere cose che sembrano desideri e convinzioni? Sfruttano il potere delle incapsulazioni di parole, spiega Andreas, dove le parole con significati simili vengono assegnate valori numerici (vettori) e vengono collocate in uno spazio con molte dimensioni diverse. Quando questi valori vengono rappresentati graficamente, le parole che hanno significati simili finiscono vicine l’una all’altra in questo spazio. La vicinanza di quei valori mostra quanto le parole siano correlate nel significato. (Ad esempio, forse “Romeo” è di solito vicino a “Giulietta”, e così via). I modelli trasformatori, in particolare, utilizzano qualcosa chiamato “meccanismo di attenzione” che si concentra selettivamente su parti specifiche della sequenza di input, consentendo molteplici round di interazioni dinamiche tra diversi elementi. Questo processo iterativo può essere paragonato a una serie di “oscillazioni” o fluttuazioni tra i diversi punti, portando alla previsione della prossima parola nella sequenza.

“Immagina di essere nel tuo editor di testo e di avere un bottone magico nell’angolo in alto a destra che puoi premere per trasformare le tue frasi in un inglese bello e preciso. Abbiamo avuto controlli grammaticali e di ortografia per un po’ di tempo, certo, ma ora possiamo esplorare molti altri modi per incorporare queste funzionalità magiche nelle nostre app”, dice Andreas. “Ad esempio, possiamo accorciare un passaggio lungo, proprio come facciamo con un’immagine nel nostro editor di immagini, e far apparire le parole come desideriamo. Possiamo persino spingere ancora oltre i confini aiutando gli utenti a trovare fonti e citazioni mentre stanno sviluppando un argomento. Tuttavia, dobbiamo tenere presente che anche i migliori modelli oggi sono lontani dall’essere in grado di farlo in modo affidabile o affidabile, e c’è ancora molto lavoro da fare per rendere queste fonti affidabili e imparziali. Tuttavia, c’è uno spazio enorme di possibilità in cui possiamo esplorare e creare con questa tecnologia.”

Un’altra impresa dei grandi modelli di lingua, che a volte può sembrare abbastanza “meta”, è stata esplorata: modelli che scrivono codice, sorta di piccole bacchette magiche, tranne che invece di incantesimi, evocano righe di codice, portando (alcuni) sogni di sviluppatori di software alla vita. Il professore del MIT di EECS e principale investigatore del CSAIL, Armando Solar-Lezama, ricorda un po’ di storia del 2014, spiegando come, all’epoca, ci fosse un significativo avanzamento nell’uso di “memoria a lungo termine (LSTM)”, una tecnologia per la traduzione linguistica che poteva essere utilizzata per correggere gli incarichi di programmazione per il testo prevedibile con un compito ben definito. Due anni dopo, è entrata in scena la necessità umana di base preferita da tutti: l’attenzione, introdotta dal documento Google del 2017 che presenta il meccanismo “Attention is All You Need”. Poco dopo, un ex membro del CSAIL, Rishabh Singh, ha fatto parte di un team che ha utilizzato l’attenzione per costruire interi programmi per compiti relativamente semplici in modo automatizzato. Poco dopo, sono emersi i trasformatori, portando a una esplosione di ricerca sull’utilizzo della mappatura testo-testo per generare codice.

“Il codice può essere eseguito, testato e analizzato per le vulnerabilità, rendendolo molto potente. Tuttavia, il codice è anche molto fragile e piccoli errori possono avere un impatto significativo sulla sua funzionalità o sicurezza”, dice Solar-Lezema. “Un’altra sfida è la dimensione e la complessità del software commerciale, che può essere difficile da gestire anche per i modelli più grandi. Inoltre, la diversità di stili di codifica e librerie utilizzate da diverse aziende significa che la barra per l’accuratezza quando si lavora con il codice può essere molto alta.”

Nella successiva discussione basata su domande e risposte, Rus ha aperto con una domanda sul contenuto: come possiamo rendere più potente l’output dell’IA generativa, incorporando conoscenze e vincoli specifici del dominio nei modelli? “I modelli per l’elaborazione di dati visivi complessi come modelli 3D, video e campi di luce, simili all’olodeck in Star Trek, si basano ancora pesantemente sulla conoscenza di dominio per funzionare in modo efficiente”, afferma Isola. “Questi modelli incorporano equazioni di proiezione e ottica nelle loro funzioni obiettivo e nelle loro routine di ottimizzazione. Tuttavia, con la crescente disponibilità di dati, è possibile che parte della conoscenza di dominio possa essere sostituita dai dati stessi, che forniranno vincoli sufficienti per l’apprendimento. Anche se non possiamo prevedere il futuro, è plausibile che, man mano che andiamo avanti, potremo avere bisogno di meno dati strutturati. Tuttavia, per ora, la conoscenza di dominio rimane un aspetto cruciale del lavoro con dati strutturati.”

Il panel ha anche discusso la natura cruciale dell’valutazione della validità dei contenuti generativi. Molti benchmark sono stati costruiti per dimostrare che i modelli sono in grado di raggiungere l’accuratezza a livello umano in determinati test o compiti che richiedono abilità linguistiche avanzate. Tuttavia, a una più attenta ispezione, semplicemente parafrasando gli esempi può far fallire completamente i modelli. Identificare le modalità di fallimento è diventato altrettanto cruciale, se non di più, che addestrare i modelli stessi.

Riconoscendo il palcoscenico per la conversazione – l’accademia – Solar-Lezama ha parlato dei progressi nello sviluppo di grandi modelli di lingua contro le tasche profonde e potenti dell’industria. I modelli in accademia, dice, “hanno bisogno di computer veramente grandi” per creare tecnologie desiderate che non si basino troppo pesantemente sul supporto industriale.

Al di là delle capacità tecniche, delle limitazioni e di come tutto sta evolvendo, Rus ha anche sollevato le questioni morali legate a vivere in un mondo generato dall’IA, in relazione ai deepfake, alle informazioni errate e alla parzialità. Isola ha menzionato nuove soluzioni tecniche incentrate sulla watermarking, che potrebbero aiutare gli utenti a capire sottilmente se un’immagine o un pezzo di testo è stato generato da una macchina. “Una delle cose a cui fare attenzione qui è che questo è un problema che non verrà risolto solo con soluzioni tecniche. Possiamo fornire lo spazio delle soluzioni e anche sensibilizzare sulle capacità di questi modelli, ma è molto importante che il pubblico più ampio sia consapevole di ciò che questi modelli possono effettivamente fare”, afferma Solar-Lezama. “Alla fine della giornata, questa deve essere una conversazione più ampia. Questo non dovrebbe essere limitato ai tecnologi, perché è un problema sociale piuttosto grande che va oltre la tecnologia stessa.”

Si è discusso di un’altra inclinazione riguardante i chatbot, i robot e un tema preferito in molte ambientazioni distopiche della cultura popolare: la seduzione dell’antropomorfizzazione. Perché, per molti, c’è una tendenza naturale a proiettare qualità simili a quelle umane su entità non umane? Andreas ha spiegato le scuole di pensiero opposte attorno a questi grandi modelli di linguaggio e alle loro capacità apparentemente sovrumane. 

“Alcuni credono che modelli come ChatGPT abbiano già raggiunto un’intelligenza a livello umano e potrebbero persino essere coscienti”, ha detto Andreas, “ma in realtà questi modelli ancora mancano delle vere capacità simili a quelle umane per comprendere non solo le sfumature, ma a volte si comportano in modi estremamente sospetti, strani e non umani. D’altra parte, alcuni sostengono che questi modelli siano solo strumenti superficiali di riconoscimento di modelli che non possono imparare il vero significato del linguaggio. Ma questa visione sottovaluta anche il livello di comprensione che possono acquisire dal testo. Mentre dovremmo essere cauti nel sovrastimare le loro capacità, non dovremmo nemmeno sottovalutare i potenziali danni del sottovalutare il loro impatto. Alla fine, dovremmo affrontare questi modelli con umiltà e riconoscere che c’è ancora molto da imparare su ciò che possono e non possono fare”.