Multimodal AI Collega i Punti Digitali

Multimodal AI Unisce i Punti Digitali

L'IA multimodale combina diversi tipi di dati (come immagini, testo, discorso e dati numerici) con algoritmi di elaborazione dell'intelligenza multipla per ottenere prestazioni superiori. ¶ Credito: Enterra Solutions

I progressi nell’intelligenza artificiale (IA) sono arrivati a una velocità mozzafiato negli ultimi anni. La visione artificiale è entrata nel focus, la robotica ha fatto passi avanti e l’IA generativa si è inserita pienamente nel mainstream della società.

Eppure, nonostante tutto il progresso, una verità inquietante si distingue: la maggior parte dei framework di IA attuali rimane relativamente disconnessa. Nella maggior parte dei casi, funzionano come isole separate di automazione dell’IA, mancando le capacità chiave perché non possono condividere dati e operare sinergicamente con altri componenti di IA.

Gli ingegneri, i ricercatori e altri stanno prendendo nota. Stanno esplorando attivamente modi per costruire sistemi multimodali avanzati come ChatGPT-4. Collegando componenti di IA separati e flussi di dati, è possibile costruire sistemi più intelligenti che si allineano più strettamente con gli esseri umani.

“L’obiettivo è sfruttare una varietà di sistemi e fonti di dati per consentire funzionalità più avanzate,” afferma Martial Hebert, professore e rettore della Scuola di Informatica presso la Carnegie Mellon University.

Yoon Kim, professore assistente nel dipartimento di ingegneria e scienze informatiche presso il Massachusetts Institute of Technology (MIT), aggiunge: “Gli esseri umani sono già multimodali. La nostra capacità di costruire modelli di IA incarnati che possono vedere, ascoltare, comprendere il linguaggio e gestire altre attività sensoriali è cruciale per lo sviluppo di tecnologie molto più sofisticate.”

Raggiungere un’IA più intelligente

Ciò che rende l’IA multimodale così affascinante è la capacità di sfruttare canali dati complementari ma separati, combinare e decifrare tali dati e individuare segnali e schemi che altrimenti passerebbero inosservati. Basi di dati legacy, modelli linguistici di grandi dimensioni (LLM), sensori IoT, applicazioni software e dispositivi vari possono fungere tutti da carburante per l’IA multimodale.

Ad esempio, un robot di servizio che incorpora IA multimodale può elaborare immagini, suoni, il tatto e altri sensi in modo più simile agli esseri umani – e rispondere di conseguenza. Un’app diagnostica medica può combinare immagini, testo clinico e altri dati per ottenere un risultato più accurato. L’IA multimodale rende anche possibile per le persone – medici, avvocati, scienziati, analisti di business e altri – conversare e interagire con i dati in modo più intuitivo tramite un’app.

L’IA multimodale sta avanzando rapidamente. ChatGPT-4 di Open AI ha recentemente acquisito la capacità di vedere, ascoltare e parlare. Il sistema di IA generativo ampiamente utilizzato può caricare direttamente le immagini e rispondere a un utente. Le persone con problemi di vista o altre disabilità hanno accesso a un’app chiamata Be My Eyes su iOS e Android per orientarsi meglio nel loro ambiente circostante.

Nel frattempo, Microsoft sta integrando il suo framework Copilot in una vasta gamma di strumenti e applicazioni aziendali, tra cui intelligenza aziendale e analisi dei dati. Copilot è progettato per creare presentazioni al volo, fornire sintesi rapide di argomenti, coordinare la pianificazione e altre attività amministrative e utilizzare l’IA generativa con voce o testo per produrre e condividere testo, audio, immagini e video su varie app.

L’accesso a enormi volumi di dati nel cloud sta alimentando l’IA multimodale, afferma Hoifung Poon, direttore generale di Microsoft Health Futures. Oggi, afferma Poon, “vaste porzioni di conoscenza e dati umani digitalizzati possono essere facilmente raccolte e utilizzate per addestrare grandi modelli multimodali (LMM) per una vasta gamma di applicazioni”. Il denominatore comune è il testo, “che cattura la maggior parte della conoscenza umana e può potenzialmente servire come ‘l’interlingua’ di tutte le modalità”, afferma.

L’architettura di apprendimento profondo Transformer ha spinto avanti la multimodalità. Eccelle nel riconoscere modelli e relazioni matematicamente tra tutte le modalità, dal testo e il linguaggio parlato alle immagini e alle molecole. Ciò, unito al fatto che funziona in sinergia con le GPU per aumentare il calcolo, ha permesso a Transformer di superare le reti neurali convoluzionali e ricorrenti (CNN e RNN). Oggi, i modelli basati su Transformer di grandi dimensioni possono sviluppare una comprensione dei contenuti e condurre ragionamenti e conversazioni.

“In termini pratici, questo significa che i sistemi di intelligenza artificiale multimodali sono molto più capaci di gestire diverse forme di output, come testo, immagini e audio”, afferma Kim. Prevede che i sistemi multimodali progrediranno di un ordine di grandezza nei prossimi anni, inclusa la capacità di rispondere a domande arbitrarie e in qualche modo astratte, generare immagini e presentazioni complesse e supportare sistemi avanzati di percezione e controllo per le macchine, come i robot.

Progressi codificati duramente

Nonostante i progressi enormi nel settore, lo sviluppo di sistemi multimodali altamente avanzati richiede ulteriori avanzamenti. Per ora, un ostacolo può essere rappresentato da set di dati di scarsa qualità o scarsamente addestrati che producono risultati sfocati, distorti e talvolta estremamente inaccurati. Ciò potrebbe portare a sistemi che fraintendono il tono o l’intonazione, ad esempio. In caso peggiore, potrebbe portare a una diagnosi medica errata o a un veicolo autonomo che fraintende dati critici.

Collegare e unificare sistemi di intelligenza artificiale separati richiederà cambiamenti fondamentali al software. “È importante progettare strutture che consentano ai modelli di interagire in modo coerente con le diverse modalità”, afferma Kim. Ciò include collegare modelli e dati addestrati su diverse modalità in modo che possano essere “combinati” per diventare modelli multimodali. Questi modelli devono essere in grado di generare frammenti di codice software che possono essere eseguiti per influenzare il mondo reale.

Di conseguenza, i ricercatori stanno ora esplorando modi per sviluppare complessi framework di orchestrizzazione, come AutoGen di Microsoft, per affrontare questa sfida. Ad esempio, AutoGen è progettato per gestire comunicazioni e interazioni tra modalità diverse, comprese azioni che avvengono tra agenti software virtuali collegati a componenti fisiche in robot, veicoli autonomi e altre macchine.

Tuttavia, anche con strumenti di orchestrizzazione, gli esperti sostengono che i sistemi multimodali avanzati possono richiedere un controllo manuale dei dati, il loro riesame e una supervisione più diretta dei processi specifici. Infatti, alcuni si chiedono se l’automazione totale dell’intelligenza artificiale multimodale sia oltre l’orizzonte, almeno nel futuro prevedibile. “Senza i giusti controlli su molteplici fonti e flussi di dati, le cose possono andare molto male”, avverte Hebert.

Dati o obiettivi contrastanti possono seriamente compromettere l’intelligenza artificiale multimodale, afferma Poon, che sta attivamente cercando metodi di autoverifica per l’IA generativa. Ad esempio, sostiene che “insegnare ai modelli di linguaggio e di apprendimento a evitare comportamenti potenzialmente dannosi può comportare una sorta di ‘tassa di allineamento’ che diminuisce le prestazioni complessive”. Allo stesso modo, combinare dati provenienti da diverse fonti può portare a “effetti di lotto” o a confonditori che distorcono le scoperte e minano i risultati, aggiunge.

Tuttavia, Hebert e altri ritengono che sia possibile arrivare a un ampio e altamente sincronizzato quadro di intelligenza artificiale multimodale. “L’accuratezza e la disponibilità dei dati non sono un grande problema all’interno di un singolo canale di intelligenza artificiale”, spiega Hebert. “Ma coordinare più canali e flussi di dati, soprattutto quando il tocco, il linguaggio parlato, il testo e la visione devono funzionare armoniosamente in tempo reale, può essere straordinariamente difficile.”

Samuel Greengard è un autore e giornalista con sede a West Linn, OR, USA.