Google AI svela Mirsasol3B un modello multimodale autoregressivo per l’apprendimento attraverso le modalità audio, video e testo

Google AI presenta Mirsasol3B un modello multimodale autoregressivo per l'apprendimento audio, video e testo

Nel vasto campo dell’apprendimento automatico, decodificare le complessità insite in diverse modalità – audio, video e testo – ha rappresentato una sfida formidabile. La sincronizzazione intricata di modalità allineate temporalmente e non allineate e il volume di dati travolgente nei segnali video e audio hanno spinto i ricercatori a cercare soluzioni innovative. Entra in scena Mirasol3B, un ingegnoso modello autoregressivo multimodale creato dal team dedicato di Google. Questo modello affronta le sfide delle modalità distinte e si distingue nel gestire input video più lunghi.

Prima di approfondire le innovazioni di Mirasol3B, è fondamentale comprendere le complessità dell’apprendimento automatico multimodale. I metodi esistenti lottano per sincronizzare modalità allineate temporalmente come audio e video con modalità non allineate come il testo. Questa sfida di sincronizzazione è aggravata dalla grande quantità di dati presenti nei segnali video e audio, che spesso richiedono la compressione. L’urgenza di modelli efficaci in grado di elaborare senza problemi input video più estesi è diventata sempre più evidente.

Mirasol3B segna una svolta paradigmatica nell’affrontare queste sfide. A differenza dei modelli tradizionali, abbraccia un’architettura autoregressiva multimodale che separa la modellazione di modalità allineate temporalmente e contestuali. Comprendendo un componente autoregressivo per modalità allineate temporalmente (audio e video) e un componente distinto per modalità non allineate come le informazioni testuali, Mirasol3B offre una prospettiva innovativa.

Il successo di Mirasol3B si basa sulla sua abile coordinazione di modalità allineate temporalmente e contestuali. Video, audio e testo possiedono caratteristiche distinte; il video, ad esempio, è un segnale visivo spazio-temporale con un’alta frequenza dei fotogrammi, mentre l’audio è un segnale temporale unidimensionale con una frequenza più elevata. Per collegare queste modalità, Mirasol3B utilizza meccanismi di attenzione incrociata, facilitando lo scambio di informazioni tra i componenti autoregressivi. Ciò assicura che il modello comprenda in modo completo le relazioni tra modalità diverse senza la necessità di una sincronizzazione precisa.

Il margine innovativo di Mirasol3B risiede nella sua applicazione della modellazione autoregressiva alle modalità allineate temporalmente, preservando informazioni temporali cruciali, specialmente nei video lunghi. L’input video viene suddiviso in modo intelligente in chunk più piccoli, ciascuno composto da un numero gestibile di fotogrammi. Il “Combiner”, un modulo di apprendimento, elabora questi chunk, generando rappresentazioni congiunte di caratteristiche audio e video. Questa strategia autoregressiva consente al modello di comprendere i singoli chunk e le loro relazioni temporali, un aspetto critico per una comprensione significativa.

Il “Combiner” è essenziale per il successo di Mirasol3B, un modulo di apprendimento progettato per armonizzare efficacemente i segnali video e audio. Questo modulo affronta la sfida di elaborare grandi volumi di dati selezionando un numero minore di caratteristiche di output, riducendo efficacemente la dimensionalità. Il “Combiner” si manifesta in vari stili, da un approccio basato su Transformer a un “Memory Combiner”, come ad esempio il “Token Turing Machine” (TTM), che supporta un’unità di memoria differenziabile. Entrambi gli stili contribuiscono alla capacità del modello di gestire in modo efficiente input video e audio di grandi dimensioni.

Le prestazioni di Mirasol3B sono impressionanti. Il modello supera costantemente gli approcci di valutazione all’avanguardia su vari benchmark, tra cui MSRVTT-QA, ActivityNet-QA e NeXT-QA. Anche rispetto a modelli molto più grandi, come Flamingo con 80 miliardi di parametri, Mirasol3B dimostra capacità superiori con i suoi compatibili 3 miliardi di parametri. In particolare, il modello eccelle nelle impostazioni di generazione di testo a domanda aperta, mostrando la sua capacità di generalizzare e generare risposte accurate.

In conclusione, Mirasol3B rappresenta un salto significativo nell’affrontare le sfide dell’apprendimento automatico multimodale. Il suo approccio innovativo, che combina la modellazione autoregressiva, la suddivisione strategica delle modalità allineate nel tempo e l’efficiente Combinatore, stabilisce un nuovo standard nel campo. La capacità del team di ricerca di ottimizzare le prestazioni con un modello relativamente piccolo senza sacrificare l’accuratezza posiziona Mirasol3B come una soluzione promettente per applicazioni reali che richiedono una comprensione multimodale robusta. Mentre la ricerca di modelli di intelligenza artificiale che possano comprendere la complessità del nostro mondo continua, Mirasol3B si distingue come un faro di progresso nel panorama multimodale.