Learn more about Multimodal Learning

Ricerca autonoma di informazioni visive con grandi modelli linguistici

Pubblicato da Ziniu Hu, ricercatore studente, e Alireza Fathi, ricercatore scientifico, Google Research, Perception T...

Question answering visiva modulare tramite generazione di codice

Pubblicato da Sanjay Subramanian, dottorando presso UC Berkeley, e Arsha Nagrani, ricercatore presso Google Research,...

Pic2Word Mappare immagini a parole per il recupero di immagini composte senza training

Scritto da Kuniaki Saito, Ricercatore Studente, Google Research, Cloud AI Team, e Kihyuk Sohn, Ricercatore Scientista...

Unificazione di dataset di immagini e didascalie con condizionamento del prefisso

Pubblicato da Kuniaki Saito, Ricercatore Studente, Cloud AI Team, e Kihyuk Sohn, Ricercatore Scientista, Perception T...

Preparazione pre-avanzata di visual-language potenziata dal recupero

Pubblicato da Ziniu Hu, Ricercatore Studente, e Alireza Fathi, Ricercatore Scientifico, Google Research, Perception T...

AVFormer Iniettare la visione in modelli di discorso congelati per l’AV-ASR senza sforzo

Pubblicato da Arsha Nagrani e Paul Hongsuck Seo, Scienziati della Ricerca, Google Research Il riconoscimento automati...