Incontra 3D-VisTA un Transformer pre-addestrato per l’allineamento della visione 3D e del testo che può essere facilmente adattato a vari compiti successivi.

Incontra 3D-VisTA, un Transformer pre-addestrato per allineare visione 3D e testo, adattabile a vari compiti.

Nel dinamico panorama dell’Intelligenza Artificiale, gli sviluppi stanno ridefinendo i confini della possibilità. La fusione della comprensione visiva tridimensionale e delle complessità dell’Elaborazione del Linguaggio Naturale (NLP) si è delineata come una frontiera affascinante. Questa evoluzione può portare alla comprensione e all’esecuzione di comandi umani nel mondo reale. La crescita dei problemi di visione-linguaggio tridimensionale (3D-VL) ha attirato notevole attenzione verso la spinta contemporanea per combinare l’ambiente fisico e il linguaggio.

Nell’ultima ricerca condotta dall’Università Tsinghua e dal Laboratorio chiave nazionale per l’Intelligenza Artificiale generale, BIGAI, Cina, il team di ricercatori ha introdotto 3D-VisTA, che sta per Allineamento tra Visione 3D e Testo. 3D-VisTA è stato sviluppato in modo tale da utilizzare un’architettura Transformer pre-addestrata per combinare la visione 3D e la comprensione del testo in modo fluido. Utilizzando strati di autoattenzione, 3D-VisTA abbraccia la semplicità rispetto ai modelli attuali, che combinano moduli complessi e specializzati per varie attività. Questi strati di autoattenzione svolgono due funzioni: consentono la fusione multimodale per combinare molte informazioni provenienti dai domini visivi e testuali e la modellazione monomodale per catturare informazioni all’interno delle singole modalità.

Tutto questo viene raggiunto senza la necessità di progettazioni complesse specifiche per compiti. Il team ha creato un ampio dataset chiamato ScanScribe per aiutare il modello a gestire meglio le difficoltà dei lavori 3D-VL. Essendo i primi a farlo su larga scala, questo dataset rappresenta un significativo progresso in quanto combina dati di scene 3D con descrizioni scritte correlate. Una collezione diversificata di 2.995 scansioni RGB-D, conosciute come ScanScribe, sono state prese da 1.185 diverse scene indoor in noti dataset tra cui ScanNet e 3R-Scan. Queste scansioni sono accompagnate da un ampio archivio di 278.000 descrizioni di scene associate e le descrizioni testuali sono derivate da diverse fonti, come il sofisticato modello di linguaggio GPT-3, modelli e progetti attuali 3D-VL.

Questa combinazione facilita una formazione completa esponendo il modello a una varietà di situazioni linguistiche e di scene 3D. Tre compiti cruciali sono stati coinvolti nel processo di formazione di 3D-VisTA sul dataset ScanScribe: modellazione del linguaggio mascherato, modellazione degli oggetti mascherati e corrispondenza tra testo e scene. Insieme, questi compiti rafforzano la capacità del modello di allineamento tra testo e scene tridimensionali. Questa tecnica di pre-addestramento elimina la necessità di ulteriori obiettivi di apprendimento ausiliari o procedure di ottimizzazione complesse durante le successive fasi di raffinamento fornendo a 3D-VisTA una comprensione completa di 3D-VL.

La notevole performance di 3D-VisTA in una varietà di compiti 3D-VL è ulteriore prova della sua efficacia. Questi compiti coprono una vasta gamma di difficoltà, come il ragionamento situato, ovvero il ragionamento all’interno del contesto spaziale degli ambienti 3D; l’elaborazione delle didascalie, ovvero descrizioni testuali esplicite delle scene 3D; il collegamento visivo, che include il collegamento di oggetti con descrizioni testuali, e la risposta alle domande che fornisce risposte accurate alle richieste su scene 3D. 3D-VisTA si comporta bene in queste sfide, dimostrando la sua abilità nel combinare con successo i campi della visione 3D e la comprensione del linguaggio.

3D-VisTA ha anche un’eccezionale efficienza dei dati e anche quando si trova di fronte a una piccola quantità di dati annotati durante la fase di raffinamento per i compiti successivi, raggiunge una performance significativa. Questa caratteristica evidenzia la flessibilità del modello e il suo potenziale per l’uso in situazioni reali in cui potrebbe essere difficile ottenere molti dati etichettati. I dettagli del progetto possono essere consultati su https://3d-vista.github.io/.

Le contribuzioni possono essere riassunte come segue –

  1. È stato introdotto 3D-VisTA, un modello combinato Transformer per l’allineamento del testo e della visione tridimensionale (3D). Utilizza l’autoattenzione anziché progettazioni intricate adattate a determinati compiti.
  1. È stato sviluppato ScanScribe, un ampio dataset di pre-addestramento 3D-VL con 278K coppie di scene-testo su 2.995 scansioni RGB-D e 1.185 scene indoor.
  1. Per 3D-VL, è stato fornito un metodo di pre-addestramento auto-supervisionato che incorpora la modellazione del linguaggio mascherato e la corrispondenza tra scene e testo. Questo metodo apprende efficientemente l’allineamento tra testo e nuvole di punti 3D, semplificando il successivo raffinamento del lavoro.
  1. Il metodo ha raggiunto una performance all’avanguardia in una varietà di compiti 3D-VL, tra cui l’ancoraggio visuale, il captioning denso, le domande e risposte e il ragionamento contestuale.