I ricercatori del CMU presentano BUTD-DETR un modello di Intelligenza Artificiale (IA) che si basa direttamente su un’espressione linguistica e rileva tutti gli oggetti menzionati nell’espressione.
I ricercatori del CMU presentano un modello di IA, BUTD-DETR, che rileva gli oggetti menzionati in un'espressione linguistica.
Trovare tutti gli “oggetti” in un’immagine data è il fondamento della visione artificiale. Creando un vocabolario di categorie e addestrando un modello a riconoscere istanze di questo vocabolario, si può evitare la domanda “Che cos’è un oggetto?”. La situazione peggiora quando si cerca di utilizzare questi rilevatori di oggetti come agenti domestici pratici. I modelli spesso imparano a selezionare l’oggetto indicato tra un insieme di suggerimenti di oggetti offerti da un rilevatore pre-addestrato quando si richiede di collegare enunciati referenziali in ambienti 2D o 3D. Di conseguenza, il rilevatore potrebbe non individuare enunciati che riguardano dettagli visivi più sottili, come la sedia, la gamba della sedia o la punta anteriore della gamba della sedia.
Il team di ricerca presenta un Detection Transformer Bottom-up, Top-down (BUTD-DETR pron. Beauty-DETER) come modello che si basa direttamente su un’enunciazione parlata e individua tutti gli elementi menzionati. BUTD-DETR funziona come un normale rilevatore di oggetti quando l’enunciazione è una lista di categorie di oggetti. Viene addestrato su coppie immagine-linguaggio etichettate con i bounding box di tutti gli elementi allusi nel discorso, nonché su set di dati di rilevamento oggetti a vocabolario fisso. Tuttavia, con alcune modifiche, BUTD-DETR può anche ancorare frasi linguistiche in nuvole di punti 3D e immagini 2D.
Invece di selezionarli casualmente da un insieme, BUTD-DETR decodifica i bounding box prestando attenzione all’input verbale e visivo. L’attenzione dal basso verso l’alto, indipendente dal compito, può trascurare alcuni dettagli durante la localizzazione di un elemento, ma l’attenzione diretta al linguaggio riempie le lacune. Uno scenario e un’enunciazione parlata vengono utilizzati come input per il modello. I suggerimenti per i bounding box vengono estratti utilizzando un rilevatore già addestrato. Successivamente, vengono estratti token visivi, di box e linguistici dalla scena, dai bounding box e dal discorso utilizzando encoder specifici per ogni modalità. Questi token assumono significato all’interno del loro contesto prestando attenzione gli uni agli altri. I token visivi raffinati avviano query di oggetti che decodificano i bounding box e si estendono su molti flussi.
- ByteDance AI Research propone un nuovo framework di apprendimento auto-supervisionato per creare avatar 3D stilizzati di alta qualità con una combinazione di parametri continui e discreti.
- Top Strumenti AI per la Trascrizione Vocale (2023)
- Il team di Stability AI presenta FreeWilly1 e FreeWilly2 nuovi modelli di lingua di grandi dimensioni (LLM) ad accesso aperto.
La pratica del rilevamento degli oggetti è un esempio di linguaggio referenziale basato, in cui l’enunciazione è l’etichetta di categoria per la cosa che viene rilevata. I ricercatori utilizzano il rilevamento degli oggetti come ancoraggio referenziale delle istruzioni di rilevamento selezionando casualmente determinate categorie di oggetti dal vocabolario del rilevatore e generando enunciazioni sintetiche sequenziandole (ad esempio, “Divano. Persona. Sedia.”). Questi indizi di rilevamento vengono utilizzati come informazioni di supervisione supplementari, con l’obiettivo di trovare tutte le occorrenze delle etichette di categoria specificate nell’indizio all’interno della scena. Al modello viene istruito di evitare di associare bounding box alle etichette di categoria per le quali non ci sono esempi di input visivi (come ad esempio “persona” nell’esempio sopra). Con questo approccio, un singolo modello può ancorare il linguaggio e riconoscere gli oggetti condividendo gli stessi dati di addestramento per entrambi i compiti.
Risultati
L’equivalente sviluppato MDETR-3D ottiene prestazioni scarse rispetto ai modelli precedenti, mentre BUTD-DETR raggiunge prestazioni all’avanguardia nel riferimento linguistico 3D.
BUTD-DETR funziona anche nel dominio 2D e, con miglioramenti architettonici come l’attenzione deformabile, raggiunge prestazioni paragonabili a MDETR convergendo due volte più velocemente. L’approccio compie un passo verso l’unificazione dei modelli di ancoraggio per 2D e 3D poiché può essere facilmente adattato per funzionare in entrambe le dimensioni con piccoli aggiustamenti.
Per tutti i benchmark di ancoraggio linguistico 3D, BUTD-DETR dimostra significativi miglioramenti delle prestazioni rispetto ai metodi all’avanguardia (SR3D, NR3D, ScanRefer). Inoltre, è stata la migliore proposta al workshop ECCV su Language for 3D Scenes, in cui si è svolta la competizione ReferIt3D. Tuttavia, quando addestrato su dati massivi, BUTD-DETR può competere con i migliori approcci esistenti per i benchmark di ancoraggio linguistico 2D. In particolare, l’attenzione deformabile efficiente dei ricercatori al modello 2D consente al modello di convergere due volte più rapidamente rispetto a MDETR all’avanguardia.
Il video qui di seguito descrive il flusso di lavoro completo.